buddies-as-you-know / paper-survey Goto Github PK

View Code? Open in Web Editor NEW

0.0 0.0 0.0 34.05 MB

paper-survey's Introduction

paper-survey's People

Contributors

Watchers

paper-survey's Issues

Inertial-Only Optimization for Visual-Inertial Initialization

論文リンク

https://arxiv.org/pdf/2003.05766.pdf

1. どんなもの？

2. 先行研究と比べてどこがすごいの？

3. 技術や手法の"キモ"はどこにある？

4. どうやって有効だと検証した？

5. 論文において、研究の成果やデータに基づいて、その意義や影響、さらには限界点について詳細かつ適切に分析や評価がなされている部分は存在するのでしょうか？

6. 次に読むべき論文はあるか？

7.使用している環境、センシング、ナビゲーション、特徴量はなに？

8. わからない文字

9.論文に使えそうな表現（あれば）

論文情報・リンク

著者，"タイトル，" ジャーナル名，voluem，no.，ページ，年

Visual SLAM algorithms: a survey from 2010 to 2016

論文リンク

https://link.springer.com/article/10.1186/s41074-017-0027-2

1. どんなもの？

2. 先行研究と比べてどこがすごいの？

3. 技術や手法の"キモ"はどこにある？

4. どうやって有効だと検証した？

5. 論文において、研究の成果やデータに基づいて、その意義や影響、さらには限界点について詳細かつ適切に分析や評価がなされている部分は存在するのでしょうか？

6. 次に読むべき論文はあるか？

7.使用している環境、センシング、ナビゲーション、特徴量はなに？

8. わからない文字

9.論文に使えそうな表現（あれば）

論文情報・リンク

著者，"タイトル，" ジャーナル名，voluem，no.，ページ，年

読みたい論文

PreSim: A 3D Photo-Realistic Environment Simulator for Visual AI

論文リンク

https://ieeexplore.ieee.org/abstract/document/9362238

著者/所属機関

H. Yuan and R. C. Veltkamp

投稿年

April 2021

概要：

この研究では、拡張現実（AR）を使用してロボットのプログラミングを助けるための堅牢な把持手法について提案されています。著者たちは、人間のデモンストレーションを通じてロボットに把持を学習させるための新しいアプローチを開発しました。

研究背景

ロボットの把持技術は、製造業から医療まで多くの分野での応用が期待されています。しかし、従来の手法では、環境の変化に対応するための柔軟性や適応性が不足していました。この問題を解決するため、拡張現実を利用した新しい学習手法が必要とされていました。

提案手法

(i) 仮想世界で多感覚モデルをシームレスに統合し、シーンを認識してナビゲートできるようにするフォトリアリスティックな 3D 環境を提供します。

(ii) 内部ビュー合成モジュールを備えており、シミュレーションで開発およびテストされたアルゴリズムを、ドメイン適応を行わずに物理プラットフォームに変換します。

(iii) 深度推定やオブジェクト姿勢推定などのビジョンベースのアプリケーション用に大量のデータを生成できます。

実験

実験では、提案手法の有効性を検証するため、ロボットが様々な物体を把持するタスクが行われました。結果として、ARを使用した手法は、従来の手法に比べて高い精度と効率性を示しました。

感想

この研究は、ロボットの把持技術の進展に対する重要な一歩と言えます。拡張現実を利用することで、ロボットはより複雑なタスクに適応できるようになり、多くの産業分野での応用が期待されます。

参考

どんなもの？

ビュー合成のモジュールを使用して任意の位置からの膨大な量のフォトリアリスティックな仮想RGB-Dビューを提供することでシミュレーションと現実の間の現実ギャップを縮めることを目的としている。

AI 研究用のビジョンベースのアルゴリズムを開発するための 3D フォトリアリスティックな環境シミュレーターである PreSimを提案、開発をしている。

先行研究と比べてどこがすごい?

gazebo
unreal engine 4
VRKitchen
Habitat
エンジンへの依存度が高いため、豊富なシミュレート環境によって制限されます。対照的に、当社の環境シミュレーターを使用すると、ユーザーはデータセットを使用して独自の環境を構築できます。

従来の手法に比べて、拡張現実を利用することで、ロボットは環境の変化に柔軟に適応し、より正確な把持が可能になります。

Gibson Envはこの論文と近いことをしている。

Image based rendering

技術や手法のキモはどこ?

3D 再構成から生成された実際のシーンの点群を ROS にインポートし、
ROS フレームワークの 3D ビジュアライザーである Rviz で入力画像のカメラポーズとともに表示します。
仮想世界全体で仮想カメラの動きを制御し、ROS によってその 6D 姿勢をリアルタイムで推定します。
推定された姿勢は、クエリ入力データセット内で最も類似した色と深度の画像ペアを選択するための基準として使用されます。次に、選択した色と深度の画像ペアを使用して、ビュー合成モジュールに基づいて仮想ビューを合成します。
同時に、移動するカメラの軌跡全体と合成された色と深度の画像のペアが記録されます。

ビュー合成

ビュー合成モジュールは RGB-D 画像のまばらなセットを入力として受け取り、任意の視点から新しい色と深度の画像ペアを生成します。

オブジェクトの境界のピクセル精度の整列と深度の精緻化

色画像と深度画像のペア間でのオブジェクトの境界のピクセル精度の整列と正確な深度値は、高品質なレンダリングのために必要です。不正確な深度値や整列のズレは、ゴーストの輪郭などの視覚的なアーチファクトを引き起こすことがよくあります。オフラインの前処理中に、この目的を達成するためのピクセル対ピクセルの多視点深度精緻化アルゴリズムを導入します。

マッチングコスト関数 C(d i) は次のように定義されます。

$$C(d_i) = C_{pixel}(d_i) + C_{patch}(d_i)$$

ここで、( C_{\text{pixel}}(d_i) ) と ( C_{\text{patch}}(d_i) ) は、それぞれピクセル ( i ) の深度 ( d_i ) に対する写真の一貫性とエッジの保存を強調します。

写真の一貫性 ( C_{\text{pixel}}(d_i) ) は、それを他の画像に投影することで計測されます。以下の式で示されます。

$$C_{\text{pixel}}(d_i) = \sum _{r\in R}\lambda ||x_{i} - x_{r} ||_1 + (1-\lambda) ||\bigtriangledown x_{i} - \bigtriangledown x_{r}||_1 C_{patch}(d_i) =\textstyle \frac{1}{N} \sum _{q\in W_i } e^{ -||x_{i} -x_{q}||_1}$$

深度の精緻化過程では、一致コストが最も低い近くのものとピクセルの深度値を繰り返し置き換えます。イテレーションは左上のピクセルから始まり、行の主要な順序でピクセルを横断します。伝播は深度のフィルタリングと交互に行われます。

どうやって有効だと検証した?

3 つの独自のデータセット
datasets (Attic, Dorm, Playroom, Reading corner)

さまざまなデータセットでレンダリングされた深度マップの定量的評価

部屋全体をカバーすることを目的として、まばらにキャプチャされた画像が収集されます。ピーク信号対雑音比 (PSNR) (高いほど優れています) は、画質を評価するために使用されます。定量的評価結果を表 3にまとめます。

次に読むべき論文はあるか？

論文の主張やビジョンそのものに問題はないか？

自分の論文にも近い論文

制限と今後の取り組み:私たちの深度調整とビュー合成のアプローチは、最初のキャプチャの品質によって制限されます。キャプチャされた深度マップに欠落した情報が多すぎる場合、この方法では視覚的なアーティファクトが発生する可能性があります。たとえば、透明なオブジェクトの深度情報が 50% 未満しかキャプチャされていない場合、PreSim はそのオブジェクトに対して正確な合成画像を生成できません。さらに、データの合成に使用される軌道には、データを収集する人のようなさまざまな動きが含まれていますが、深度/姿勢予測ネットワークのトレーニングに使用されるデータの合成に対するさまざまな軌道生成戦略の影響を分析するには、新しいアプローチが必要です。

使える文章

collecting such data is time-consuming and labor-intensive. Apart from that, developing and testing visual AI algorithms for multisensory models is expensive and in some cases dangerous processes in the real world.

ディープラーニングを使用するには大量のデータが必要になる(画像)
しかし、現実世界でロボットを動かすのはコストも費用もかかる

Differentiable SLAM-net: Learning Particle SLAM for Visual Navigation

論文リンク

https://openaccess.thecvf.com/content/CVPR2021/papers/Karkus_Differentiable_SLAM-Net_Learning_Particle_SLAM_for_Visual_Navigation_CVPR_2021_paper.pdf

title: "Differentiable SLAM-net: Learning Particle SLAM for Visual Navigation"

1. どんなもの？

SLAM-netをナビゲーションのアーキテクチャとして未知の屋内環境における平面ロボットナビゲーションを可能にする。

2. 先行研究と比べてどこがすごいの？

Habitat 2020 PointNav タスクで SOTA を達成
広く採用されているORB-SLAMを大幅に上回る性能

3. 技術や手法の"キモ"はどこにある？

SLAM-netのキモは、SLAMアルゴリズムを微分可能な計算グラフにエンコードし、エンドツーエンドでニューラルネットワークモデルコンポーネントを学習することです。

SLAM-net はパーティクルフィルターベースの FastSLAM アルゴリズムを元にしています。
ロボットの動作が (ほとんど) 平面的であることを前提としています。
パスプランナーはD*アルゴリズムの変種

4. どうやって有効だと検証した？

SLAM-netは、Habitatプラットフォーム上で様々な実世界のRGBおよびRGB-Dデータセットを使用して実験を行い、その有効性を検証しました。
ベースライン
orb-slamをベースラインとしている。

Table 5:Transfer results.

Table 2:Main SLAM results.

5. 論文において、研究の成果やデータに基づいて、その意義や影響、さらには限界点について詳細かつ適切に分析や評価がなされている部分は存在するのでしょうか？

Habitat 2020 PointNav タスクで SOTA なので現実世界での検証はされていない。

6. 次に読むべき論文はあるか？

Michael Montemerlo, Sebastian Thrun, Daphne Koller, Ben Wegbreit, et al. Fastslam: A factored solution to the simultaneous localization and mapping problem. AAAI Conference on Artificial Intelligence, 593598, 2002.
Michael Montemerlo, Sebastian Thrun, Daphne Koller, Ben Wegbreit, et al. Fastslam 2.0: An improved particle filtering algorithm for simultaneous localization and mapping that provably converges. In IJCAI, pages 1151–1156, 2003.
Sim2Real Predictivity: Does Evaluation in Simulation Predict Real-World Performance?
Peter Karkus, David Hsu, and Wee Sun Lee. Particle filter networks with application to visual localization. In Proceedings of the Conference on Robot Learning, pages 169–178, 2018.

7.使用している環境、センシング、ナビゲーション、特徴量はなに？

環境:Habitatプラットフォーム
センシング:単眼のvision
ナビゲーション:Differentiable SLAMとD*アルゴリズム
特徴量：画像ベース

8. わからない文字

FastSLAM アルゴリズム
特にノイズの多い条件」とは、センサーノイズ、アクチュエーションノイズ、低いフレームレート、そして理想的な条件から逸脱する全ての要素を含む状況を指しています。

9.論文に使えそうな表現（あれば）

SLAM-netが使えそうな感じがある。

論文情報・リンク

著者，"タイトル，" ジャーナル名，voluem，no.，ページ，年
Nvidia GeForce GTX 1080 GPU

Orbeez-SLAM: A Real-time Monocular Visual SLAM with ORB Features and NeRF-realized Mapping

論文リンク

https://arxiv.org/pdf/2209.13274.pdf

著者/所属機関

Chi-Ming Chung1
, Yang-Che Tseng1
, Ya-Ching Hsu1
, Xiang-Qian Shi1
, Yun-Hung Hua1
, Jia-Fong Yeh1
,
Wen-Chin Chen1
, Yi-Ting Chen2
and Winston H. Hsu1,3

投稿年

概要：

研究背景

先行研究と比べてどこがすごい?

技術や手法のキモはどこ?

どうやって有効だと検証した?

論文の主張やビジョンそのものに問題はないか？

提案手法

実験

感想

参考

自分の論文に使える表現

ORB-SLAM3: An Accurate Open-Source Library for Visual, Visual-Inertial and Multi-Map SLAM

論文リンク

https://arxiv.org/abs/2007.11898

1. どんなもの？

2. 先行研究と比べてどこがすごいの？

3. 技術や手法の"キモ"はどこにある？

4. どうやって有効だと検証した？

5. 論文において、研究の成果やデータに基づいて、その意義や影響、さらには限界点について詳細かつ適切に分析や評価がなされている部分は存在するのでしょうか？

6. 次に読むべき論文はあるか？

7.使用している環境、センシング、ナビゲーション、特徴量はなに？

8. わからない文字

9.論文に使えそうな表現（あれば）

論文情報・リンク

著者，"タイトル，" ジャーナル名，voluem，no.，ページ，年

ORB-SLAM: A Versatile and Accurate Monocular SLAM System

論文リンク

title: "ORB-SLAM: A Versatile and Accurate Monocular SLAM System"

1. どんなもの？

大小の屋内および屋外環境でリアルタイムに動作する機能ベースの単眼同時位置特定およびマッピング (SLAM) システムである ORB-SLAM を紹介している。

2. 先行研究と比べてどこがすごいの？

これまでの単眼SLAMシステムと比べて、より汎用的で正確なものとなっている。屋内外の環境、手持ちカメラ、ロボット、自動車で動作する。LSD-SLAMのような最先端の直接法よりも高い精度を達成する。

重度のぶれにも対応
この論文より前は[PTAM]https://www.robots.ox.ac.uk/ActiveVision/Publications/klein_murray_ismar2007/klein_murray_ismar2007.pdf)が最高精度を出していた。

3. 技術や手法の"キモ"はどこにある？

システムの概要図
3 つのスレッド
1. トラッキング

主な革新点は、すべてのタスクに同じORB機能を使用すること、新しい自動初期化方法、「エッセンシャルグラフ」を使用したリアルタイムのループクロージング、寛大なキーフレームのスポーニングと厳格なカリングポリシーである。

4. どうやって有効だと検証した？

NewCollege、TUM RGB-D、KITTIを含むいくつかのデータセットで広範囲に検証されている。ORB-SLは他の単眼システムよりも優れた精度と頑健性を示す。

屋内と屋外のシーン、および車、ロボット、手持ちの動きからのシーケンスを処理できることを実証

5. 議論はあるか？

著者らは、ORB-SLAMが現在最も完全で信頼性の高い単眼SLAMシステムであると論じている。また、特徴に基づく方法は、SLAMのための直接的な方法よりも精度が高くなる可能性があると論じている。

6. 次に読むべき論文はあるか？

[Parallel Tracking and Mapping for Small AR Workspaces(]https://www.robots.ox.ac.uk/ActiveVision/Publications/klein_murray_ismar2007/klein_murray_ismar2007.pdf)

論文情報・リンク

R. Mur-Artal, J. M. M. Montiel and J. D. Tardós, "ORB-SLAM: A Versatile and Accurate Monocular SLAM System," in IEEE Transactions on Robotics, vol. 31, no. 5, pp. 1147-1163, Oct. 2015, doi: 10.1109/TRO.2015.2463671.

用語解説

severe motion clutter: カメラや対象物が高速で動くことによって生じる、画像中の特徴点の大きな動きのことを指しています。
例えば、手持ちカメラを素早く動かしたり、ロボットなどが高速で移動する場合には、フレーム間で同じ特徴点の位置が大きく変化します。このような場合、フレーム間の特徴点の対応付けが難しくなり、カメラの位置と姿勢の推定が困難になります。

ORB-SLAMは、このような激しい動きのクラッター下でもロバストなトラッキングとマッピングを実現できることを示しています。その鍵となるのが、特徴点の寛容な生成と厳格な削減の戦略です。多くの特徴点を生成することで、クラッター下でもある程度の特徴点を追跡でき、厳格な削減により誤対応を取り除くことができます。

単眼SLAMシステム: 1つのカメラのみを使ったSLAM(同時定位とマッピング)システムのこと

Application of 3D point cloud map and image identification to mobile robot navigation

論文リンク

https://journals.sagepub.com/doi/epub/10.1177/00202940221136242

著者/所属機関

Tsung-Ying Lin and Jih-Gau Juang National Taiwan Ocean University

投稿年

2020

概要：

この論文では、LiDARカメラから得られた深度マップを変換したポイントクラウドを使用して室内の3Dポイントクラウドマップを構築し、YOLOv4ネットワークと組み合わせることで、ドア番号やドアノブをマップ上に表示する方法、および全方向型ホイールモバイルロボット(WMR)が現在位置を把握し、指定された場所への経路を計画できるようにするナビゲーション方法を提案しています。

研究背景

先行研究と比べてどこがすごい?

カメラの画像だけで操作し部屋の中の物体を認識することができている。

提案手法

実験

どうやって有効だと検証した?

論文の主張やビジョンそのものに問題はないか？

感想

自分の論文に使えそうな文章

参考

Instant neural graphics primitives with a multiresolution hash encoding

論文リンク

https://arxiv.org/pdf/2201.05989.pdf

1. どんなもの？

階層的なハッシュテーブル構造により、効率的な位置エンコーディングを実現。CUDAレベルでの最適化も組み合わせて行うことで、わずか数十秒でNeRFモデルを訓練できるなど、さまざまなアプリケーションでの訓練を高速化
凡庸性の高い新しい入力のエンコーディングによってコストを削減し計算量を削減した
効率的かつ適応性の高い新しいエンコーディング方法を提案

2. 先行研究と比べてどこがすごいの？

NeRFの元論文との違い

NeRFは5次元入力をfrequency encodingを適用している。
- 結果として高周波成分を捉えられぼやけずらくなる
- しかｈし高周波の詳細の表現能力が弱点。
補助的な学習パラメータを配置する方法も提案されている
- 空間を分割すつボクセルグリッドの頂点に特徴ベクトル取りを配置学習する
- しかし多くの特徴ベクトルが無駄に終わる（じゅうようなのは物体の表面だから）
- なのでspareに入れることが重要になる。

上記の問題点を捉え高速化しながら高解像度にしている。

3. 技術や手法の"キモ"はどこにある？

グリッドの拡張点に特徴ベクトルを配置
- 学習推論高速化精密化
グリッドの多重解像度化→省パラ
グリッドのスパース化→省パラ

上記をhashtableでシンプル実装

$$ \text{enc}(x) = (\sin(2^0 x), \sin(2! x), \ldots, \sin(24^{-1}x), \ \cos(2^0 x), \cos(2! x), \ldots, \cos(24^{-1}x) ). $$

1.多重解像度をグリッドを導入

各階層の格子の数を以下のように定義する

$$ (2) \quad N_l := \left\lfloor N_{\text{min}} \cdot N \right\rfloor (3) \quad b := \exp\left( \frac{\ln(N_{\text{max}}) - \ln(N_{\text{min}}) }{L-1} \right). $$

2.Hash tableから具ロッド頂点に対応する特徴ベクトルを参照

各階層では、xの近傍にある格子点を参照する。上図のl=0おける近傍は青の四角の頂点であり、l=1lにおける近傍は赤い四角の頂点である。

各格子点には、疑似乱数的なハッシュキーが下式によって与えられる。

$$ h(x) = \left( \bigoplus_{i=1}^{d} x_i \pi_i \right) \mod T $$

位置ｘの特徴ベクトルを線形補間

4.各解像度の特徴ベクトルを連結ｈしてNNへ入力

4. どうやって有効だと検証した？

5. 論文において、研究の成果やデータに基づいて、その意義や影響、さらには限界点について詳細かつ適切に分析や評価がなされている部分は存在するのでしょうか？

6. 次に読むべき論文はあるか？

Neural Sparse Voxel Fields

8. わからない文字

9.論文に使えそうな表現（あれば）

論文情報・リンク

https://github.com/nvlabs/tiny-cuda-nn

LLM-BRAIn: AI-driven Fast Generation of Robot Behaviour Tree based on Large Language Model

論文リンク

https://arxiv.org/pdf/2305.19352.pdf

title: "論文タイトル"

date: YYYY-MM-DD
categories:

1. どんなもの？

人間のオペレータの口頭説明に基づいて事前に作成されたノードのライブラリを使用して、BT 形式で複雑なロボットの動作を生成する、自律ロボット制御への新しいアプローチを提案します。
自律型ロボット制御における新しいアプローチであるLLMBRAInの作成

スタンフォードAlpaca 7Bモデルから微調整された変換器ベースの大規模言語モデル(LLM)であり、テキスト記述からロボットの行動ツリー(BT(ビヘイビアツリー))を生成する
ビヘイビアツリーとは、ツリー構造を用いて行動決定を記述したものです。

2. 先行研究と比べてどこがすごいの？

BT生成のための大規模なデータセット(8,500サンプル)をtext-davinci-003を用いて自動生成した。既存手法では人手でデータセット作成が必要。
Stanford AlpacaモデルをロボットのBT生成タスクに初めて適用した。AlpacaはGPT-3と近い性能で小規模なモデルなので、ロボットへの実装が容易。

3. 技術や手法の"キモ"はどこにある？

システムは、7億の重みを持つ再トレーニングされたLLM-BRAInモデルを実行可能なオンボードマイクロコンピュータを含む必要がある。
ハードウェアには、タスクを実行するために必要なセンサー、アクチュエーター、およびロボットの機械部品が全て含まれている。
ソフトウェアシステムには、LLM-BRAInモデルを実行するアプリケーション、それをロボットの実行可能ファイルに変換するBTインタープリタ、およびロボットが実行できるアクションのリストを含むノードライブラリが含まれている。
操作者が自然言語でロボットにコマンドを与えることができる。
コマンドはモデルへのリクエストとして整形され、利用可能なノードのリストで補足される。
モデルによって処理されたクエリの出力は、特殊文字を変換した後、XML形式の生成されたBT（Behavior Tree）である。
以前は手動でBTを書いていたが、このアプローチはその普遍性と多用途性のためにロボティクスで広く普及している。
コマンドの実行は、FacontiとColledanchiseによるリポジトリ[16]にあるBehaviorTree.CPPライブラリを使用してROS2ノードとして行われる。
重要なのは、テキストコマンドを解釈し、詳細なロボット動作ツリーを効果的に生成するための大規模言語モデルの微調整
モデルは、text-davinchi-003 を使用した自己指示のスタイルで生成された指示に従うデモンストレーションでトレーニング
Stanford Alpacaモデルをファインチューニングすることで、テキストからBTを生成できるLLM-BRAInを実現。Alpacaの汎用性と生成能力を活かした。
text-davinci-003モデルを使って、様々なBTを自動生成。大規模で質の高いデータセット作成を可能にした。
LoRAによる効率的ファインチューニング手法を採用。モデルサイズを小さく保ちつつ生成能力を高めた。
ROS2とBehaviorTreeライブラリを用いて、生成されたBTを即座に実行可能な形に変換。実ロボットへの実装を容易にした。
再帰的にサブツリーを生成することで、BTのサイズ制限を緩和する方針。大規模かつ複雑なBTの生成を可能にする。
ロボットの車載マイコンへの搭載に適したコンパクトなサイズを維持しながら、複雑なロボットの動作を正確に生成する能力により際立っています。

4. どうやって有効だと検証した？

LLM-BRAIn によって生成された動作ツリーと人間によって生成された動作ツリーとの比較（ユーザー実験の被験者数は15人）
LLM-BRAInによるBTと人間によるBTは主観的に区別がつかないことが示された。

5. 議論はあるか？

データセットの品質判断基準があいまい。多様性、構造の正しさなどの定量的な尺度がない。
ノードライブラリの作成プロセスが明確でない。どのように安全性を担保したのかも不明確。
BTの規模が制限されているため、より大規模なBTが生成できるようにすること。
ドローンやマニピュレータなど、タスク固有のデータセットを用意して性能を評価すること。
ユーザーからのフィードバックに基づくBTの修正や説明生成機能を追加すること。
本手法を産業用ロボットや自動運転などの実アプリケーションに適用していくこと。
比較実験として、従来の手法(状態遷移など)との定量的比較が必要。
より多くの被験者による主観評価実験を行い、統計的有意性を高めること。

6. 次に読むべき論文はあるか？

[16]https://github.com/BehaviorTree/BehaviorTree.CPP

論文情報・リンク

VDO-SLAM: A Visual Dynamic Object-aware SLAM System

論文リンク

https://arxiv.org/abs/2005.11052

1. どんなもの？

2. 先行研究と比べてどこがすごいの？

3. 技術や手法の"キモ"はどこにある？

4. どうやって有効だと検証した？

5. 論文において、研究の成果やデータに基づいて、その意義や影響、さらには限界点について詳細かつ適切に分析や評価がなされている部分は存在するのでしょうか？

6. 次に読むべき論文はあるか？

7.使用している環境、センシング、ナビゲーション、特徴量はなに？

8. わからない文字

9.論文に使えそうな表現（あれば）

論文情報・リンク

著者，"タイトル，" ジャーナル名，voluem，no.，ページ，年

Neural Radiance Fields: Past, Present, and Future

論文リンク

https://arxiv.org/pdf/2304.10050.pdf

1. どんなもの？

Nerfについてのsurvey論文
NeRFは、3Dシーンを連続的な関数として表現し、画像ベースの高品質なビューシンセシスを実現する手法です。この論文では、NeRFの歴史、技術的概要、様々な応用、評価手法などについて包括的にレビュー

2. ニューラルレンダリングと NeRF の歴史

ニューラルレンダリングの試みでは、通常、実際のシーンの仮想モデルを作成するための長時間のパイプライン操作が必要

8. わからない文字

COLMAP:コンピュータビジョンとコンピュータグラフィックスの 2 つの重要な操作、つまり以下で説明する MVS と SfM 用に C++ で書かれたライブラリ
1. 画像の取得:複数の視点からシーンまたはオブジェクトの一連の画像をキャプチャし、十分な重複と範囲を確保します。理想的には、カメラの固有パラメータ (焦点距離、主点など) および外部パラメータ (位置および方向) が既知であるか、推定されている必要があります。
1. 特徴の抽出と照合:画像ごとに、特徴的な点や特徴を特定し、異なる画像間でそれらを照合します。これは、SIFT、SURF、ORB などの特徴検出器と記述子を使用して実現できます。
1. ペアワイズステレオマッチング:特徴の一致に基づいて、画像の各ペアの深度マップまたは視差マップを計算します。これは、ブロックマッチング、動的プログラミング、グラフカットアルゴリズムなどを使用して実行できます。
1. 3D 再構築:すべての画像ペアの深度マップまたは視差マップを単一の一貫した 3D モデルに結合します。これには、深度マップの融合、体積再構成、点群の結合などの手法が含まれる場合があります。
1. 後処理 (オプション):メッシュ、テクスチャリング、穴埋めなどの方法を適用して 3D モデルを改良し、結果の視覚的な品質と完全性を向上させます。

9.論文に使えそうな表現（あれば）

論文情報・リンク

著者，"タイトル，" ジャーナル名，voluem，no.，ページ，年

VINS-Mono: A Robust and Versatile Monocular Visual-Inertial State Estimator

論文リンク

https://ieeexplore.ieee.org/document/8421746/?arnumber=8421746&source=authoralert

1. どんなもの？

2. 先行研究と比べてどこがすごいの？

3. 技術や手法の"キモ"はどこにある？

4. どうやって有効だと検証した？

5. 論文において、研究の成果やデータに基づいて、その意義や影響、さらには限界点について詳細かつ適切に分析や評価がなされている部分は存在するのでしょうか？

6. 次に読むべき論文はあるか？

7.使用している環境、センシング、ナビゲーション、特徴量はなに？

8. わからない文字

9.論文に使えそうな表現（あれば）

論文情報・リンク

著者，"タイトル，" ジャーナル名，voluem，no.，ページ，年

The Bal I- Pivoting Algorithm for Surface Reconstruction

論文リンク

https://ieeexplore.ieee.org/document/817351

著者/所属機関

投稿年

概要：

研究背景

先行研究と比べてどこがすごい?

技術や手法のキモはどこ?

どうやって有効だと検証した?

論文の主張やビジョンそのものに問題はないか？

提案手法

実験

感想

参考

自分の論文に使える表現

Bags of Binary Words for Fast Place Recognition in Image Sequences

論文リンク

http://doriangalvez.com/papers/GalvezTRO12.pdf

1. どんなもの？

2. 先行研究と比べてどこがすごいの？

3. 技術や手法の"キモ"はどこにある？

4. どうやって有効だと検証した？

5. 論文において、研究の成果やデータに基づいて、その意義や影響、さらには限界点について詳細かつ適切に分析や評価がなされている部分は存在するのでしょうか？

6. 次に読むべき論文はあるか？

7.使用している環境、センシング、ナビゲーション、特徴量はなに？

8. わからない文字

9.論文に使えそうな表現（あれば）

論文情報・リンク

著者，"タイトル，" ジャーナル名，voluem，no.，ページ，年

Orbeez-SLAM: A Real-time Monocular Visual SLAM with ORB Features and NeRF-realized Mapping

論文リンク

https://ieeexplore.ieee.org/abstract/document/10160950

1. どんなもの？

Orbeez-SLAMではORB-SLAMとNeRFをしようして新しいシーンへの迅速な適応とリアルタイム推論での高密度マッピングを実現
ORB-SLAM２とinstant-ngp frameworkに基づくNeRFを使用している。
事前のトレーニングなしでのオンラインかつリアルタイム
NeRF-SLAMのベースラインを上回っている
視覚なオドメトリと高速 NeRF フレームワークを組み合わせる
sotaの更新
既存のベースラインよりOrbeez-SLAMは800倍高速

2. 先行研究と比べてどこがすごいの？

先行研究の嫌なところ

ビジュアル SLAMの最新版であるTandem は事前学習しないと使えない。
iMAPやNICE-SLAM はRGB-D 入力が必要である（ビジュアルオドメトリ使えよ...と筆者言っている)
COLMAPとか使ってカメラの位置推定して最適化とこやってるけど時間遅すぎ(NeRFの弱点)
従来のニューラルを使用したvision slamは事前学習あるからヤダ

筆者が思いついたすげーところ

Instant-ngp つかえば早いじゃん
ORB-SLAM２使えばRGB-D 入力いらないじゃん
iMAPとかのNeRF-SLAMじゃビジュアルオドメトリないからこれ入れてあげようぜ
結果としてはえーつえーSLAMができる

3. 技術や手法の"キモ"はどこにある？

システム概要

入力画像ストリームから画像の特徴を抽出します
VOを使用してカメラを位置推定を行う。

$$\begin{equation*}L_{rpj}= \sum\limits_{ij}\Vert u_{ij}-\pi(\mathscr{C}_{j},P_{i})\Vert_{2} \tag{6}\end{equation*}$$

ここで、

uij : 画像j上の点iの画素位置
Cj : カメラjの姿勢(内参行列と外参行列)
Pi : 3D空間上の点i
π : 投影関数で、3D点PiをカメラCjの姿勢に投影する
3D点PiをカメラCjの姿勢で画像平面に投影した位置と、実際に観測された画素位置uijの誤差をすべての点について計算し、その二乗和を最小化することでカメラ姿勢Cjを推定しています。
三角分割によるマップポイントを生成し
カメラのポーズとマップポイントの最適化はbundle adjustment を行う

$$\begin{equation*}\min\limits_{\{[R\vert t]_{j}\},\{P_{i}\}}L_{rpj} \tag{8}\end{equation*}$$

最小化問題は、Levenberg-Marquardt法を用いて解いています。

更新されたカメラのポーズとマップを利用して NeRF をトレーニング
損失関数出して最適化

実装の詳細

Intel i7-9700 CPU と NVIDIA RTX 3090 GPU を搭載したデスクトップ PCを用意
ORB-SLAM2からループ終了プロセスを継承している
NeRF に渡した後にキーフレームが削除されないように、ORB-SLAM2 のようにキーフレームをカリング
instant-ngpでNeRF最適化

4. どうやって有効だと検証した？

データセット

TUM RGB-D , Replica , and ScanNet

Baselines

学習ベース：SLAM: DI-Fusion, iMap, NICE-SLAM,
従来ベース : SLAM: BAD-SLAM, Kintinuous , ORB-SLAM2

評価設定

深度バージョンでの有効性

メトリクス

ATE:ラウンドトゥルース (GT) 軌道と位置合わせされた推定軌道の間の二乗平均平方根誤差 (RMSE)
PSNR(ピーク信号対雑音比):NeRF でレンダリングされた画像と GT 軌跡が通過した GT 画像の歪み率を評価
Depth L1:推定された深度とGT深度のL1誤差を計算（２乗しない）
tum rgb-d での追跡結果。frは、TUM RGB-Dデータセットのシーケンス名

スキャンネット上の追跡結果

レプリカでの再構成結果。深さ l1 [cm] (↓) と psnr [db] (↑) を使用します。値は、オフィス 0 ～ 4 および部屋 0 ～ 2 で平均化されます。Nice-slam は、色と深度のレンダリング中に gt Depth を使用します。GT深度ありおよびなしのナイススラムの結果を示します。

実行時のフレーム数比較

レプリカのアブレーション研究。再投影誤差のみからカメラのポーズを最適化することを実証します。

レンダリング評価

NeRF生成

5. 論文において、研究の成果やデータに基づいて、その意義や影響、さらには限界点について詳細かつ適切に分析や評価がなされている部分は存在するのでしょうか？

大規模なシーンにおける性能が課題
レイキャスティング三角測量がハードコーディングの可能性あり（実際の実装のしきい値として 64 を選択）

6. 次に読むべき論文はあるか？

orb-slam2
Instant Neural Graphics Primitives with a Multiresolution Hash Encoding

8. わからない文字

9.論文に使えそうな表現（あれば）

論文情報・リンク

C. -M. Chung et al., "Orbeez-SLAM: A Real-time Monocular Visual SLAM with ORB Features and NeRF-realized Mapping," 2023 IEEE International Conference on Robotics and Automation (ICRA), London, United Kingdom, 2023, pp. 9400-9406, doi: 10.1109/ICRA48891.2023.10160950.

NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

論文リンク

https://arxiv.org/pdf/2003.08934.pdf

著者/所属機関

Ben Mildenhall1? Pratul P. Srinivasan1? Matthew Tancik1?
Jonathan T. Barron2 Ravi Ramamoorthi3 Ren Ng1
1UC Berkeley 2Google Research 3UC San Diego

投稿年

2020

概要：

研究背景

提案手法

実験

感想

参考

Design and use paradigms for Gazebo, an open-source multi-robot simulator

論文リンク

https://ieeexplore.ieee.org/document/1389727

title: "論文タイトル"

Design and use paradigms for Gazebo, an open-source multi-robot simulator
date: YYYY-MM-DD
categories:

1. どんなもの？

2. 先行研究と比べてどこがすごいの？

3. 技術や手法の"キモ"はどこにある？

4. どうやって有効だと検証した？

5. 議論はあるか？

6. 次に読むべき論文はあるか？

論文情報・リンク

N. Koenig and A. Howard, "Design and use paradigms for gazebo an open-source multi-robot simulator", Proc. IEEE/RSJ Int. Conf. Intell. Robots Syst., vol. 3, pp. 2149-2154, 2004.

Vision-Only Robot Navigation in a Neural Radiance World

著者/所属機関

著者：Yifan Wu, Lingjie Liu, Jiatao Gu, Vladlen Koltun
所属機関：Facebook AI Research

投稿年

2021年

概要：

この論文では、視覚のみを用いたロボットナビゲーションのための新しいアプローチが提案されています。提案手法では、NeRF（Neural Radiance Fields）を用いて、環境の3Dジオメトリと外観をキャプチャします。これにより、ロボットは視覚情報のみを用いて、未知の環境でのナビゲーションが可能となります。

研究背景

従来の視覚ベースのロボットナビゲーション手法は、環境の3Dモデリングが困難であり、未知の環境でのナビゲーションには限界がありました。NeRFの登場により、これらの問題に対する新しい解決策が提供されています。

提案手法

著者たちは、NeRFを用いて環境の3Dジオメトリと外観をリアルタイムでキャプチャし、これを基にロボットのナビゲーションを行います。また、効果的な探索戦略も提案されています。

実験

実験では、提案手法が未知の環境でのロボットナビゲーションにおいて、従来手法よりも優れた性能を示すことが確認されました。

どんなもの？

視覚のみを用いて、未知の環境でロボットがナビゲートできる新しい手法です。NeRFを利用して、環境の3Dジオメトリと外観をキャプチャします。

先行研究と比べてどこがすごい?

未知の環境での3Dモデリングの困難を克服し、視覚情報のみを用いた効果的なロボットナビゲーションが可能となりました。

技術や手法のキモはどこ?

NeRFを用いたリアルタイムの3Dジオメトリと外観のキャプチャ、および効果的な探索戦略がキーとなっています。

どうやって有効だと検証した?

未知の環境でのナビゲーション実験を通じて、提案手法の有効性が検証されました。

Robust 2D Indoor Localization through Laser SLAM and Visual SLAM Fusion

論文リンク

title: "Robust 2D Indoor Localization through Laser SLAM

and Visual SLAM Fusion "

1. どんなもの？

レーザSLAMとモノキュラカメラベースのSLAMを組み合わせることで、各々の長所を活かし、位置推定の精度を向上させる手法を提案

2. 先行研究と比べてどこがすごいの？

先行研究では特徴マッチングによるセンサ融合が主流だったが、この研究ではSLAMのトラジェクトリマッチングに焦点を当てている。これにより様々なSLAM手法に一般化できる利点がある。
単に特徴抽出に焦点を当てています。センサーフュージョンによって改善された特徴抽出により位置特定のパフォーマンスが向上しますが、そのようなアルゴリズムは特定の SLAM アルゴリズムに限定されます。
SLAM アルゴリズムのあらゆる融合に適用できます。

3. 技術や手法の"キモ"はどこにある？

トラジェクトリを画像のように処理する発想が斬新。曲率フィルタやピラミッドフィルタでノイズを除去し、本質行列により変換パラメータを求めている。

軌跡抽出

$\begin{align*} &\ \ T_{traj}=\begin{bmatrix} \frac{1}{P_{x}} & 0 & 0 & -\frac{x_{\min}}{P_{x}}\\ 0 & \frac{1}{P_{y}}& 0 & -\frac{y_{\min}}{P_{y}}\\ 0 & 0 & 1 & 1\\ 0 & 0 & 0 & 1 \end{bmatrix}\tag{1}\\ &P_{x}= \frac{x_{\max}- x_{\min}}{w}, P_{y}=\frac{y_{\max}- y_{\min}}{h} \end{align*}$

整列角度解析

れら 2 つのシステムの間に変換行列が存在します。2 次元マッピング問題の場合、2 つの座標の位置ずれに影響を与えるのは面内の回転と平行移動です。

この位置合わせ問題は、損失値を同じタイムスタンプにおける 2 つの軌道点間のユークリッド距離として定義する場合の最適化問題です。

画像を回転することで損失値を最小化します。軌跡画像内のすべての点が回転された後、x 座標と y 座標に沿った最大距離が元の軌跡画像のサイズに合わせて再スケールされます。
アライメント角：回転行列で、αはアライメント角です。この行列は、画像を回転させる際に使用され、最適な位置合わせを実現するための角度を表しています。
$\begin{equation*} R_{AAA}(\alpha)= \begin{bmatrix}\cos\alpha& -\sin\alpha& 0& 0\\ \sin\alpha& \cos\alpha& 0& 0\\ 0& 0& 1& 0\\ 0& 0& 0& 1\end{bmatrix} \tag{2} \end{equation*}$

4. どうやって有効だと検証した？

ピオニア3-DXロボットとPepperロボットを用いた実験で、推定誤差が5%未満であることを検証した。センサ性能が低い場合でもロバストな定位が可能であることも示した。

5. この論文において、研究の成果やデータに基づいて、その意義や影響、さらには限界点について詳細かつ適切に分析や評価がなされている部分は存在するのでしょうか？

処理時間やリアルタイム性能についての評価がない
使用環境の制限(平坦な屋内環境のみ)
長時間の動作におけるロバスト性の評価がない

6. 次に読むべき論文はあるか？

Sensor Fusion of Monocular Cameras and Laser Rangefinders for Line-based Simultaneous Localization and Mapping (SLAM) Tasks in Autonomous Mobile Robots (2012)

7. わからない文字

トラジェクトリの情報:ボットやその他のエージェントが環境内を移動する際の経路や軌跡のデータを指します

7.論文に使えそうな表現（あれば）

論文情報・リンク

著者，"タイトル，" ジャーナル名，voluem，no.，ページ，年

Survey and evaluation of monocular visual-inertial SLAM algorithms for augmented reality

論文リンク

https://www.sciencedirect.com/science/article/pii/S209657961930052X?via%3Dihub

1. どんなもの？

2. 先行研究と比べてどこがすごいの？

3. 技術や手法の"キモ"はどこにある？

4. どうやって有効だと検証した？

5. 論文において、研究の成果やデータに基づいて、その意義や影響、さらには限界点について詳細かつ適切に分析や評価がなされている部分は存在するのでしょうか？

6. 次に読むべき論文はあるか？

7.使用している環境、センシング、ナビゲーション、特徴量はなに？

8. わからない文字

9.論文に使えそうな表現（あれば）

論文情報・リンク

著者，"タイトル，" ジャーナル名，voluem，no.，ページ，年

ORB-SLAM2: an Open-Source SLAM System for Monocular, Stereo and RGB-D Cameras

論文リンク

https://arxiv.org/pdf/1610.06475.pdf

1. どんなもの？

2. 先行研究と比べてどこがすごいの？

3. 技術や手法の"キモ"はどこにある？

4. どうやって有効だと検証した？

5. 論文において、研究の成果やデータに基づいて、その意義や影響、さらには限界点について詳細かつ適切に分析や評価がなされている部分は存在するのでしょうか？

6. 次に読むべき論文はあるか？

7.使用している環境、センシング、ナビゲーション、特徴量はなに？

8. わからない文字

9.論文に使えそうな表現（あれば）

論文情報・リンク

著者，"タイトル，" ジャーナル名，voluem，no.，ページ，年

3D Gaussian Splatting for Real-Time Radiance Field Rendering

論文リンク

https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/3d_gaussian_splatting_high.pdf

https://qiita.com/RyeWiskey/items/9ccc862db91e38e8bbc9

EVO: A Geometric Approach to Event-Based 6-DOF Parallel Tracking and Mapping in Real-time

論文リンク

https://ieeexplore.ieee.org/document/7797445

1. どんなもの？

2. 先行研究と比べてどこがすごいの？

3. 技術や手法の"キモ"はどこにある？

4. どうやって有効だと検証した？

5. 論文において、研究の成果やデータに基づいて、その意義や影響、さらには限界点について詳細かつ適切に分析や評価がなされている部分は存在するのでしょうか？

6. 次に読むべき論文はあるか？

7.使用している環境、センシング、ナビゲーション、特徴量はなに？

8. わからない文字

9.論文に使えそうな表現（あれば）

論文情報・リンク

著者，"タイトル，" ジャーナル名，voluem，no.，ページ，年

Matterport3D: Learning from RGB-D Data in Indoor Environments

論文リンク

https://ieeexplore.ieee.org/document/8374622

1. どんなもの？

90の建物スケールのシーンを撮影してきて大規模なデータセットを作成した。
90 の建物規模のシーンからなる大規模な RGB-D データセットである Matterport3D

2. 先行研究と比べてどこがすごいの？

RGB-Dデータセットはまだデータが少ない
高品質の室内データは少ない。
よって大規模な室内バーチャル環境を大量に作成することでこの問題を解決した。

3. 技術や手法の"キモ"はどこにある？

データ取得のプロセス

各サーフェス頂点を観察する画像の数を示すヒストグラム。最頻値は 7、平均は 11 です。

上、水平、下に向いたカメラを３つ、３つの深度カメラを備えた三脚に取り付けた
Matterport3Dデータセットの"キモ"は、高品質のRGB-Dパノラマと精密なグローバルアライメントにあります。これにより、キーポイントマッチング、ビュー重複予測、表面法線推定など、多様なコンピュータビジョンタスクのためのリッチなトレーニングデータが提供されます。

4. どうやって有効だと検証した？

研究者は、キーポイントマッチング、ビュー重複予測、表面法線推定、地域型分類、意味ボクセルラベリングなど、複数のタスクにおいてMatterport3Dデータセットを使用し、その有効性を検証しました。各タスクにおいて、既存のアルゴリズムのバリエーションを使用し、ベースライン結果を提供しました。

5. 論文において、研究の成果やデータに基づいて、その意義や影響、さらには限界点について詳細かつ適切に分析や評価がなされている部分は存在するのでしょうか？

6. 次に読むべき論文はあるか？

7.使用している環境、センシング、ナビゲーション、特徴量はなに？

8. わからない文字

9.論文に使えそうな表現（あれば）

論文情報・リンク

著者，"タイトル，" ジャーナル名，voluem，no.，ページ，年

Real-Time Rendering of Point Clouds With Photorealistic Effects: A Survey

論文リンク

https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=9693528

1. どんなもの？

点群のキャプチャからレンダリングまでのさまざまなパイプラインステップの概要スキーマ。実線内が今回の調査で対象となった対象、破線内が今回の調査で省略された対象
リアルタイムでフォトリアリスティックな点群レンダリング方法のレビュー
レイトレーシング点群の文献では３つの方法が確立されている。
円錐および円柱/ビームトレース
陰的等値面アプローチ
:暗黙的な曲面と等値面の評価
GPU を使用しない CPU 実装だった。
Rendering Feature Table for all Real-Time and Interactive Methods That Show One or More Photorealistic Rendering Effects
調査された方法で使用されたさまざまな GPU の処理ユニット数の比較
リアルタイムの構築時間を実現するポイントベースの加速構造

2.歴史

Levoy と Whitted は 1985 年に、ポリゴンメッシュやパラメトリックサーフェスの代わりに、レンダリングのための幾何学的プリミティブとしてポイントを使用することを提案[1]
点群の視覚的課題は連続的な表面がかけていること

わからない文字

アフィン変換;図形を移動、拡大縮小、回転

NeRF2Real: Sim2real Transfer of Vision-guided Bipedal Motion Skills using Neural Radiance Fields

論文リンク

NeRF2Real: Sim2real Transfer of Vision-guided Bipedal Motion Skills using Neural Radiance Fields

著者/所属機関

Arunkumar Byravan Jan Humplik Leonard Hasenclever Arthur Brussee Francesco Nori, Tuomas Haarnoja, Ben Moran, Steven Bohez, Fereshteh Sadeghi, Bojan Vujatovic and Nicolas Heess

投稿年

2023

概要：

これらの課題の一部に取り組み、視覚的に複雑なシーンのシミュレーションモデルの半自動生成システムを紹介しています。このシステムは、Neural Radiance Fields（NeRF）を利用して、RGBカメラビューの非常にリアルなレンダリングと正確な幾何学を提供します。

研究背景

シミュレーションで制御ポリシーを訓練し、それを実際のロボットに転送する（sim2real）というパラダイムの進展にあります。このアプローチは、ハードウェア上で直接学習する際に生じる状態推定、安全性、データ効率性といった問題を回避できます。しかし、現実的で正確なシミュレーションの作成は時間がかかります。そのため、sim2realがその潜在能力を最大限に発揮するためには、実際のシーンをシミュレーションで再現し、ロボットが世界とどのように感じ取り、相互作用するかを正確にモデル化することが必要です。
特に、ロボットが世界と接触する方法や、RGBカメラを使用した際の環境の感知方法など、非構造化シーンの幾何学的および視覚的な特性を正確にモデル化することは困難です。RGBカメラのモデリングの必要性は、シミュレートしやすくsim2realギャップが小さいデプスセンサーやLiDARの使用によって部分的に軽減できますが、これによってロボットが学習できるタスクのセットが制限される可能性があります。

提案手法

1.Google Pixel 6 ’のカメラを使用して５から6分の動画を歩きながら撮る。
2. Nから1000のキーフレームを取り出してCOLMAPを使用しローカライゼーションする。
3. Nerfを構成する。
4.物理エンジンでどのような物理**をするかを計算する。

5.NeRF + MuJoCoでSim2real

実験

シーンの学習：

普通の携帯電話を使用して静的なシーンの短いビデオを収集します。
Neural Radiance Field（NeRF）を使用して、シーンの接触幾何学と新しい視点合成のための関数を学習します。
シミュレーションの作成：

NeRFのレンダリングを利用して、静的なシーンに他の動的オブジェクト（例：ロボットの体、ボール）のレンダリングをオーバーレイします。
物理シミュレータのレンダリングエンジンを使用して、静的なシーンの幾何学（NeRFのボリューム密度から推定）と動的オブジェクトの幾何学・物理的特性（既知と仮定）から接触ダイナミクスを計算し、シミュレーションを作成します。
ポリシーの学習と転送：

このシミュレーションを使用して、頭部に取り付けられたアクチュエータ付きRGBカメラを持つ20自由度のヒューマノイドロボットのための、ビジョンベースの全身ナビゲーションポリシーとボール押しポリシーを学習します。
これらのポリシーを実際のロボットに成功裏に転送します。

感想

参考

COLMAP

3次元復元ツール
https://colmap.github.io/
https://cyberagent.ai/blog/research/14861/

Sim-to-Real Transfer for Vision-and-Language Navigation

論文リンク

https://proceedings.mlr.press/v155/anderson21a/anderson21a.pdf

title: "Sim-to-Real Transfer for Vision-and-Language Navigation"

1. どんなもの？

R2Rデータセットで学習したVLN（Vision-and-Language Navigation）エージェントを、学習したサブゴールモデルと古典的なSLAMおよび経路計画ルーチンを用いて、360°ビジョンを持つ低コストロボットにシム-トゥ-リアル転送する初の試み

2. 先行研究と比べてどこがすごいの？

シミュレーションで訓練されたVision-and-Language Navigation (VLN)エージェントを初めて実ロボットプラットフォームに移植したこと。
VLNエージェントが学習した離散的なアクション空間と、実ロボットの連続的なアクション空間のギャップを埋めるために、サブゴール予測モデルを提案したこと。
ロボット用の標準的なROSコンポーネントと組み合わせて、VLNエージェントをROSベースのフレームワークに適合させたこと。
実環境とシミュレーション環境を正確に対応付けるため、325平方メートルのオフィス空間をスキャンしてアノテーションしたこと。
環境マップが事前に用意される場合とそうでない場合の2つの設定で、シミュレーションから実環境への移植実験を行ったこと。

3. 技術や手法の"キモ"はどこにある？

Matterport3D Pro 2 カメラと Matterport3D ウェブサービスで Coda を再構成し、並列シミュレータ環境を構築します。

テスト環境

Coda（商業オフィスビル内の共有スペース）が未知のテスト環境として選ばれています。Codaは個人的なアイテムがなく、環境の変化が少ないため、シミュレータと実際の環境の違いが最小限に抑えられます。

シミュレータの構築

Matterport3D Pro 2カメラとMatterport3Dウェブサービスを使用してCodaを再構築し、シミュレータ環境を作成しています。65のカメラ視点からのポイントクラウド、テクスチャメッシュ、全天周画像、各カメラ視点のポーズ、および視点間の可視性を表す「可視性グラフ」をダウンロードします。ロボットがアクセスできない場所の視点を除外し、可視性グラフから5m以上のエッジを除外してナビゲーショングラフを構築しています。

ナビゲーション指示の収集

最短経路の軌跡をサンプリングし、注釈者に3Dウェブインターフェースを使用してこれらのパスを記述させています。言語ガイド付きナビゲーションのデータとして、Amazon Mechanical Turkを使用して各軌跡に対して4つの英語のナビゲーション指示を収集しています。

ロボットプラットフォーム

実験には、TurtleBot2ロボットを使用しています。360°ビジョンを持つエージェントを模倣するために、360°の消費者向けRGBカメラを装備しています。障害物回避とマッピングのために、2Dレーザースキャナーを搭載しています。ロボットはROS-kineticを実行し、PyTorchを含む標準のROS/TurtleBotパッケージを使用しています。

評価指標

標準的なVLNメトリクスを使用して、シミュレーションと実際のロボットの両方で評価を行っています。成功率、トラジェクトリの長さ、ナビゲーションエラー、オラクル成功率、効率と軌跡忠実度に基づく成功率（SPL）など、複数の指標を報告しています。

ロボットのポーズ追跡

ロボットのポーズを知るために、事前にロボットをCoda内で遠隔操作し、レーザースキャナーとROS gmapping SLAMパッケージを使用してマップを作成しています。実験中のロボットのポーズを追跡するために、ROS amclパッケージによるパーティクルフィルタを使用しています。

4. どうやって有効だと検証した？

R2R（Room-to-Room）データセットで検証
　- 多様な室内環境：異なる家具や間取りを持つ複数の家や公共の建物から成る環境が含まれています。
　- 自然言語指示：人間が書いた、目的地に到達するためのステップバイステップの指示が含まれています。これらの指示は多様で、実際のナビゲーションの際に人が使うような言葉が使われています。
　- ナビゲーションパス：指示に従ってエージェントがたどるべき具体的なパス（経路）が含まれており、学習や評価の基準として使用されます。

5. 議論はあるか？

環境を事前にマッピングしていない最も難しい「コールドスタート」設定では、サブゴールモデルがシミュレータのナビゲーショングラフで同じ隣接ウェイポイントを予測できないため、シミュレーションから実環境への移行の信頼性はかなり低くなります
グラフベースのMatterport3Dシミュレータは、このような低レベルのアクションをサポートできないため、既に収集されたデータの固定バッチから学習できるオフポリシー強化学習アルゴリズム[52]、あるいは、Krantzら[55]の最近の研究のように、連続的な動きをサポートするシミュレータ[53, 54]に切り替える必要があります。

6. 次に読むべき論文はあるか？

[52]S. Fujimoto, D. Meger, and D. Precup. Off-policy deep reinforcement learning without exploration. In ICML, 2019.
[53]F. Xia, A. R. Zamir, Z.-Y. He, A. Sax, J. Malik, and S. Savarese. Gibson env: real-world
perception for embodied agents. In CVPR, 2018.
[54] Manolis Savva*, Abhishek Kadian*, Oleksandr Maksymets*, Y. Zhao, E. Wijmans, B. Jain,
J. Straub, J. Liu, V. Koltun, J. Malik, D. Parikh, and D. Batra. Habitat: A Platform for Embodied
AI Research. In ICCV, 2019.
[55] J. Krantz, E. Wijmans, A. Majumdar, D. Batra, and S. Lee. Beyond the nav-graph: Vision-andlanguage navigation in continuous environments. In ECCV, 2020.

7. わからない文字

7.論文に使えそうな表現（あれば）

論文情報・リンク

著者，"タイトル，" ジャーナル名，voluem，no.，ページ，年

Integrating Virtual Reality and Robotic Operation System (ROS) for AGV Navigation

論文リンク

https://www.researchgate.net/publication/370193911_Integrating_Virtual_Reality_and_Robotic_Operation_System_ROS_for_AGV_Navigation

title: "論文タイトル"

date: YYYY-MM-DD
categories:

1. どんなもの？

2. 先行研究と比べてどこがすごいの？

3. 技術や手法の"キモ"はどこにある？

4. どうやって有効だと検証した？

5. 議論はあるか？

6. 次に読むべき論文はあるか？

論文情報・リンク

著者，"タイトル，" ジャーナル名，voluem，no.，ページ，年

QuadricSLAM: Dual Quadrics From Object Detections as Landmarks in Object-Oriented SLAM

論文リンク

https://ieeexplore.ieee.org/document/8440105

1. どんなもの？

2. 先行研究と比べてどこがすごいの？

3. 技術や手法の"キモ"はどこにある？

4. どうやって有効だと検証した？

5. 論文において、研究の成果やデータに基づいて、その意義や影響、さらには限界点について詳細かつ適切に分析や評価がなされている部分は存在するのでしょうか？

6. 次に読むべき論文はあるか？

7.使用している環境、センシング、ナビゲーション、特徴量はなに？

8. わからない文字

9.論文に使えそうな表現（あれば）

論文情報・リンク

著者，"タイトル，" ジャーナル名，voluem，no.，ページ，年

ElasticFusion: Dense SLAM Without A Pose Graph

論文リンク

http://thomaswhelan.ie/Whelan15rss.pdf

1. どんなもの？

2. 先行研究と比べてどこがすごいの？

3. 技術や手法の"キモ"はどこにある？

4. どうやって有効だと検証した？

5. 論文において、研究の成果やデータに基づいて、その意義や影響、さらには限界点について詳細かつ適切に分析や評価がなされている部分は存在するのでしょうか？

6. 次に読むべき論文はあるか？

7.使用している環境、センシング、ナビゲーション、特徴量はなに？

8. わからない文字

9.論文に使えそうな表現（あれば）

論文情報・リンク

著者，"タイトル，" ジャーナル名，voluem，no.，ページ，年

LIO-SAM: Tightly-coupled Lidar Inertial Odometry via Smoothing and Mapping

論文リンク

https://ieeexplore.ieee.org/abstract/document/9341176/

title: "LIO-SAM: Tightly-coupled Lidar Inertial Odometry via Smoothing and Mapping"

date: 24 October 2020 - 24 January 2021

1. どんなもの？

LIO-SAMは最適化ベースのタイトリーカップルなライダーIMUフレームワークを提案し、従来手法の制限を克服しつつ、高精度で効率的な位置推定とマッピングを実現しています。
スムージングとマッピングを介して密結合された LIDAR 慣性オドメトリのフレームワーク、LIO-SAMを開発
高精度でリアルタイムの移動ロボットの軌道推定とマップ構築を実現
LIO-SAMと呼ばれるライダーと慣性計測ユニット(IMU)を組み合わせた位置・姿勢推定とマッピングのシステムを提示

2. 先行研究と比べてどこがすごいの？

先行研究の課題点

LOAMやLIOMなどの既存のライダー・IMU手法には、精度、効率性、拡張性、他のセンサーとの統合能力などの制限がある。

問題をファクタグラフ上に定式化し、多センサー融合とグローバル最適化を可能にする。
リアルタイム性能のための効率的な局所窓ベースのスキャンマッチング手法。
さまざまなプラットフォームと環境での広範な評価。

3. 技術や手法の"キモ"はどこにある？

慣性計測ユニットとLiderを組み合わせている

ファクターグラフ上に構築された密結合 LIDAR 慣性オドメトリフレームワークは、マルチセンサーフュージョンとグローバル最適化に適しています。
選択的に選択された新しいキーフレームを固定サイズの以前のサブキーフレームのセットに登録することにより、リアルタイムのパフォーマンスを可能にする、効率的なローカルスライディングウィンドウベースのスキャンマッチングアプローチ。
提案されたフレームワークは、さまざまな規模、車両、環境にわたるテストで広範囲に検証されています。

4. どうやって有効だと検証した？

テスト環境とデータセット:

3つのプラットフォーム（手持ちデバイス、自律移動ロボット、ボート）でデータセットを収集。
5つの異なる環境（回転、歩行、キャンパス、公園、アムステルダム運河）でデータセットを取得。

比較手法:

既存手法のLOAM、LIOMと比較。

評価指標:

終点位置誤差: 開始点と終点の位置誤差で評価。
GPSとのRMSE誤差: GPSデータをグラウンドトゥルースとしてRMSEを計算。

結果:

提案手法のLIO-SAMは他の手法より高い精度を達成。
リアルタイム性も確保できていることを確認。

考察:

様々なプラットフォームと環境での有効性を確認。
GPSがない場合もループクロージャでドリフトを補正できることを確認。
キーフレームとスライディング窓のアプローチがリアルタイム性を確保。

5. 議論はあるか？

6. 次に読むべき論文はあるか？

7.論文に使えそうな表現（あれば）

J. Zhang and S. Singh, "Low-drift and Real-time Lidar Odometry and Mapping", Autonomous Robots, vol. 41, no. 2, pp. 401-416, 2017.

8.わかない単語

慣性計測ユニット:角速度と加速度を計測するセンサー
慣性オドメトリ:慣性計測ユニット(IMU)のデータを用いて推定した移動体の位置や姿勢のことを指します。
Point Cloud Deskewing:ライダーで取得した点群データを回転による歪みを取り除く処理(動きのある環境で重要)

論文情報・リンク

T. Shan, B. Englot, D. Meyers, W. Wang, C. Ratti and D. Rus, "LIO-SAM: Tightly-coupled Lidar Inertial Odometry via Smoothing and Mapping," 2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), Las Vegas, NV, USA, 2020, pp. 5135-5142, doi: 10.1109/IROS45743.2020.9341176.

DynaSLAM: Tracking, Mapping, and Inpainting in Dynamic Scenes

論文リンク

https://ieeexplore.ieee.org/document/8421015

1. どんなもの？

2. 先行研究と比べてどこがすごいの？

3. 技術や手法の"キモ"はどこにある？

4. どうやって有効だと検証した？

5. 論文において、研究の成果やデータに基づいて、その意義や影響、さらには限界点について詳細かつ適切に分析や評価がなされている部分は存在するのでしょうか？

6. 次に読むべき論文はあるか？

7.使用している環境、センシング、ナビゲーション、特徴量はなに？

8. わからない文字

9.論文に使えそうな表現（あれば）

論文情報・リンク

著者，"タイトル，" ジャーナル名，voluem，no.，ページ，年

PreSim: A 3D Photo-Realistic Environment Simulator for Visual AI

論文リンク

著者/所属機関

投稿年

概要：

研究背景

提案手法

著者たちは、拡張現実を利用して、人間のデモンストレーションをロボットに転送し、把持の学習を行います。ARマーカーを使用して物体の位置と姿勢を正確に把握し、ロボットが効果的に把持できるようにします。

実験

感想

参考

どんなもの？

この論文は、拡張現実を利用したロボットの把持学習手法について述べています。

先行研究と比べてどこがすごい?

従来の手法に比べて、拡張現実を利用することで、ロボットは環境の変化に柔軟に適応し、より正確な把持が可能になります。

技術や手法のキモはどこ?

拡張現実を使用して、人間のデモンストレーションをロボットに転送し、物体の位置と姿勢を正確に把握することです。

どうやって有効だと検証した?

著者たちは、様々な物体を把持するタスクを通じて、提案手法の有効性を実験的に検証しました。

論文の主張やビジョンそのものに問題はないか？

##使える文章
collecting such data is time-consuming and labor-intensive. Apart from that, developing and testing visual AI algorithms for multisensory models is expensive and in some cases dangerous processes in the real world.

Research on SLAM navigation of wheeled mobile robot based on ROS

論文リンク

https://ieeexplore.ieee.org/abstract/document/9230186

title: "Research on SLAM navigation of wheeled mobile robot based on ROS"

1. どんなもの？

より良いマッピング効果を得てロボットのナビゲーションをするため
車輪付きの**学的モデルと動的モデルを確立し移動ロボットのパラメータを調整
slamのアルゴリズムを比較
改良したアルゴリズムでマッピング精度の検証
GMappingアルゴリズムの改善

2. 先行研究と比べてどこがすごいの？

屋内での位置特定における最大の課題の 1 つは、信号に対するノイズの比率が比較的高いこと[4]
ヘクタースラムは、堅牢なスキャンマッチ 2D SLAM 手法と慣性センサーシステムを組み合わせたナビゲーション技術ですが、ハードウェア要件が高いため、サービスロボットには適していません[11]
GMappingアルゴリズムの改善

3. 技術や手法の"キモ"はどこにある？

モデル化のために二輪駆動移動ロボットの**学モデルと動力学モデルを導出しています。

\begin{equation*}\begin{bmatrix}\dot{x}\\ \dot{y}\\\dot{\theta}\end{bmatrix}=\begin{bmatrix}\cos\theta&0\\\sin\theta&0\\0&1\end{bmatrix}\begin{bmatrix}v\\\omega\end{bmatrix} \tag{3}\end{equation*}

GMappingアルゴリズムはループ検出がない
GMappingアルゴリズムでは、スキャンデータ間の対応関係から位置姿勢の推定を行って
しかし、スキャンデータ間のマッチングのみでは誤差が蓄積しやすく、ループを閉じた時にマップがずれるという問題があります。
GMappingがフロントエンドでループ検出機能を持っていないため
ループを検出機能をつけた。
ループを検出し、制約を追加することで、グラフ最適化によって全体的に一貫性のあるマップとロボットの経路を取得できるようになります。

4. どうやって有効だと検証した？

実際の室内環境において、改良前のGMappingと改良後のGMappingを用いてマッピングを行い、マップの精度を比較しています。

改良前のマップでは、椅子周辺の輪郭が不明確でしたが、改良後は輪郭がはっきりと現れるようになりました。
移動ロボットによる自律ナビゲーション実験を行い、改良アルゴリズムで生成したマップを用いて目標位置まで正常に移動できることを確認しています。
複数の実験により、改良アルゴリズムではループ検出によるマップのずれが改善され、マッピング精度が向上したことを実証しています。

5. 議論はあるか？

ループ検出を入れると同時にアルゴリズムの複雑性や計算コストが増加する可能性やリアルタイム性の影響出る可能性がある
なので大規模なマップには使うことができない

6. 次に読むべき論文はあるか？

GMapppingアルゴリズム

7. わからない文字

ループとは
ループ検出とは、センサデータからすでに探索した場所を再び通過したことを検知する機能
ループ検出があると、位置推定グラフに新しい制約を追加できるため、マップの最適化ができます。
サブマップ：マップを部分的な区画に分割する手法

7.論文に使えそうな表現（あれば）

論文情報・リンク

著者，"タイトル，" ジャーナル名，voluem，no.，ページ，年

SVO: Fast semi-direct monocular visual odometry

論文リンク

https://ieeexplore.ieee.org/document/6906584

1. どんなもの？

単眼カメラ画像からカメラの移動量(オドメトリ)を高精度・高速に推定する手法。特にマイクロ無人航空機(MAV)への搭載を想定

2. 先行研究と比べてどこがすごいの？

従来の特徴点ベースの手法と比べて、画像の直接的な明るさの差分を使うことで、特徴量抽出・マッチングのコストを削減し、高速化を実現。
深度フィルタを用いることで、外れ値に強 robust な3D地図生成が可能。
MAV搭載COMで55fps、ラップトップPCで300fps以上の処理が可能。
高いフレームレートでサブピクセル精度が得られる

高いフレームレート
特徴量抽出・マッチングをスキップできるため、従来の特徴量ベースの手法と比べて非常に高速な処理が可能です。
サブピクセル精度

画像アライメントではパッチのピクセル単位の移動を、特徴点マッチングではサブピクセル単位の補正を行います。これにより従来の手法より高精度な姿勢推定が可能になっています。

したがって、この手法によって従来よりもはるかに高速かつ高精度な姿勢推定が実現できる、という意味になります。マイクロUAVなどへの応用に有用な技術だと言えます。

3. 技術や手法の"キモ"はどこにある？

2つの画像が使われます。
１つはカメラの動きの推定
もう一つは環境の探索に伴うマッピングに使用されます。
2つの並列スレッド(モーション推定スレッドとマッピングスレッド)で処理を実行する。
この論文のシステム概要は以下のように要約できます。
2つの並列スレッド(モーション推定スレッドとマッピングスレッド)で処理を実行する。
モーション推定スレッドでは、スパースな画像アライメント、特徴アライメント、再投影誤差最小化の3ステップでカメラ姿勢を推定する。
マッピングスレッドでは、各特徴点に対応する深度フィルタを更新し、収束した特徴点を3Dマップに追加する。
新しいキーフレームが選択された際に、特徴点を新たに抽出する。
これにより、姿勢推定の高速化とロバストな3Dマッピングを実現している。
姿勢推定とマッピングを別スレッドで並列処理することで、リアルタイム性とロバスト性を両立。
直接法と深度フィルタの利用がこの手法の肝となっている。

このように、処理の並列化と直接法・深度フィルタの利用がこの手法のキモと言えます。

特徴対応:直接的な動き推定の暗黙的な結果
処理速度とロバスト性、そして信頼性の観点から、直接法に基づく動き推定から特徴対応を導出する方が合理的
スパースな画像アライメントによる初期姿勢推定
特徴的なパッチのアライメントによる姿勢推定の改善

4. どうやって有効だと検証した？

ground truthのある実環境データセットを用いた精度評価
様々な環境下でのロバスト性評価
処理時間の詳細な測定
PTAM(Parallel Tracking and Mapping)との定量的比較

5. 論文において、研究の成果やデータに基づいて、その意義や影響、さらには限界点について詳細かつ適切に分析や評価がなされている部分は存在するのでしょうか？

MAV用の高速かつ高精度な単眼SLAM手法を提案し、その有効性を示した意義が大きい。
外れ値に強い3Dマップ生成手法も提案している。
画像の解像度や処理速度に依存する限界はある。

6. 次に読むべき論文はあるか？

Parallel Tracking and Mapping)

7.使用している環境、センシング、ナビゲーション、特徴量はなに？

8. わからない文字

image alignment:

2枚以上の画像間で共通の特徴や構造を合わせるように画像の幾何変換(回転、並進、拡大縮小等)を求めることです。ステレオ画像の対応点探索や動画からの構造復元で用いられます。

具体的には、2枚の画像I1, I2に対して、画像I2を変換T(ξ)で変形させるパラメータξを求めることを画像アライメントと呼びます。

T(ξ)*I2 = I1

画像アライメントの代表的な手法に、Lucas-Kanade法や直接法(direct method)があります。

この論文で提案する手法は、スパースな特徴点のみを対象とした直接法による画像アライメントを行うことで、処理速度の向上を図っています。画像全体を直接アライメントするよりも高速に処理できるためです。

オドメトリ

ロボットの変位を計算する手法

9.論文に使えそうな表現（あれば）

論文情報・リンク

著者，"タイトル，" ジャーナル名，voluem，no.，ページ，年

Multi-Object Navigation in real environments using hybrid policies

論文リンク

https://ieeexplore.ieee.org/document/10161030

title: "論文タイトル"

date: YYYY-MM-DD
categories:

1. どんなもの？

この研究では、SLAMと学習ベースの探索ポリシーを組み合わせたハイブリッド手法を提案しています。メトリックマップとセマンティックマップの2つのマップ表現を利用して、環境内のウェイポイントナビゲーションと未知の領域の探索を行っています。

古典的なマッピングと深層学習を組み合わせたハイブリッド手法
このマップ上のウェイポイントナビゲーションと組み合わせたナビゲーション可能空間の検出や位置特定 (幾何学 SLAM) など、セマンティクスとは関係のない古典的なナビゲーションの側面を扱います。

2. 先行研究と比べてどこがすごいの？

シミュレーション環境ではSTATE-OF-THE-ARTを上回る性能を示し、

実環境でもEND-TO-ENDの手法より高い成功率を達成しています。実環境での評価がほとんどなかった本タスクで、有効性を実証した点がすごいと言えます。

マルチオブジェクトナビゲーションタスクを実ロボット・実環境で評価した初めての研究である。先行研究はシミュレーション中心で実環境での評価は皆無であった。
学習ベースの手法と古典的な手法を組み合わせたハイブリッドなアプローチを提案。セマンティックマッピングに学習、ローカルナビに古典的手法を用いることでシミュレーション-実環境のギャップを最小化。
複数のサブタスクに分割し、それぞれを個別に訓練することで学習を効率化。エンドトゥエンドで全てを学習するのは非効率。
実環境での長時間探索・ナビゲーションの課題を考慮し、シンボリックプランナーを用いることでロバスト性を高めている。
学習ベースの探索ポリシーで先行研究よりもドメイン適応性能が高いことを実証。
古典的ロボティクス（GOFR）:
- SLAM（同時局在化とマッピング）を利用して、ナビゲーション可能な空間の検出とローカライゼーションを行う。
- リダー入力を用いてロボットを地図上でローカライズする2Dメトリック表現を作成・維持する。
機械学習によるセマンティクス:
- 視覚的推論に必要なセマンティック概念をマッピングし、環境のレイアウトの規則性を利用して最も有望な領域を探索する。
- 深層ニューラルネットワークから抽出された高レベルの特徴を持つ空間的・意味的な点群を形成し、これをメトリック表現と整合させる。
ハイブリッド表現:
- エージェントが必要とする関連するサブスキルのニーズを満たすために、古典的なメトリックSLAMと経路計画を学習したコンポーネントと組み合わせる。
サブスキル:
- 目標オブジェクトが過去に観察されたかを判断する。
- エージェントと探索済みエリア間の最適な軌道を計画する。
- 未探索エリアの境界を特定し、環境を探索して次の目標を見つけるための次の中間サブゴールを決定する。
貢献:
- 複数オブジェクトナビゲーションのための古典的メトリックSLAMと学習したコンポーネントを組み合わせたハイブリッド方法を導入。
- 実際の環境でMulti-ONベンチマークを再現し、元々シミュレートされた目標環境で使用される目標オブジェクトの製造再現を配置。
- 実際の環境とシミュレートされた環境の両方で、エンドツーエンドで訓練された方法と比較し、特にCVPR 2021 MultiONコンペティションの勝利エントリーを上回る。

3. 技術や手法の"キモ"はどこにある？

セマンティックマップの構築に学習ベースの手法を使いつつ、ローカルナビゲーションにはSLAMとシンボリックな計画を用いることで、シミュレーションと実環境のGAPを小さくしている点がキモです。

4. どうやって有効だと検証した？

シミュレーションと実ロボットを用いた評価実験を行い、提案手法の有効性を検証しています。END-TO-ENDの手法と比較して、実環境で大幅に高い成功率を達成していることを示しています。

5. 議論はあるか？

実環境での長期ナビゲーションの実現可能性に関する議論があると思います。処理速度、マップの維持、误検出への対処などの課題が残っています。

6. 次に読むべき論文はあるか？

Chaplot et al. "Learning to Explore using Active Neural SLAM" (ICLR 2020)
Wani et al. "MultiON: Benchmarking Semantic Map Memory using Multi-Object Navigation" (NeurIPS 2020)
Wani et al. "MultiON: Benchmarking Semantic Map Memory using Multi-Object Navigation"
モジュラーな実体化ナビゲーション:
階層的およびハイブリッドアーキテクチャ: [4], [8], [7], [9]
ナビゲーションから「どこを見るか？」のスキルを分離: [32]

Sim2Real (シミュレーションから現実へ):

ドメインランダム化方法: [31], [38]
ドメイン適応方法: [42], [16], [43]
双方向適応: [40]
実体化エージェントの堅牢性ベンチマーク: [11]
Sim2real予測可能性とSRCCメトリック: [23]
実際のロボットでのPointGoalタスク: [34]

記憶とマップ (帰納的バイアス):

ニューラルメモリと潜在的メトリックマップ: [29], [20]
EgoMapと多段階目標と注意読み取り: [4]
トポロジカルマップ: [35], [10], [4]
トランスフォーマー: [30], [17], [13], [22], [14], [33]
暗黙的表現: [25], [2]

探索:

空間記憶を持つポリシー: [15]
観察一貫性に基づく意味的好奇心による探索ポリシー: [9]
3Dセマンティックマップを使用したアクティブ探索ポリシー: [6]
エピソード的セマンティックマップ: [7]

7. わからない文字

学習ベースの探索ポリシー:環境内の未探索領域を発見し、次に移動すべきwaypointを予測するポリシーを強化学習

7.論文に使えそうな表現（あれば）

論文情報・リンク

著者，"タイトル，" ジャーナル名，voluem，no.，ページ，年

Dynamic SLAM: The Need For Speed

論文リンク

https://arxiv.org/abs/2002.08584

1. どんなもの？

2. 先行研究と比べてどこがすごいの？

3. 技術や手法の"キモ"はどこにある？

4. どうやって有効だと検証した？

5. 論文において、研究の成果やデータに基づいて、その意義や影響、さらには限界点について詳細かつ適切に分析や評価がなされている部分は存在するのでしょうか？

6. 次に読むべき論文はあるか？

7.使用している環境、センシング、ナビゲーション、特徴量はなに？

8. わからない文字

9.論文に使えそうな表現（あれば）

論文情報・リンク

著者，"タイトル，" ジャーナル名，voluem，no.，ページ，年

Online Temporal Calibration for Monocular Visual-Inertial Systems

論文リンク

https://ieeexplore.ieee.org/abstract/document/8593603

1. どんなもの？

2. 先行研究と比べてどこがすごいの？

3. 技術や手法の"キモ"はどこにある？

4. どうやって有効だと検証した？

5. 論文において、研究の成果やデータに基づいて、その意義や影響、さらには限界点について詳細かつ適切に分析や評価がなされている部分は存在するのでしょうか？

6. 次に読むべき論文はあるか？

7.使用している環境、センシング、ナビゲーション、特徴量はなに？

8. わからない文字

9.論文に使えそうな表現（あれば）

論文情報・リンク

著者，"タイトル，" ジャーナル名，voluem，no.，ページ，年

NeRF-SLAM: Real-Time Dense Monocular SLAM with Neural Radiance Fields

論文リンク

https://arxiv.org/abs/2210.13641

1. どんなもの？

2. 先行研究と比べてどこがすごいの？

3. 技術や手法の"キモ"はどこにある？

4. どうやって有効だと検証した？

5. 論文において、研究の成果やデータに基づいて、その意義や影響、さらには限界点について詳細かつ適切に分析や評価がなされている部分は存在するのでしょうか？

6. 次に読むべき論文はあるか？

7.使用している環境、センシング、ナビゲーション、特徴量はなに？

8. わからない文字

9.論文に使えそうな表現（あれば）

論文情報・リンク

著者，"タイトル，" ジャーナル名，voluem，no.，ページ，年

Is Mapping Necessary for Realistic PointGoal Navigation?

論文リンク

https://arxiv.org/pdf/2206.00997.pdf

title: "論文タイトル"

date: YYYY-MM-DD
categories:

1. どんなもの？

現実的な設定（RGB-Dと行動ノイズがあり、GPSとコンパスがない）では、これは未解決の問題であり、この論文ではこの問題に取り組んでいます。
パフォーマンスの低下の主な原因としてGPSとコンパスの欠如を特定し、ビジュアルオドメトリの向上が重要であると提案
マッピングからローカリゼーション、ナビゲーションへのリンクなど、間接的なリンクは依然として強力である可能性がある

2. 先行研究と比べてどこがすごいの？

3. 技術や手法の"キモ"はどこにある？

使用されているセンシング技術：

RGB-Dセンシングとそのノイズ、そしてGPSとコンパスの有無がナビゲーションの性能にどのように影響するか。
ナビゲーションモデル：

地図を使わないニューラルモデルの構造（CNNやRNNなど）と、それらがどのようにタスクに適用されているか。
強化学習を用いた訓練方法とその効果。
データセットとトレーニング：

モデルを訓練するために使用されているデータセットと、それがどのように構築されたか。
人間のアノテーションを必要としないデータ拡張技術やその他のトレーニング戦略。
パフォーマンスと評価：

モデルのパフォーマンスを評価するために使用されている基準や実験結果。

4. どうやって有効だと検証した？

実験 (Experiments)
著者たちは異なるビジュアルオドメトリーモジュールの影響を検証するために、ナビゲーションポリシーを固定し、全ての実験において同じネットワーク重みを使用しました。
実験結果は、表1（文書中のどこかに存在するであろう）に報告されており、提案されたVO（ビジュアルオドメトリー）モデルに対するいくつかの追加機能の重要性を検討しています。
バッチサイズ32、アダムオプティマイザー、学習率
での平均二乗誤差（MSE）損失を用いてモデルを訓練しています。
評価 (Performance)
Habitat Realistic PointNav Challengeで、成功率を71％から94％に、SPL（Success weighted by Path Length）を53％から74％に改善したと報告されています。
強化されたビジュアルオドメトリーにより、リアルな設定でも明示的なマッピングが必要でないという仮説が支持されています。
追加情報
モデルのトレーニングと評価には、500kから5M観測タプルのデータセットが使用され、ResNet18とResNet50エンコーダーの両方で実験が行われています。
分散VO（ビジュアルオドメトリー）トレーニングパイプラインを実装し、マルチノードマルチGPUスケーリングを可能にしています。これにより、実験時間が大幅に短縮されています。

5. 議論はあるか？

6. 次に読むべき論文はあるか？

7. わからない文字

Odometry: ロボット自身の移動量を計測する手法全般
Visual Odometry: OpenCVでカメラ画像から自己位置認識 (Visual Odometry)

7.論文に使えそうな表現（あれば）

論文情報・リンク

著者，"タイトル，" ジャーナル名，voluem，no.，ページ，年

A survey of state-of-the-art on visual SLAM

論文リンク

https://www.sciencedirect.com/science/article/pii/S0957417422010156

1. どんなもの？

2. 先行研究と比べてどこがすごいの？

3. 技術や手法の"キモ"はどこにある？

4. どうやって有効だと検証した？

5. 論文において、研究の成果やデータに基づいて、その意義や影響、さらには限界点について詳細かつ適切に分析や評価がなされている部分は存在するのでしょうか？

6. 次に読むべき論文はあるか？

7.使用している環境、センシング、ナビゲーション、特徴量はなに？

8. わからない文字

9.論文に使えそうな表現（あれば）

論文情報・リンク

著者，"タイトル，" ジャーナル名，voluem，no.，ページ，年

CubeSLAM: Monocular 3D Object SLAM

論文リンク

https://arxiv.org/pdf/1806.00557.pdf

1. どんなもの？

2. 先行研究と比べてどこがすごいの？

3. 技術や手法の"キモ"はどこにある？

4. どうやって有効だと検証した？

5. 論文において、研究の成果やデータに基づいて、その意義や影響、さらには限界点について詳細かつ適切に分析や評価がなされている部分は存在するのでしょうか？

6. 次に読むべき論文はあるか？

7.使用している環境、センシング、ナビゲーション、特徴量はなに？

8. わからない文字

9.論文に使えそうな表現（あれば）

論文情報・リンク

著者，"タイトル，" ジャーナル名，voluem，no.，ページ，年

Scalable Inside-Out Image-Based Rendering

論文リンク

https://dl.acm.org/doi/pdf/10.1145/2980179.2982420

title: "論文タイトル"

Scalable Inside-Out Image-Based Rendering
date: YYYY-MM-DD
categories:

1. どんなもの？

2. 先行研究と比べてどこがすごいの？

3. 技術や手法の"キモ"はどこにある？

4. どうやって有効だと検証した？

5. 議論はあるか？

6. 次に読むべき論文はあるか？

論文情報・リンク

P. Hedman, T. Ritschel, G. Drettakis and G. Brostow, "Scalable inside-out image-based rendering", ACM Trans. Gr., vol. 35, no. 6, pp. 1-11, 2016.

Sim2Real Predictivity: Does Evaluation in Simulation Predict Real-World Performance?

論文リンク

https://arxiv.org/pdf/1912.06321.pdf

1. どんなもの？

Habitat-PyRobot Bridge (HaPy) というソフトウェアライブラリを開発し、シミュレーションで学習したナビゲーションエージェントをロボットに簡単にデプロイできるようにした。
シミュレーションと現実世界の性能の相関係数(SRCC)を提案し、シミュレーションの予測力を評価する指標とした。
HabitatシミュレーターのパラメータをSRCCを最適化するように調整し、現実世界での予測力を大幅に向上させた。
CVPR 2019のHabitatチャレンジで良い成績をおさめたエージェントが、現実ロボットでは同等の性能が出せないことを示した。

2. 先行研究と比べてどこがすごいの？

先行研究では、シミュレーションで学習したナビゲーションエージェントを現実ロボットにデプロイする研究はありましたが、シミュレーションと現実の性能差を定量評価しているものはほとんどありませんでした。
相関係数SRCCを導入し、シミュレーションの予測力を数値化することに成功

3. 技術や手法の"キモ"はどこにある？

シミュレーションを現実世界の予測力で評価し、その相関係数を最適化することでシミュレーターを改善するアイデア

4. どうやって有効だと検証した？

SRCC(Sim-to-Real Correlation Coefficient)は、シミュレーションと現実世界でのナビゲーション性能の相関係数です。
論文で使用されている9つのナビゲーションモデルは以下の通りです。

Depth - Train(sliding=off, noise=0.5)
Depth - Train(sliding=off, noise=1.0)
Predicted depth - Train(sliding=off, noise=0.5)
Predicted depth - Train(sliding=off, noise=1.0)
RGB - Train(sliding=off, noise=0.5)
RGB - Train(sliding=off, noise=1.0)
Depth - Train(sliding=on, noise=0)
Predicted depth - Train(sliding=on, noise=0)
RGB - Train(sliding=on, noise=0)
具体的には以下の手順で計算されます:

n個のナビゲーションモデルについて、シミュレーションと現実世界で並行に評価実験を行う。
各モデルiについて、シミュレーションでの性能をsi、現実世界での性能をriとする。
性能指標としては、成功率やSPL (Success weighted by Path Length) などを用いる。
n個の(si, ri)のデータセットから、サンプルのピアソンの相関係数を計算する。この値がSRCCとなる。
SRCCは-1から1の値を取り、1に近いほどシミュレーションと現実世界の性能が高い正の相関があることを示す。