新しい拡張現実システムは、よりスムーズで没入感のある体験を提供

2024年1月10日 09:00

地上と上空からの映像をコンピューターの生成要素と組み合わせることで、地上のユーザーはより正確な拡張現実の映像を体験できる

拡張現実（AR）プログラムはコンピューターが生成した画像を現実世界に重ね合わせ、ポケモンGOのようなゲームから災害現場における救急隊員のナビゲートに至るまで、幅広い様々なアプリケーションを提供可能としています。しかし、屋外環境では、コンピューターで生成された要素を配置する際の信頼性が劣るため、現時点ではこの技術がもつ計り知れない潜在力をすべて発揮できているとはいえません。

SRIの専門家で結成されたチームは現在、これらの要素の配置精度を高める方法を開発しており、屋外環境での拡張現実体験をよりスムーズ、かつ没入感のあるものにしています。

SRIのCenter for Vision Technologiesのチームが開発したのは、地上の画像と人工衛星からの衛星画像を比較する新たな手法です。これにより、ARのユーザーがどこにいて、どこを見ているか（技術上の通称「ジオ位置特定（ジオローカリゼーション）とジオ配置（ジオポーズ）」）が正確にわかるようになりました。このように正確な位置と向きの情報を得ることで、ARプログラムは現行の利用可能なシステムよりも高い精度でコンピューターの生成要素を挿入することが可能となりました。

SRIのCenter for Vision TechnologiesのディレクターであるRakesh “Teddy” Kumarは、「地上カメラの画像と航空衛星画像をマッチングさせることにより、非常に正確な視覚的ジオ位置特定（ジオローカリゼーション）とジオ配置（ジオポーズ）ソリューションを作ることができました。」と述べています。

SRIのScene Understanding and Navigation（SUN）グループのテクニカルディレクターで、このARプロジェクトに貢献したHan-Pang Chiuは、「我々が開発した方法は、ARユーザーがどこにいて、どこを見ているかの推定を不正確にしてしまう原因である挿入した合成オブジェクトのドリフト（位置ずれ）やジッタ（ゆらぎ）を大幅に低減します。レンダリングした映像と現実の世界が混在しているような錯覚の邪魔になるものが少ないため、ユーザーはより良い体験を得られるのです。」と述べています。

ARプログラムの性能を向上することは、商業界、工業界、軍事産業界やエンターテインメント業界などさまざまな分野で人々に恩恵をもたらすだけでなく、例えば自律走行車や捜索救助活動の補助など、視覚能力を備えたロボットとして役に立つ存在にも貢献できる可能性があります。

どこで、どこへ

ARプログラムは通常、内蔵されたデバイスセンサーと全地球測位システム（GPS）の信号によってユーザーの位置を特定し、視線がどこに向けられているかをはかります。しかし、このアプローチには限界があるのです。例えば、都市の高層ビルとビルの間にある「アーバン・ストリート・キャニオン」ではGPS信号がパッチ状になってしまいます。また、大きな金属構造物（これもまたビルですが）は、磁力計と呼ばれるセンサーの測定を妨害してしまうことから、ARのユーザー体験をさらに低下させる可能性があります。
都市やその他の設定状況での性能を向上させるため、研究者たちは「ジオリファレンス（地理参照）」データ、つまり物理的な環境に結びついたソースを取り入れることを幅広く研究してきました。グーグルストリートビューのような、あらかじめ構築された地上画像のデータベースはその一例です。しかし、このようなソースにも限界があります。

例えば、地上画像のデータベースにある画像の大半は、カメラの付いた車が車道を走行しながら撮影したものであり、オフロード環境や人里離れた地方部のデータはほとんどありません。これまで撮影されていなかった地域の画像を新たに収集するには、時間とコストがかかります。さらに、都市部の繁華街など、最も頻繁に利用・更新されている地域であっても、地上からの画像は何ヶ月も前のものであることも考えられ、不正確である可能性は否めません。

高所からの眺め

これらの課題の多くは、人工衛星からの高所画像を利用することで解決できます。人工衛星からの画像は、道路に面した場所だけでなく、地球のほぼ全域をカバーしています。また、この高所画像は頻繁に更新されており、データソースによっては毎日更新されるところもあります。

とはいえ、地上からの画像と上空からの画像を照合するのは簡単なことではありません。SRIの専門家は、機械学習の分野に着目し、ニューラル・ネットワーク（人間の脳のニューロン「神経細胞）のつながりを反映することからこの名がついた、つながったノードで構成されるプログラミングの配列）を採用してこのマッチングの課題をARシステムに処理させることに成功しました。

より具体的に説明すると、研究者たちはトランスフォーマー・ニューラル・ネットワークを作成し、この種のものとしては初めて、ジオ位置特定（ジオローカリゼーション）とジオ配置（ジオポーズ）を決定するために使用しました。トランスフォーマー・ニューラル・ネットワークは、入力の重要性を測るように特別に設計されているのですが、これは人間が情報を受け取り、処理する際に注意する、あるいは注意をしないということと同じようなものです。

「私たちのプログラムは、地上の画像と上空からの画像をマッチングするという課題に関して、人間が行うような方法で非常によく学習しています。」と、ONRのあるプロジェクトを通して屋外ARの開発プロジェクトを主導しているＳＲＩのKumarは説明しています。「人間は、世界の見え方を幾何学的にレイアウトしながら問題を解決しています。例えば、あそこにビルがあり、その先に木立があり、道路の反対側に電柱があるとします。そして、これと同じ幾何学的配置を上空からの画像の中で探すのです」。

このプログラムを訓練するために、Kumarたちは地上の画像と上空からの画像が正しく一致する例と、一致しない例の両方を何万と提示しました。このような肯定的・否定的な強化によって、ある画像のパッチが別の画像のパッチと重なることや、関連する場合には注意を払うことをこのプログラムは学んだのです。トレーニングを積んだことでこのARプログラムは、地上の画像と、同じ場所の上空からの画像を組みあわせて正確に表現することが徐々にできるようになっていきました。

テストに挑む

研究チームは次に、コンピューターシミュレーションと実証実験でこのソリューションのテストを実施しました。前者では、特定の場面設定下にて合成要素をユーザービュー上に正確に挿入するということにおいて、このARシステムは素晴らしい成果を示しました。

このARシステムのソフトウェアに対応したハードウェアとその要件の実証実験でも、結果は大変有望なものでした。研究者たちはヘルメットに装着したディスプレイとセンサープラットフォームをリュックサックに入れたコンパクトなコンピューターに接続してテストに臨んだのです。

テストは、都市部や準都市部、田園地帯、ゴルフ場など、さまざまな環境で実施しました。予想通り、人間の手によって作られた構造物が比較的少ない場所では、コンピューターが生成したAR画像をシステムが解析して配置することがより難しいと判明しました。とはいえ、この結果は、文字通り人里離れた場所にまでARを拡張することの潜在力を示すものとなりました。

ARシステムの開発における次の課題は、標準的な商用ARハードウェアにシームレスに組み込むために必要な電力使用量を少なくすることです。また、様々な時間帯や季節において、このシステムを使いこなさなければなりません。さらに、複雑な街並みから比較的特徴のない自然の風景まで、多種多様なシーンでさらに磨きをかける必要もあります。

「このテクノロジーはまだ初期段階であることから、私たちはこれを強固にし、あらゆる場所で、その場にて使えるようにしようとしています。ARのアプリケーションは豊富かつ多様であるため、研究開発のコミュニティがスムーズで正確な体験を提供できるようにすることが最も重要なのです。」とKumarは述べています。

みんなにも読んでほしいですか？

オススメした記事はフォロワーのタイムラインに表示されます！