SRIの75年間のイノベーション:コンピュータービジョン

2022年1月14日 19:00

SRIの英語ブログでは、2021年11月の75周年を迎える日まで、SRIが設立された1946年から現在に至るまでの数々の画期的なイノベーションに関するブログを毎週リリースしました。こちらの「75年間のイノベーション」シリーズでは、その中からいくつかを日本語にてご紹介しています。

人間とコンピューターの境界を「不明瞭」にする

「SRIは機械学習を最大限に駆使して高レベルの学習に基づくセマンティック情報（物体や場面のレイアウト認識）をダイナミックマップやシーングラフに取り込み、速いペースでその革新を続けています」 — SRIインターナショナル

SRIインターナショナルは人間とコンピューターの境界を不明瞭にすることに貢献してきました。SRIはそのために、ヒューマン・コンピュータ・インターフェース（HCI：human-computer interface）を推進する最先端の答えを生み出してきました。身近なコンピュータマウスから拡張現実やコンピュータビジョンに至るまで、SRIはコンピューターをより人間に近づけ、より魅力的なものにし、人類の有益となるよう使用可能な範囲を広げてきました。ここでは、人間との相互の関わりを深めるというビジョンをコンピューターに与えたイノベーションのいくつかを紹介します。

過去の(コンピューター）ビジョン

現代のコンピューティングや、コンピュータシステムと人間との関わりについて、SRIがいかに関与しているかについては過去を振り返る必要があります。

・コンピューターマウス

コンピューターマウスは、ネズミに似ていることからマウスと呼ばれるようになり、コンピューターと主に関わるのは人間のオペレーターであるという認識の下に発明されました。しかし、デジタルインターフェースにおいて、ポイント＆クリックができることは、口で言うほど簡単なことではありません。SRIの科学者であったDouglas Engelbartは1960年代に「Augmenting Human Intellect: A Conceptual Framework（人間の知性の増強：概念的な枠組み）」という画期的な論文を発表しました。この論文は、1960年代後半にコンピューターマウスを開発したときの枠組みとなりました。

・アイトラッカー

目の動き（眼球運動）の追跡は1960年代にSRIとNASAの共同事業として行われており、これは高速かつ低高度の飛行時にパイロットが体験する視覚のブレを緩和して飛行中の安全性を向上させることに貢献しました。そして、この技術革新は医療やウェブデザインなど、さまざまな分野でさらに多くの応用例を生み出すことになりました。

・破壊分析

SRIインターナショナルは、1980年代に構造材破面形状解析（FRacture Surface Topography Analysis：FRASTA）を開発しました。これは、金属など素材の破壊を防ぐために、破壊の履歴や軌跡、原因まで詳細に再現する仕組みを提供するシステムです。

・ビジュアル広告の挿入

米国を象徴するフィールドスポーツであるアメリカンフットボールの「ファーストダウン獲得ライン」をテレビ画面上にイエローラインとして表示したことは、1998年のスポーツファンにとって「拡張現実（augmented reality）」が実現した瞬間でした。この魔法のようなラインは、パターン認識アルゴリズムに基づいて表示されており、リアルライブのテレビ放送のニーズにまさに合致しているものでした。

・地上レーダーと森林透過レーダー

SRIが開発した「森林を透過するレーダーテクノロジー（Foliage-Penetrating Radar technologies：FOLPEN）」と呼ばれる技術は、「木を見て森を見ず」を目指しています。1990年代に開発されたFOLPENは、深い森の中に隠れている物体を「見る」ことができる軍事技術です。SRIは「誘電率」というすでによく知られている自然現象を利用して、軍事オペレーションの安全保護と人命救助に役立てました。SRIはこの元のイノベーションからFOLPENを利用してさらに技術開発を進め、FOLPENレーダーの合成開口レーダー（Synthetic Aperture Radar：SAR）を搭載した航空機である「FOLPEN Radar SAR」航空機を開発しました。

・虹彩生体認証

Sarnoff Corporation（現在はSRIの一部）は2006年に虹彩認識を利用した生体認証ソリューション「動く虹彩認証（Iris on the Move：IoM）」を開発しました。これにより、虹彩認証技術が商業化にかなり近づきました。

・動画モザイク・ビデオブラシ

SRIはリアルタイムでの動画モザイク技術を開発し、政府関連や商業界、消費者向けのさまざまなアプリに搭載しました（動画ブラシ-Video Brush）。1998年には動画モザイク技術でR&D 100 Awardsを受賞しています。2011年にはSRIのビデオブラシソフトウェアがGoogleにライセンスされ、Androidのスマートフォンに搭載されています。

・Terrasight®

SRIは放送用カメラや画像生成に関する膨大な知識を駆使して、画期的なイノベーションを世界に送り出してきました。2000年代後半には対空・地上監視のイノベーションである「TerraSight®」をリリースしています。米軍に採用されているTerrasight®ソフトウェアは、高度な画像処理により、多彩な入力変数から複合的な共通作戦状況図（COP: Common Operating Picture）をリアルタイムに生成します。

・拡張現実双眼鏡

SRIは2010年に、双眼鏡にAR（拡張現実）を搭載する研究を開始しました。当初は軍事用途と考えられていましたが、すぐに民生用途にも広がりました。克服しなければならなかった最大のハードルの1つは、手と身体の連続的な動きを管理し、ブレやズレのないAR画像を視聴者の目に正確に映すことでした。

コンピュータービジョン：未来に向けて

SRIがコンピュータービジョンやその関連分野（拡張現実など）で実現した大きなイノベーションは、さらなるソリューションへとつながっています。

・ピラミッド処理

過去30年以上にわたり、SRIは多くのリアルタイムのビジョンシステムを設計、開発、実装し、政府や商業用のさまざまなアプリケーションを実現してきました。この分野のソリューションやシステムは、SRIのピラミッド処理アーキテクチャ（Pyramid Processing Architecture：PPA）をベースにしています。PPAは米国政府の車両や戦闘機、ロボットシステムに対応するさまざまな低消費電力かつ高性能のビジョン処理チップの開発を支援する枠組みです。

SRIのビジョンシステムにとって、画像補正とマルチスペクトル画像合成は重要なテーマです。Acadia® Vision Processorなどのイノベーションでは、動画の安定化やモザイク処理、動画の合成、モーションステレオ、画像補正がリアルタイムでできるようになりました。この機能によって、今までは砂埃や雪、雨などで視認性が悪い環境下では常時（24時間365日）運用できなかったのが、軍用、民生の両分野において運用できるようになったのです。

・肌モニタリング

人間の肌でさえも、コンピュータービジョンを使ってより綺麗にすることができます。SRIは、斬新な画像処理と人工知能のアルゴリズムを採用した世界最先端の画像解析を開発し、モバイル機器を使って人間の肌の健康状態を観察できるようにしました。スマートフォンのアプリを使って肌の明るさや状態、水分量などを精密に感知し、肌の健康状態を判断します。この機能は、化粧品カウンターでのカウンセリング業務を支援する目的で商業的に活用されています。SRIは現在、この技術をがん化の可能性がある皮膚の自己診断に利用できないか、評価を実施しています。

・変化の検知：ピーク、乳がん、即製爆発装置(IDE)の検知

SRIは、造影剤投与前と投与後のMRI画像を比較してがん腫瘍を検出するなど、さまざまな用途に利用できる変化検出のアルゴリズムを開発しました。変化検出のアルゴリズムは、医療面への応用に限らず、交差点で車を検出して信号機の制御に利用することも可能です。また、軍事的な利用としては、航空映像データから複数の通過経路を見るアルゴリズムを使用して、道路脇に埋設された即製爆発装置（improvised explosive devices : IED）が発する変化の兆候を検出することができます。

・ナビゲーションとマッピング：CamSlam-GPSが使用できない環境下でのナビゲーション-

SRIは、広域拡張現実型ロボットナビゲーション用のマルチセンサーナビゲーションシステムを開発してきました。SRIのビジョンベースのトラッキングは、空や地上、海洋、地下などGPSが使えない環境下で作業する人間やモバイルプラットフォームの位置特定に使用されています。

・人間の行動計測

人間の感情の状態を評価するには、人間の行動をより深く理解することが欠かせません。トヨタ自動車の2020年のコンセプトカーでは、SRIの感情AIを用いた技術「ビジョンAI」を用いてドライバーを観察し、感情や身体の状態をモニタリングしています。

センター・オブ・ビジョン・テクノロジーズの将来的なビジョン

SRIが開発した数多くのコンピュータービジョン関連のテクノロジーからプロジェクトが続々と誕生しています。

・SRIのCenter for Vision Technologies（CVT）ラボ

CVTはコンピュータービジョン関連のイノベーションの中心です。CVTは最先端技術をベースにした、コンピュータービジョンの基本的なソリューションを開発しています。CVTのチームはコンピュータービジョンの重要な分野のいくつかに横断的にか関わっており、様々なセンサーや計算プラットフォームを活用しています。CVTは以下のようなものに採用されているアルゴリズムやハードウェアの開発や応用を手掛けています。

· 高度なビジョン開発に携わるコンピューテーショナルセンサー
· シーンを理解するための2D/3D推論
· 人間を理解し、人間と対話するための対話型知能システム
· チームフレームワークに必要な協調的自律性
· ビッグデータのマイニングするためのマルチモーダルデータ解析
· 機械学習による継続的な学習

CVTは防衛や医療、自動車などの政府機関や民間企業向けのプロトタイプソリューションを構築するために、初期段階の研究と開発業務の両方を実施しています。SRIの他の成功した多数の分野と同様、CVT技術の成功は、SRIの発見や発明の商業化を進めるスピンオフのベンチャー企業を生み出しています。

・コンピューティングエッジにおける機械学習（ML）

SRIは、機械学習アプリがクラウドに接続しなくてもアルゴリズムを動的に学習・再構成し、エッジデバイスが作動できるような新しいソリューションに取り組んでいます。これは非常に革新的なことであり、必要な電力も非常に少ないことから、ウェアラブルな機械学習デバイスがますます進化するでしょう。

・セマンティックナビゲーション

SRIは非常に力強い2D-3D推論のポートフォリオを開発しています。これには動画やLIDARなどの2Dセンサーおよび3Dセンサーを使用したナビゲーションやマッピングが含まれます。近年は機械学習により、2Dや3Dデータのセマンティック理解が著しく向上しています。セマンティクを取り入れることで、ナビゲーションや位置測定とマッピングの同時進行(SLAM：Simultaneous Localization And Mapping)、ジオレジストレーション、広域検索、拡張現実、データ圧縮、3Dモデリング、モニタリングなどに応用できる新しいクラスのアルゴリズムが開発できました。

長距離かつ広域の拡張現実：SRIは上記のようなローカライゼーションとジオレジストレーションの手法を、低消費電力でコンパクト、かつ頑丈なハードウェアと組み合わせて、広域の拡張現実アプリを開発しました。GPSの使用が難しい環境下で数平方キロメートルにわたって機能するよう、拡張現実の能力を拡張しました。拡張現実アプリに使用する長距離3Dオクルージョン推論も含まれます。

人と機械のシナジーを高める：世界では急速に、自動車やドローンなどのロボットプラットフォームに自律性が組み込まれつつあります。その結果、より複雑なタスクを実行するために、ロボット同士あるいは人間と協力する自律型プラットフォームへの需要が高まっています。SRIは、米国防高等研究計画局（DARPA）やIRAD、多数の民間プログラムで様々なマルチマシンやマルチヒューマンシステムに対応するコアメソッドを開発しています。

マルチロボットとマルチヒューマンの協調計画：ロボットと人間がチームを組んで目標に取り組み、効率的かつ効果的な計画を立案するには、常に変化する状況にスムーズかつ協調的に適応して対応する能力が必要です。SRIは高度なインタラクションとロボットの自律性を実現するために、セマンティック情報を抽出・利用して、人間と機械の新しい協調計画能力を生み出しました。

ビジョンと言語のナビゲーション（Vision and language navigation：VLN）：VLNは自律型ロボットが未知の環境において自然言語による指示に従うことを要求します。既存の学習をベースにした手法は主に現実の視覚観察に焦点を当てていることから、新しい環境を一般化する際に重要となるセマンティック推論の能力がないことが難しい課題であるとされています。SRIはこれを克服するために、ダイナミックなセマンティックマップを構築することで一時的な記憶を作成し、マップと言語のモダリティを整合するクロスモーダルグラウンディングを実施して、VLNの成果をより効果的なものにします。

・3Dシーン分類と3D圧縮

SRIは過去10年にわたり、非常に堅実な3Dシーン分類法を開発してきました。これらの分類法は現在、米国防総省（DoD: Department of Defense）の記録プログラムや市販のソフトウェアパッケージに採用されています。SRIは現在、米国海軍研究局（ONR: Office of Naval Research）や米陸軍、米国家地理空間情報局（NGA: National Geospatial-Intelligence Agency）と協力し、機械学習を用いた次世代の3Dシーン理解手法の開発を進めています。これらの手法は、トップダウンとボトムアップのコンテキスト推論と、人間が指定した地理的ルールを学習プロセスに組み込んでいます。この堅実なシーン理解手法により、SRIは現在広く利用されている3D圧縮手法を見直すことにつながりました。SRIは異なる特徴分類（地面、建物、森林など）に関する情報を取り入れることで、3Dデータの圧縮で非常に優れたビットレートを実現しています。

・人間行動の理解

SRIの人間行動モデリングは、3つの目的を中心に据えて行われています。
1）人間行動のモニタリング、2）人間とのインタラクション／コミュニケーション、3）ファシリテーションです。SRIは階層的アプローチを開発して人間行動を分析し、この3つの目的すべてに対応するコア技術を開発しました。

SRIはトヨタ自動車とのプロジェクトで、ドライバーの行動分析に使用するシステムを開発し、ドライバーの感情的な状態や眠気を評価する技術を開発しました。これらは、視線追跡や表情抽出、まばたきの頻度抽出によって実現されました。尚、車載に関しては車内の照明に関する条件が厳しく、バリエーションに課題があります。

SRIは階層的行動分析をさらに発展させて、学校の教室での生徒達の共同作業をモニタリングするソリューションの開発に取り組んでいます。SRIはMIBAで取得した低レベルの行動を基に、問題解決やグループの動き、ロールプレイングなど個人の行動から、グループの共同作業の状態を総合的に評価するレベルまで開発しています。このような階層的アーキテクチャにより、教師と生徒に対してきめ細かなフィードバックを行い、共同作業の改善につなげることができます。この研究は、米国国立科学財団（NSF）の発表で紹介されました。

・マルチメディア・アナリティクス

SRIは検索可能な画像とユーザーアノテーションを採用したAI学習データベースを迅速に構築できるコンピュータービジョンAI検索ツール（Computer Vision AI Search Tool：CVAST)を開発しました。CVASTは一般的なシーンオブジェクトの特徴を取り込み、オブジェクトのクラスタリングとアノテーションの迅速な実施を支援します。画像や属性のデータベースが柔軟であることから、ユーザーは膨大な画像セットの中から関連する特徴を検索することができます。

DARPAのプロジェクトには、戦略的コミュニケーションにおけるソーシャルメディア（Social Media in Strategic Communication：SMISC）、オンライン上での社会的行動のコンピューテーショナルシミュレーション（Computational Simulation of Online Social Behavior：SocSim）（SBIR M3Iシステム）、ONR CEROSS、AFRLマルチメディアを活用したソーシャルメディアの分析（Multimedia-Enhanced Social Media Analytics：MESA）があり、各プロジェクトにてSRIは同一幾何学的空間にいるユーザーとコンテンツをマルチモーダルに埋め込んで、画像、動画、テキスト、ユーザー間のマルチプラットフォームをシームレスに横断検索できるソーシャルメディアコンテンツのアナリティクスを開発しました。SRIはさらにMatchStaxと呼ばれるシステムを開発していますが、これはソーシャルメディアへの投稿の裏にある意図を検知することができます。私たちの研究は、ソーシャルメディアにおける影響力の伝播を追跡する枠組みを提供しています。SRIのMatchStaxシステムはSRIのベンチャー企業であるVitrinaにライセンス供与されています。

・機械学習

SRIは機械学習の研究開発において豊富な歴史があり、コンピューターの画像センサーが感知して学習し、適応させて実用的な情報を取得できるようにしています。SRIの最近の研究は、説明能力を備えた人工知能（Explainable Artificial Intelligence：XAI）、少ないラベルでの学習（Learning with Less Labels：LwLL）、オープンワールドノベルティのための人工知能と学習にまつわる科学（Science of Artificial Intelligence and Learning for Open World Novelty：SAIL ON）、コンピテンシーを考慮した機械学習（Competency Aware Machine Learning : CAML）、生涯にわたる学習、創造的な人工知能、近似計算、安定した（ロバストな）人工知能などのアプリに対応する深層学習と強化学習に焦点を当てています。

SRIは大規模なトレーニング用のデータセットを用いた指導者がいる学習だけでなく、機械学習のテクニックを人間が理解できるように説明することで、機械学習の最先端技術の研究を推進することに重点を置いています。DARPAのXAIプログラムにてSRIは機械学習ベースの質疑応答システムがどこで間違ったのか、そしてなぜ間違ったのかを示す新しい視覚的注意に基づく技術を開発しました。DARPAのLwLLプログラムでは、ごく少量のデータから学習する技術を開発しています。SAIL ONプログラムでは新しい環境において新しい発見を検知する予測コーディングをベースとした技術を開発しました。CAMLプログラムでは、新しい領域での機械学習アルゴリズムの実際のパフォーマンスを正確に予測することに役立つ新しい較正技術を開発しました。

・生涯にわたって学習する

SRIはシステムがタスクを実践できるように訓練する新しい機械学習（ML）アルゴリズムの開発に取り組んでいます。この設計における新規性は、タスクを実施しながらアルゴリズムが学習し続けるということです。このフィードバックのループにより、MLを搭載したシステムは関連するタスクや新しいタスクを実践する際にこの知識を応用することができます。

SRIのイノベーションの一部をご紹介しましたが、SRIには様々な意味で先見の明があります。これらのビジョンを実現させた方法の１つが、この70年にわたって蓄積された膨大な基礎研究です。SRIはこれまでのイノベーションを基に、人間とコンピューターの境界を越えて、より優れた、より効率的なテクノロジーの構築に引き続き取り組んでいきます。

SRI Internationalについて、詳しくはhttps://www.sri.com/jaをご覧ください。

参考資料：

The Computer Mouse(英語ブログ): https://medium.com/dish/75-years-of-innovation-the-computer-mouse-fef5161ba45d（日本語ブログ：コンピューターマウス)

Visual Advertising Insertion (Augmented Reality)(英語ブログ): https://medium.com/dish/75-years-of-innovation-virtual-advertising-insertion-augmented-reality-363cc5a291b0（日本語ブログ：バーチャル広告の出現（拡張現実の活用）ーテレビ放送向けの拡張現実技術利用の標準形を確立）

Terrasight ®software(英語ブログ): https://medium.com/dish/75-years-of-innovation-terrasight-software-e700519bc849（日本語ブログ：TerraSight®ソフトウェア - 詳細に「状況」を把握する高品質のリアルタイムビデオシステム）

Ground-and-Foliage Penetrating Radar(英語ブログ): https://medium.com/dish/75-years-of-innovation-foliage-penetrating-radar-technologies-folpen-39e31e101a57（日本語ブログ：森林を透過するレーダーテクノロジー（FOLPEN））

Failure Analysis (FRASTA (FRActure Surface Topography Analysis)(英語ブログ): https://medium.com/dish/75-years-of-innovation-frasta-fracture-surface-topography-analysis-b4c6dc9ae4ab

Eye Tracker(英語ブログ): https://medium.com/dish/75-years-of-innovation-eyetracker-d28b32608430（日本語ブログ：アイトラッカー　-SRIはいかに「アイトラッキング」の力に世界の目を向けさせたのか）

AR Binoculars(英語ブログ): https://medium.com/dish/75-years-of-innovation-augmented-reality-binoculars-a341086029ee

Iris Biometrics(英語ブログ): https://medium.com/dish/75-years-of-innovation-iris-recognition-201f7bacde61（日本語ブログ：虹彩認識技術 - 従来の制約を解消することで、実生活のシーンでの虹彩認証が利用可能に）

GPS Denied Navigation(英語ブログ): https://medium.com/dish/75-years-of-innovation-gps-denied-navigation-1c70d35500cb

Van der Wal, G.S., Burt, P.J. A VLSI pyramid chip for multiresolution image analysis. Int J Comput Vision 8, 177–189 (1992). https://doi.org/10.1007/BF00055150

The Acadia ®Vision Processor: https://www.researchgate.net/publication/2438269_The_Acadia_Vision_Processor

Emerging trends for cosmetic applications on mobile devices: https://www.teknoscienze.com/Contents/Riviste/Sfogliatore/HPC2_2018/59/#zoom=z

SRI International Debuts “Emotional AI” Vision Technology to Advance the Driving Experience: https://www.sri.com/press-release/sri-international-debuts-emotional-ai-vision-technology-to-advance-the-driving-experience/

編集/管理：熊谷訓果/ SRIインターナショナル日本支社

みんなにも読んでほしいですか？

オススメした記事はフォロワーのタイムラインに表示されます！