コンピュータビジョンは、コンピュータがデジタル画像やビデオから高レベルの理解を得るためにどのように作られるかを扱う学際的な分野です。 エンジニアリングの観点からは、人間の視覚システムが行うことができるタスクを自動化することを目指しています。

コンピュータビジョンタスクには、デジタル画像の取得、処理、分析および理解、および現実世界からの高次元データの抽出のための方法(例えば、決定の形での数値または記号情報の生成)が含まれる。 この文脈での理解とは、視覚画像(網膜の入力)を、他の思考プロセスと相互作用して適切な行動を引き出すことができる世界の記述に変換することを意味する。 この画像の理解は、ジオメトリ、物理学、統計、学習理論の助けを借りて構築されたモデルを用いて、画像データから記号的情報を解き放つものと見ることができる。

科学的な規律として、コンピュータビジョンは、画像から情報を抽出する人工システムの背後にある理論に関係している。 画像データは、ビデオシーケンス、複数のカメラからのビュー、または医療スキャナからの多次元データなど、多くの形態をとることができる。 技術的な規律として、コンピュータビジョンは、コンピュータビジョンシステムの構築のための理論とモデルを適用しようとしています。

コンピュータビジョンのサブドメインには、シーン再構成、イベント検出、ビデオ追跡、オブジェクト認識、3Dポーズ推定、学習、索引付け、動き推定、および画像復元が含まれる。

定義
コンピュータビジョンは、コンピュータがデジタル画像やビデオから高レベルの理解を得るためにどのように作られるかを扱う学際的な分野です。 エンジニアリングの観点からは、人間の視覚システムが行うことができるタスクを自動化することを目指しています。 「コンピュータビジョンは、単一の画像または一連の画像から有用な情報を自動的に抽出、分析、理解することに関係しており、視覚的に自動的に理解するための理論的およびアルゴリズムベースの開発を必要とします。 科学的な規律として、コンピュータビジョンは、画像から情報を抽出する人工システムの背後にある理論に関係している。 画像データは、ビデオシーケンス、複数のカメラからのビュー、または医療スキャナからの多次元データなど、多くの形態をとることができる。 技術的な規律として、コンピュータビジョンは、コンピュータビジョンシステムの構築のための理論とモデルを適用しようとしています。

歴史
1960年代後半には、人工知能を先駆けていた大学でコンピュータビジョンが始まりました。 それは人間の視覚システムを模倣することを意味し、ロボットにインテリジェントな行動を与える足がかりとなりました。 1966年には、これは夏のプロジェクトを通して、コンピュータにカメラを取り付け、それが「見たものを描写する」ことによって達成されると考えられていました。

当時のデジタル画像処理の普及している分野とコンピュータビジョンの顕著な違いは、フルシーンの理解を達成することを目的として、画像から3次元構造を抽出したいという要望でした。 1970年代の研究は、画像からのエッジの抽出、線のラベリング、非多面体および多面体モデリング、より小さな構造の相互接続としてのオブジェクトの表現、オプティカルフローなど、今日存在する多くのコンピュータビジョンアルゴリズムの初期基盤を形成しました。動き推定。

次の10年は、コンピュータビジョンのより厳密な数学的分析と定量的側面に基づく研究を見た。 これには、スケール・スペースの概念、シェーディング、テクスチャとフォーカス、ヘビとして知られる輪郭モデルなどの様々な手掛かりからの形状の推論が含まれます。 研究者はまた、これらの数学的概念の多くは、正規化フレームワークおよびマルコフランダムフィールドと同じ最適化フレームワーク内で扱うことができることに気づいた。 1990年代までに、以前の研究課題のいくつかが他の研究課題より活発になった。 射影3-D再構成の研究は、カメラ較正のより良い理解につながった。 カメラ較正のための最適化方法の出現により、写真測量の分野からバンドル調整理論で多くのアイデアが既に探究されていることが分かった。 これは、複数の画像からのシーンのまばらな3-D再構成のための方法につながった。 高密度のステレオ対応問題とさらにマルチビューステレオ技術について進歩がみられた。 同時に、画像分割を解決するために、グラフカットのバリエーションを使用しました。 この10年間は​​、実際に画像の顔を認識するために統計学的学習技術が初めて使用されたことも示しています(Eigenface参照)。 1990年代の終わりには、コンピュータグラフィックスの分野とコンピュータビジョンの間の相互作用の増加に大きな変化が生じました。 これには、画像ベースのレンダリング、画像モーフィング、ビュー補間、パノラマ画像ステッチング、および初期のライトフィールドレンダリングが含まれます。

最近の研究では、機械学習技術および複雑な最適化フレームワークと組み合わせて使用​​される、フィーチャベースのメソッドの復活が見られました。

関連分野

人工知能
人工知能の分野では、ロボットシステムが環境をナビゲートするための自律的な計画や審議が行われます。 これらの環境を詳細に理解する必要があります。 環境に関する情報は、ビジョンセンサとして機能し、環境およびロボットに関する高度な情報を提供するコンピュータビジョンシステムによって提供することができる。

人工知能とコンピュータビジョンは、パターン認識や学習技術などの他のトピックを共有します。 結果として、コンピュータビジョンは、人工知能分野またはコンピュータ科学分野の一部として一般的に見られることがある。

情報工学
コンピュータビジョンは、しばしば情報工学の一部と考えられています。

ソリッドステート物理学
ソリッドステート物理学は、コンピュータビジョンと密接に関連している別の分野です。 ほとんどのコンピュータビジョンシステムは、典型的には可視または赤外光の形態である電磁放射線を検出する画像センサに依存する。 センサーは量子物理学を使って設計されています。 光が表面と相互作用する過程は、物理学を使って説明されます。 物理学は、ほとんどのイメージングシステムの中核部分である光学系の挙動を説明している。 洗練されたイメージセンサでも、量子力学が画像形成プロセスの完全な理解を提供する必要があります。 また、物理学における様々な測定上の問題は、例えば流体中の運動などのコンピュータビジョンを用いて対処することができる。

神経生物学
重要な役割を果たす第3の分野は、神経生物学、特に生物学的視覚システムの研究である。 過去1世紀に渡って、人間と様々な動物の視覚刺激の処理に専念した目、ニューロン、脳構造の広範な研究が行われてきました。 これは、特定の視覚関連タスクを解決するために、「実際の」視覚システムがどのように動作するかについての、粗くて複雑な説明をもたらしている。 これらの結果は、人工システムが異なるレベルの複雑さで生物システムの処理および挙動を模倣するように設計されているコンピュータビジョン内のサブフィールドにつながっている。 また、コンピュータビジョンで開発された学習ベースの方法(例えば、ニューラルネットや深い学習に基づく画像や特徴の分析と分類)は、生物学の背景を持っています。

コンピュータビジョン研究のいくつかは、生物学的視覚の研究に密接に関連しています。実際、AI研究の多くの鎖は人間の意識の研究と密接に関連しており、記憶された知識を用いて視覚情報を解釈、統合、 生物学的視野の分野は、人間や他の動物の視覚的知覚の背後にある生理学的プロセスを研究しモデル化します。 一方、コンピュータビジョンは、人工ビジョンシステムの背後にあるソフトウェアおよびハードウェアで実施されるプロセスを研究し、説明する。 生物学とコンピュータビジョンの学際的な交流は、両方の分野において実りあるものであることが証明されています。

信号処理
コンピュータビジョンに関連するさらに別の分野は、信号処理である。 1変数信号、典型的には時間信号を処理するための多くの方法は、コンピュータビジョンにおける2変数信号または多変数信号の処理に自然な方法で拡張することができる。 しかしながら、画像の特定の性質のために、コンピュータビジョン内には、1変数信号の処理に対応するものがない多くの方法が開発されている。 信号の多次元性と共に、これはコンピュータビジョンの一部として信号処理のサブフィールドを定義します。

その他のフィールド
コンピュータビジョンに関する上記の見解に加えて、関連する研究課題の多くは、純粋に数学的観点から研究することもできます。 たとえば、コンピュータビジョンの多くの方法は、統計、最適化、またはジオメトリに基づいています。 最後に、この分野の重要な部分は、コンピュータビジョンの実装面に配慮されています。 既存の方法をソフトウェアとハ​​ードウェアのさまざまな組み合わせでどのように実現できるか、またはパフォーマンスをあまり低下させることなく処理速度を得るためにこれらの方法をどのように変更できるかについて説明します。

差別
コンピュータビジョンに最も関連する分野は、画像処理、画像解析、マシンビジョンです。 これらがカバーする技術とアプリケーションの範囲には重大な重複があります。 これは、これらのフィールドで使用され、開発された基本的なテクニックが似ていることを意味します。異なる名前を持つフィールドが1つしかないため、解釈することができます。 一方、研究グループ、学術誌、会議、企業は、これらの分野の1つに具体的に属していると自負する必要があると思われるため、各分野と他の分野を区別する様々な特徴付けが行われている提示された。

コンピュータグラフィックスは3Dモデルから画像データを生成し、コンピュータビジョンは画像データから3Dモデルを生成することが多い。 例えば、拡張された現実の中で探求されるように、2つの分野の組み合わせに向かう傾向もある。

次の特徴付けは関連しているように見えますが、普遍的に受け入れられているとはみなされません。

画像処理および画像解析は、2D画像、例えば、コントラスト強調などのピクセル単位の操作、エッジ抽出またはノイズ除去などの局所的な操作、または画像の回転などの幾何学的変換によって、画像を別の画像に変換する方法に焦点を当てる傾向がある。 この特徴付けは、画像処理/分析が仮定を必要とせず、画像内容に関する解釈を生成しないことを意味する。
コンピュータビジョンには、2D画像からの3D解析が含まれます。 これは、1つまたは複数の画像に投影された3Dシーンを分析する(例えば、1つまたは複数の画像から3Dシーンに関する構造または他の情報を再構築する方法)。 コンピュータビジョンは、しばしば、画像に描写されたシーンに関する多かれ少なかれ複雑な前提に依存する。
マシンビジョンは、工業用アプリケーションでイメージングベースの自動検査、プロセス制御、ロボットガイダンスを提供するためのさまざまな技術と方法を適用するプロセスです。 マシンビジョンは、ビジョンベースの検査、計測、ピッキング(ビンピッキングなど)のためのビジョンベースのロボットやシステムなど、製造を中心とするアプリケーションに集中する傾向があります。 これは、画像センサ技術と制御理論がロボットを制御する画像データの処理と統合され、ハードウェアとソフトウェアの効率的な実装によってリアルタイム処理が強調されることを意味する。 また、照明などの外部条件は、一般的なコンピュータビジョンよりもマシンビジョンで制御され、制御されることが多く、さまざまなアルゴリズムを使用できるようになります。
主に画像を生成するプロセスに焦点を当てたイメージングと呼ばれるフィールドがありますが、時には画像の処理と分析も扱うことがあります。 例えば、医用画像化は、医学的用途における画像データの分析に関する実質的な作業を含む。
最後に、パターン認識は、主に統計的アプローチおよび人工ニューラルネットワークに基づいて、一般的な信号から情報を抽出するために様々な方法を用いる分野である。 この分野の重要な部分は、これらの方法を画像データに適用することに専念している。

アプリケーション
アプリケーションは、生産ラインでスピードアップするボトルを検査する産業用マシンビジョンシステムなどのタスクから、人工知能およびコンピュータまたはそれらの周りの世界を理解することができるロボットの研究まで幅広い。 コンピュータビジョンとマシンビジョンの分野は重複しています。 コンピュータビジョンは、多くの分野で使用されている自動画像解析のコア技術をカバーしています。 マシンビジョンは、通常、自動画像解析と他の方法および技術を組み合わせて、産業用アプリケーションでの自動検査およびロボットガイダンスを提供するプロセスを指します。 多くのコンピュータビジョンアプリケーションでは、コンピュータは特定のタスクを解決するように事前にプログラムされていますが、学習に基づく方法はますます一般的になりつつあります。 コンピュータビジョンの応用例としては、

製造検査などの自動検査
種識別システムなどの識別作業において人間を支援する。
工業用ロボットなどの制御プロセス。
例えば、視覚的な監視や人々の計数のための事象の検出;
相互作用は、例えば、コンピュータと人間との対話のための装置への入力として;
例えば、医用画像解析または地形モデリングなどのオブジェクトまたは環境のモデリング;
例えば、自律車両または移動ロボットによるナビゲーション; そして
例えば、画像および画像シーケンスのデータベースを索引付けするための情報整理。

最も顕著な応用分野の1つは、患者を診断するために画像データから情報を抽出することを特徴とする医用コンピュータビジョンまたは医用画像処理である。 その一例は、腫瘍、動脈硬化または他の悪性変化の検出である; 臓器寸法、血流量などの測定値も別の例です。 また、脳の構造や医療の質など、新しい情報を提供することで医療研究を支援します。 医療分野におけるコンピュータビジョンの応用には、人間の解釈する画像(例えば、超音波画像またはX線画像)の強化も含まれ、ノイズの影響を低減する。

コンピュータビジョンにおける第2のアプリケーション領域は、製造プロセスを支援する目的で情報が抽出される、マシンビジョンとも呼ばれる産業界にある。 1つの例は、細部または最終製品が欠陥を見つけるために自動的に検査される品質管理である。 もう1つの例は、ロボットアームによってピックアップされる細部の位置および向きの測定である。 マシンビジョンはまた、バルク材料から望ましくない食品を除去するために、農業プロセスで頻繁に使用されており、光学選別と呼ばれるプロセスです。

ミリタリーアプリケーションは、おそらくコンピュータビジョンにとって最大の分野の1つです。 明白な例は、敵の兵士や車両の検出とミサイルガイダンスです。 ミサイル誘導のためのより進んだシステムは、ミサイルを特定のターゲットではなく地域に送り、ミサイルが局所的に取得された画像データに基づいてエリアに到達するとターゲットの選択が行われる。 「戦場認識」などの現代の軍事概念は、画像センサを含む様々なセンサが、戦略的決定を支援するために使用できる戦闘シーンに関する豊富な情報を提供することを意味する。 この場合、データの自動処理は、複雑性を低減し、複数のセンサからの情報を融合して信頼性を高めるために使用されます。

新しいアプリケーション分野の1つは、潜水艦、陸上乗用車(車輪、車またはトラックを備えた小型ロボット)、空中車両、および無人航空機(UAV)を含む自律型車両である。 自律性のレベルは、完全自律型(無人)車両から、コンピュータビジョンベースのシステムが様々な状況で運転手またはパイロットを支援する車両に及ぶ。 完全自律型車両は、典型的には、ナビゲーション、すなわちそれがどこにあるかを知るため、またはその環境の地図(SLAM)を作成するため、および障害物を検出するためのコンピュータビジョンを使用する。 また、森林火災を探しているUAVなど、特定のタスク固有のイベントを検出するためにも使用できます。 支援システムの例は、自動車の障害物警告システム、および航空機の自律着陸システムである。 いくつかの自動車メーカーは、自動車の自律走行のためのシステムを実演してきましたが、この技術はまだ市場に出せるレベルに達していません。 先進ミサイルから偵察任務やミサイル誘導のためのUAVまで、軍事自律車両の例が十分にある。 NASAの火星探査探査機(Mars Exploration Rover)やESAのExoMars Rover(ExoMars Rover)などのコンピュータビジョンを使用した自律型車両で宇宙探査が行われています。

その他の応用分野は次のとおりです。

Related Post

映画や放送のためのビジュアルエフェクトの作成、例えばカメラトラッキング(マッチムービング)のサポート。
監視。
生物科学における生物の追跡と計数

典型的なタスク
上述したアプリケーション領域のそれぞれは、一連のコンピュータ視覚タスクを使用する。 多かれ少なかれ明確に定義された測定上の問題や処理上の問題があり、さまざまな方法で解決できます。 典型的なコンピュータビジョンタスクのいくつかの例を以下に示す。

コンピュータビジョンタスクには、デジタル画像の取得、処理、分析および理解、および現実世界からの高次元データの抽出のための方法(例えば、決定の形での数値または記号情報の生成)が含まれる。 この文脈での理解とは、視覚画像(網膜の入力)を、他の思考プロセスと相互作用して適切な行動を引き出すことができる世界の記述に変換することを意味する。 この画像の理解は、ジオメトリ、物理学、統計、学習理論の助けを借りて構築されたモデルを用いて、画像データから記号的情報を解き放つものと見ることができる。

認識
コンピュータビジョン、画像処理、およびマシンビジョンの古典的な問題は、画像データに特定のオブジェクト、機能、またはアクティビティが含まれているかどうかを判断することです。 認識問題の様々な種類が文献に記載されている。

オブジェクト認識(オブジェクト分類とも呼ばれます) – 1つまたは複数のあらかじめ指定された、または学習されたオブジェクトまたはオブジェクトクラスが、通常はイメージ内の2D位置またはシーン内の3Dポーズと共に認識されます。 Blippar、Google Goggles、LikeThatは、この機能を説明するスタンドアロンプ​​ログラムを提供しています。
識別 – オブジェクトの個々のインスタンスが認識されます。 例には、特定の人の顔や指紋の識別、手書き数字の識別、または特定の車両の識別が含まれます。
検出 – 画像データが特定の条件でスキャンされます。 例には、医療画像における可能性のある異常な細胞または組織の検出、または自動道路通行料システムにおける乗り物の検出が含まれる。 興味深い画像データのより小さな領域を見つけるために、比較的簡単で高速な計算に基づく検出が使用されることがあり、正確な解釈を生成するためのより計算的に要求の高い技術によってさらに分析することができる。

現在、そのようなタスクのための最良のアルゴリズムは、畳み込みニューラルネットワークに基づいている。 彼らの能力の実例は、ImageNet Large Scale Visual Recognition Challengeによって与えられます。 これは、数百万のイメージと何百ものオブジェクトクラスを持つオブジェクトの分類と検出のベンチマークです。 畳み込みニューラルネットワークの性能は、ImageNetテストでは、人間のそれに近づいています。 最善のアルゴリズムは、花の茎に小さな蟻や手で羽を持つ人のように、小さくても薄いものでも苦労します。 また、フィルタで歪んだ画像(現代のデジタルカメラではますます一般的な現象)にも問題があります。 対照的に、これらの種類の画像は人間にはほとんど問題になりません。 しかし、人間は他の問題に苦しむ傾向があります。 例えば、犬や種の種などの細かいクラスにオブジェクトを分類することはよくありませんが、畳み込みニューラルネットワークはこれを容易に処理します。

認識に基づくいくつかの特殊なタスクが存在します。

コンテンツベースのイメージ検索 – 特定のコンテンツを持つより大きなイメージセット内のすべてのイメージを検索します。 コンテンツは、例えば、ターゲット画像(画像Xに類似するすべての画像を与える)、またはテキスト入力として与えられた高レベルの検索基準の観点から、異なる方法で指定することができます。多くの家屋は冬の間に奪われ、車は持たない)。
姿勢推定 – カメラに対する特定の物体の位置または方向を推定する。 この技術の応用例は、組立ラインの状況でコンベヤベルトから物体を回収するか、またはビンから部品を取り上げる際にロボットアームを支援することである。
OCR(Optical Character Recognition) – 通常、編集または索引付け(ASCIIなど)に適した形式でテキストをエンコードするために、印刷または手書きテキストの画像内の文字を識別します。
2Dコード読み取りデータマトリックスやQRコードなどの2Dコードの読み取り。
顔認識
物体からの人間(頭と肩のパターン)を区別する人のカウンターシステムにおける形状認識技術(SRT)

動作解析
いくつかのタスクは、画像シーケンスが処理されて、画像内または3Dシーン内の各点、または画像を生成するカメラの速度の推定値を生成する動き推定に関する。 そのようなタスクの例は次のとおりです。

エゴモーション – カメラによって生成された画像シーケンスからカメラの3D剛体運動(回転および平行移動)を決定する。
トラッキング – 画像シーケンス中の(通常は)より小さい関心点または物体(例えば、車両、人間または他の生物)の動きに追従する。
オプティカルフロー – 画像内の各点について、その点が画像面に対してどのように動いているか、すなわちその見かけの動きを決定する。 この動きは、対応する3Dポイントがシーン内でどのように動いているか、およびカメラがシーンに対してどのように動いているかの両方の結果である。

シーン再構成
シーンまたはビデオの1つまたは(典型的には)より多くの画像が与えられると、シーン再構成はシーンの3Dモデルを計算することを目的とする。 最も単純な場合、モデルは3D点の集合とすることができる。 より洗練された方法は、完全な3Dサーフェスモデルを生成します。 動きや走査を必要としない3D画像化の出現、および関連する処理アルゴリズムは、この分野における急速な進歩を可能にしている。 グリッドベースの3Dセンシングは、複数の角度から3D画像を取得するために使用できます。 複数の3D画像をポイントクラウドと3Dモデルに縫い合わせるためのアルゴリズムが利用可能になりました。

画像修復
画像復元の目的は、画像からノイズ(センサノイズ、モーションブラーなど)を除去することです。 ノイズ除去のための最も簡単な方法は、ローパスフィルタまたはメジアンフィルタのような様々なタイプのフィルタである。 より洗練された方法は、ローカル画像構造がどのように見えるかのモデルを、ノイズと区別するモデルと仮定します。 ラインまたはエッジのようなローカル画像構造に関して画像データを最初に分析し、次いで解析ステップからの局所情報に基づいてフィルタリングを制御することにより、より簡単なアプローチに比べてより良好なレベルのノイズ除去が得られる。

このフィールドの例はインペインティングです。

システムメソッド
コンピュータビジョンシステムの構成は、アプリケーションによって大きく異なります。 いくつかのシステムは、特定の測定または検出問題を解決するスタンドアロンアプリケーションであり、他のものは、例えば機械アクチュエータの制御のためのサブシステム、計画、情報データベース、マシンビジョンシステムの特定のインプリメンテーションは、その機能性が事前に指定されているかどうか、またはその一部が動作中に学習または変更できるかどうかにも依存する。 多くの機能はアプリケーション固有の機能です。 しかしながら、多くのコンピュータビジョンシステムに見られる典型的な機能が存在する。

画像取得 – デジタル画像は、様々なタイプの光感知カメラに加えて、距離センサ、断層撮影装置、レーダ、超音波カメラなどを含む1つまたは複数のイメージセンサによって生成される。センサのタイプに応じて、得られる画像データは、通常の2D画像、3Dボリューム、画像シーケンスである。 ピクセル値は、典型的には、1つまたは複数のスペクトル帯域(グレー画像またはカラー画像)における光強度に対応するが、深度、音波または電磁波の吸収または反射率、または核磁気共鳴などの様々な物理的測定値に関連することもできる。

前処理 – 特定の情報を抽出するために画像データにコンピュータビジョン法を適用する前に、そのデータが特定の前提条件を満たすことを保証するためにデータを処理する必要があります。 例は次のとおりです
画像座標系が正しいことを保証するために再サンプリングする。
センサノイズが誤った情報を導入しないことを保証するためのノイズ低減。
関連情報が検出されることを保証するコントラスト強化。
局所的に適切なスケールで画像構造を強化するための空間表現のスケール。

特徴抽出 – 画像データから様々なレベルの複雑さの画像特徴を抽出する。 そのような特徴の典型的な例は、
ライン、エッジ、リッジ。
コーナー、ブロブまたはポイントなどのローカライズされた関心ポイント。
より複雑なフィーチャは、テクスチャ、形状、または動きに関連している可能性があります。

検出/セグメンテーション – 処理のある時点で、画像のどの画像点または領域がその後の処理に関連するかについての判断が行われる。 例は次のとおりです
特定の関心ポイントの選択
特定の対象オブジェクトを含む1つまたは複数のイメージ領域のセグメンテーション。
視覚的顕著性はしばしば空間的および時間的注意として実装されるが、入れ子状のシーンアーキテクチャへの画像のセグメンテーションは、前景、オブジェクトグループ、単一のオブジェクトまたは顕著なオブジェクトパーツ(空間タクソンシーンの階層構造とも呼ばれる)
1つまたは複数のビデオを一連のフレームごとの前景マスクにセグメンテーションまたはコセグメンテーションし、時間的な意味的連続性を維持します。

ハイレベル処理 – このステップでは、入力は通常、特定のオブジェクトを含むと想定されるポイントや画像領域などの小さなデータセットです。 残りの処理は、たとえば次のように処理されます。
データがモデルベースおよびアプリケーション固有の前提を満たすことの検証。
オブジェクトのポーズやオブジェクトのサイズなどのアプリケーション固有のパラメータの推定。
画像認識 – 検出されたオブジェクトを異なるカテゴリに分類する。
イメージの登録 – 同じオブジェクトの2つの異なるビューを比較して組み合わせる。

意思決定アプリケーションに必要な最終決定を行う
自動検査アプリケーションの合格/不合格
認識アプリケーションでの一致/不一致
医療、軍事、安全保障、認知の分野における、さらなる人間の査読の旗

画像理解システム
画像理解システム(IUS)は、以下のような3つの抽象化レベルを含む。低レベルは、エッジ、テクスチャ要素、または領域などの画像プリミティブを含む。 中間レベルには境界、サーフェス、ボリュームが含まれます。 高レベルには、オブジェクト、シーン、またはイベントが含まれます。 これらの要件の多くは、今後の研究課題です。

これらのレベルに対するIUSの設計における表現要件は、プロトタイプ概念の表現、概念構成、空間知識、時間知識、スケーリング、および比較および差別化による記述である。

推論とは、現在知られている事実から明示的に示されていない新しい事実を導き出すプロセスを指すが、制御とは、処理の特定の段階で多くの推論、検索、およびマッチング技術のどれを適用すべきかを選択するプロセスを指す。 IUSの推論と制御の要件は、検索と仮説の活性化、照合と仮説のテスト、期待の生成と使用、注意の変更と焦点、信念の確信と強さ、推論と目標満足です。

ハードウェア
それにもかかわらず、コンピュータビジョンシステムには多くの種類があるが、それらの全てには、電源、少なくとも1つの画像取得装置(カメラ、CDなど)、プロセッサおよび制御および通信ケーブルまたは何らかの種類の基本要素無線相互接続メカニズム さらに、実用的なビジョンシステムには、システムを監視するためのディスプレイと同様に、ソフトウェアが含まれています。 ほとんどの産業用のものと同様に、内部空間用のビジョンシステムは、照明システムを含み、制御された環境に配置することができる。 さらに、完成したシステムには、カメラサポート、ケーブル、コネクタなどの多くのアクセサリが含まれています。

ほとんどのコンピュータビジョンシステムは、可視光カメラを使用して、受動的に1秒間に60フレーム(通常ははるかに遅い)のフレームレートでシーンを見る。

いくつかのコンピュータビジョンシステムは、アクティブ照明または可視光以外のものまたはその両方を用いた画像取得ハードウェアを使用する。 例えば、構造化光3Dスキャナ、サーモグラフィカメラ、ハイパースペクトルイメージャ、レーダイメージング、ライダスキャナ、磁気共鳴イメージ、サイドスキャンソナー、合成アパーチャソナーなどである。このようなハードウェアは、可視光画像を処理するために使用されるのと同じコンピュータビジョンアルゴリズムを使用して処理されることが多い。

従来の放送および消費者ビデオシステムは毎秒30フレームの速度で動作するが、デジタル信号処理および消費者グラフィックスハードウェアの進歩により、数百〜数百のオーダーのリアルタイムシステムで高速画像取得、処理および表示が可能になった毎秒数千フレーム。 ロボティクスのアプリケーションでは、高速のリアルタイムビデオシステムが非常に重要であり、特定のアルゴリズムに必要な処理を簡素化することができます。 高速プロジェクタと組み合わせることで、高速画像取得により、3D計測やフィーチャトラッキングを実現します。

Egocentricビジョンシステムは、一人称視点から自動的に写真を撮るウェアラブルカメラで構成されています。

2016年現在、ビジョン処理ユニットは、この役割のCPUおよびグラフィックス処理ユニット(GPU)を補完する新しいクラスのプロセッサとして登場しています。

Share