Компьютерное зрение

Компьютерное зрение — это междисциплинарная область, которая касается того, как компьютеры могут быть сделаны для получения высокого уровня понимания от цифровых изображений или видео. С точки зрения техники, он стремится автоматизировать задачи, которые может сделать человеческая визуальная система.

Задачи компьютерного видения включают в себя методы получения, обработки, анализа и понимания цифровых изображений и извлечения высокоразмерных данных из реального мира для получения числовой или символической информации, например, в формах решений. Понимание в этом контексте означает преобразование визуальных образов (вход сетчатки) в описания мира, которые могут взаимодействовать с другими процессами мышления и вызывать соответствующие действия. Это понимание изображения можно рассматривать как распутывание символической информации из данных изображения с использованием моделей, построенных с помощью геометрии, физики, статистики и теории обучения.

Как научная дисциплина, компьютерное зрение связано с теорией искусственных систем, которые извлекают информацию из изображений. Данные изображения могут принимать различные формы, такие как видеопоследовательности, виды из нескольких камер или многомерные данные из медицинского сканера. Как технологическая дисциплина, компьютерное зрение стремится применять свои теории и модели для построения систем компьютерного зрения.

Поддомены компьютерного видения включают реконструкцию сцены, обнаружение событий, отслеживание видео, распознавание объектов, оценку 3D-позы, обучение, индексацию, оценку движения и восстановление изображений.

Определение
Компьютерное зрение — это междисциплинарная область, которая касается того, как компьютеры могут быть сделаны для получения высокого уровня понимания от цифровых изображений или видео. С точки зрения техники, он стремится автоматизировать задачи, которые может сделать человеческая визуальная система. «Компьютерное зрение связано с автоматическим извлечением, анализом и пониманием полезной информации из одного изображения или последовательности изображений. Это связано с разработкой теоретической и алгоритмической основы для достижения автоматического визуального понимания». Как научная дисциплина, компьютерное зрение связано с теорией искусственных систем, которые извлекают информацию из изображений. Данные изображения могут принимать различные формы, такие как видеопоследовательности, виды из нескольких камер или многомерные данные из медицинского сканера. Как технологическая дисциплина, компьютерное зрение стремится применять свои теории и модели для построения систем компьютерного зрения.

история
В конце 1960-х годов компьютерное зрение началось в университетах, которые занимались разработкой искусственного интеллекта. Это предназначалось для имитации визуальной системы человека, как ступеньки для наделения роботов интеллектуальным поведением. В 1966 году считалось, что этого можно достичь с помощью летнего проекта, подключив камеру к компьютеру и «описав, что она увидела».

Какое превосходное компьютерное зрение из преобладающей области цифровой обработки изображений в то время было желание извлечь трехмерную структуру из изображений с целью достижения полного понимания сцены. Исследования в 1970-х годах стали основой для многих современных алгоритмов компьютерного зрения, в том числе извлечения краев из изображений, маркировки линий, неполиэдрального и полиэдрального моделирования, представления объектов как взаимосвязи меньших структур, оптического потока и оценка движения.

В следующее десятилетие были проведены исследования, основанные на более строгом математическом анализе и количественных аспектах компьютерного зрения. К ним относятся концепция масштабного пространства, вывод формы из различных сигналов, таких как затенение, текстура и фокус, а также контурные модели, известные как змеи. Исследователи также поняли, что многие из этих математических понятий можно рассматривать в рамках одной и той же оптимизации, как и регуляризация и марковские случайные поля. К 1990-м годам некоторые из предыдущих тем исследований стали более активными, чем другие. Исследования в проективных трехмерных реконструкциях привели к лучшему пониманию калибровки камеры. С появлением методов оптимизации для калибровки камеры выяснилось, что многие идеи уже были изучены в теории упорядочивания пучков из области фотограмметрии. Это привело к методам редких трехмерных реконструкций сцен из нескольких изображений. Прогресс был достигнут в отношении проблемы плотного стереосопровождения и дальнейших многообразных стереофонических технологий. В то же время для устранения сегментации изображений использовались вариации графа. Это десятилетие также ознаменовало первый случай, когда методы статистического обучения использовались на практике для распознавания лиц в изображениях (см. Eigenface). К концу 1990-х годов произошли значительные изменения с увеличением взаимодействия между областями компьютерной графики и компьютерного зрения. Это включало рендеринг изображений, морфинг изображений, интерполяцию вида, панорамное сшивание изображений и раннее рендеринг светового поля.

Недавняя работа показала возрождение функциональных методов, используемых в сочетании с методами машинного обучения и комплексными платформами оптимизации.

Связанные поля

Искусственный интеллект
Области искусственного интеллекта занимаются автономным планированием или обсуждением для роботизированных систем для навигации по окружающей среде. Для навигации по ним требуется подробное понимание этих сред. Информация об окружающей среде может быть обеспечена системой компьютерного зрения, действующей как датчик зрения и обеспечивающей высокоуровневую информацию об окружающей среде и роботе.

Искусственный интеллект и компьютерное зрение разделяют другие темы, такие как распознавание образов и методы обучения. Следовательно, компьютерное зрение иногда рассматривается как часть поля искусственного интеллекта или в области информатики в целом.

Информационная инженерия
Компьютерное зрение часто считается частью информационной инженерии.

Физика твердого тела
Физика твердого тела — это еще одна область, которая тесно связана с компьютерным видением. Большинство систем компьютерного зрения основаны на датчиках изображения, которые обнаруживают электромагнитное излучение, которое обычно представляет собой видимый или инфракрасный свет. Датчики разработаны с использованием квантовой физики. Процесс, посредством которого свет взаимодействует с поверхностями, объясняется с помощью физики. Физика объясняет поведение оптики, которая является основной частью большинства систем обработки изображений. Сложные датчики изображения даже требуют квантовой механики, чтобы обеспечить полное понимание процесса формирования изображения. Кроме того, различные проблемы измерения в физике могут быть решены с помощью компьютерного зрения, например движения в жидкостях.

нейробиология
Третье поле, которое играет важную роль, — нейробиология, в частности исследование системы биологического зрения. За последнее столетие было проведено обширное исследование глаз, нейронов и структур мозга, посвященных обработке зрительных стимулов как у людей, так и у разных животных. Это привело к грубому, но сложному описанию того, как работают «реальные» системы видения для решения определенных задач, связанных с видением. Эти результаты привели к подполе в компьютерном зрении, где искусственные системы призваны имитировать обработку и поведение биологических систем на разных уровнях сложности. Кроме того, некоторые из основанных на учебе методов, разработанных в рамках компьютерного видения (например, нейронной сети и глубокого обучения, основанного на изображении, анализе и классификации объектов), имеют свой опыт в биологии.

Некоторые направления исследований в области компьютерного зрения тесно связаны с изучением биологического видения — действительно, так же, как многие направления исследований ИИ тесно связаны с исследованиями в сознании человека и использованием накопленных знаний для интерпретации, интеграции и использования визуальной информации. Область биологического видения изучает и моделирует физиологические процессы за зрительным восприятием у людей и других животных. С другой стороны, компьютерное зрение изучает и описывает процессы, реализованные в программном и аппаратном обеспечении за системами искусственного зрения. Междисциплинарный обмен между биологическим и компьютерным видением оказался плодотворным для обеих областей.

Обработка сигнала
Еще одна область, связанная с компьютерным зрением, — обработка сигналов. Многие методы обработки сигналов с одной переменной, обычно временные сигналы, могут быть естественным образом расширены для обработки сигналов с двумя переменными или сигналов с несколькими переменными в компьютерном зрении. Однако из-за специфики изображений в компьютерном зрении существует много методов, которые не имеют аналогов в обработке сигналов с одной переменной. Вместе с многомерностью сигнала это определяет подполе в обработке сигналов как часть компьютерного зрения.

Другие поля
Помимо вышеупомянутых взглядов на компьютерное зрение, многие связанные с этим темы исследований также можно изучать с чисто математической точки зрения. Например, многие методы компьютерного видения основаны на статистике, оптимизации или геометрии. Наконец, значительная часть области посвящена аспекту реализации компьютерного видения; как существующие методы могут быть реализованы в различных комбинациях программного и аппаратного обеспечения или как эти методы могут быть изменены, чтобы получить скорость обработки без потери слишком большой производительности.

Отличительные особенности
Поля, наиболее тесно связанные с компьютерным зрением, — это обработка изображений, анализ изображений и машинное зрение. Существует значительное совпадение в области методов и приложений, которые они охватывают. Это означает, что основные методы, которые используются и разрабатываются в этих полях, схожи, что можно интерпретировать, поскольку существует только одно поле с разными именами. С другой стороны, представляется необходимым, чтобы исследовательские группы, научные журналы, конференции и компании представляли или продавали себя как принадлежащие конкретно к одной из этих областей, и, следовательно, различные характеристики, которые отличают каждое из полей от других, были представил.

Компьютерная графика создает данные изображения из 3D-моделей, компьютерное зрение часто производит 3D-модели из данных изображения. Существует также тенденция к сочетанию двух дисциплин, например, как описано в дополненной реальности.

Следующие характеристики кажутся актуальными, но не должны приниматься как общепринятые:

Обработка изображений и анализ изображений сосредоточены на 2D-изображениях, как преобразовать одно изображение в другое, например, с помощью пиксельных операций, таких как усиление контраста, локальные операции, такие как извлечение края или удаление шума, или геометрические преобразования, такие как поворот изображения , Эта характеристика подразумевает, что обработка / анализ изображений не требуют предположений и не интерпретируют содержание изображения.
Компьютерное зрение включает в себя 3D-анализ с 2D-изображений. Это анализирует 3D-сцену, проецируемую на одно или несколько изображений, например, как восстановить структуру или другую информацию о трехмерной сцене из одного или нескольких изображений. Компьютерное зрение часто опирается на более или менее сложные предположения относительно сцены, изображенной на изображении.
Машинное зрение — это процесс применения целого ряда технологий и методов для обеспечения автоматического контроля, управления технологическим процессом и управления роботами в промышленных приложениях. Машинное зрение имеет тенденцию сосредотачиваться на приложениях, в основном на производстве, например, на роботах, основанных на видении, и системах для контроля, измерения или сбора зрения на основе зрения (например, сборка бункера). Это означает, что технологии датчиков изображения и теория управления часто интегрированы с обработкой данных изображения для управления роботом и что обработка в реальном времени подчеркивается с помощью эффективных реализаций аппаратного и программного обеспечения. Это также подразумевает, что внешние условия, такие как освещение, могут быть и часто более контролируются в машинном зрении, чем в общем компьютерном зрении, что может позволить использовать различные алгоритмы.
Существует также область, называемая визуализацией, которая в основном фокусируется на процессе создания изображений, но иногда также занимается обработкой и анализом изображений. Например, медицинская визуализация включает существенную работу по анализу данных изображения в медицинских приложениях.
Наконец, распознавание образов — это поле, которое использует различные методы для извлечения информации из сигналов в целом, в основном на основе статистических подходов и искусственных нейронных сетей. Значительная часть этой области посвящена применению этих методов к данным изображения.

Приложения
Приложения варьируются от таких задач, как промышленные системы машинного зрения, которые, скажем, проверяют бутылки, ускоряющиеся на производственной линии, для исследования искусственного интеллекта и компьютеров или роботов, которые могут осмыслить мир вокруг них. Области компьютерного зрения и машинного зрения имеют существенное перекрытие. Компьютерное зрение охватывает основную технологию автоматического анализа изображений, которая используется во многих областях. Машинное зрение обычно относится к процессу объединения автоматизированного анализа изображений с другими методами и технологиями для обеспечения автоматического контроля и управления роботами в промышленных приложениях. Во многих приложениях для компьютерного зрения компьютеры предварительно запрограммированы для решения конкретной задачи, но методы, основанные на обучении, становятся все более распространенными. Примеры приложений компьютерного зрения включают системы для:

Автоматический контроль, например, в производственных приложениях;
Помощь людям в задачах идентификации, например, система идентификации видов;
Контролирующие процессы, например, промышленный робот;
Обнаружение событий, например, для визуального наблюдения или подсчета людей;
Взаимодействие, например, как вход в устройство для взаимодействия между компьютером и человеком;
Моделирование объектов или сред, например, анализ медицинских изображений или топографическое моделирование;
Навигация, например, автономным транспортным средством или мобильным роботом; а также
Организация информации, например, для индексирования баз данных изображений и последовательностей изображений.

Одним из наиболее важных областей применения является медицинское компьютерное зрение или медицинская обработка изображений, характеризующаяся извлечением информации из данных изображения для диагностики пациента. Примером этого является обнаружение опухолей, артериосклероза или других злокачественных изменений; измерения размеров органов, кровотока и т. д. — еще один пример. Он также поддерживает медицинские исследования, предоставляя новую информацию: например, о структуре мозга или о качестве лечения. Приложения компьютерного зрения в медицинской области также включают в себя улучшение изображений, интерпретируемых людьми, — ультразвуковые изображения или рентгеновские изображения, например, для уменьшения влияния шума.

Вторая область применения в компьютерном зрении находится в промышленности, иногда называемой машинным видением, где информация извлекается с целью поддержки производственного процесса. Одним из примеров является контроль качества, когда детали или конечные продукты автоматически проверяются для обнаружения дефектов. Другим примером является измерение положения и ориентации деталей, которые должны быть захвачены роботом. Машинное зрение также широко используется в сельскохозяйственном процессе для удаления нежелательных продуктов из сыпучего материала, процесса, называемого оптической сортировкой.

Военные приложения, вероятно, являются одной из самых больших областей для компьютерного зрения. Очевидными примерами являются обнаружение солдат или транспортных средств противника и руководства по ракетам. Более совершенные системы для управления ракетами направляют ракету в область, а не конкретную цель, и выбор цели производится, когда ракета достигает области на основе данных, полученных локально. Современные военные концепции, такие как «осведомленность о битве», подразумевают, что различные датчики, включая датчики изображения, предоставляют богатый набор информации о боевой сцене, которая может использоваться для поддержки стратегических решений. В этом случае автоматическая обработка данных используется для снижения сложности и для обеспечения надежной защиты информации от нескольких датчиков.

Одной из новых областей применения являются автономные транспортные средства, включая подводные аппараты, наземные транспортные средства (небольшие роботы с колесами, автомобили или грузовики), воздушные транспортные средства и беспилотные летательные аппараты (БПЛА). Уровень автономии варьируется от полностью автономных (беспилотных) транспортных средств до транспортных средств, в которых системы на основе компьютерного зрения поддерживают водителя или пилота в различных ситуациях. Полностью автономные транспортные средства обычно используют компьютерное зрение для навигации, то есть для того, чтобы знать, где оно находится, или для создания карты его окружения (SLAM) и для обнаружения препятствий. Он также может использоваться для обнаружения определенных событий, связанных с конкретными задачами, например, БПЛА, ищущих лесные пожары. Примерами поддерживающих систем являются системы предупреждения о препятствиях в автомобилях и системы автономной посадки самолетов. Несколько автопроизводителей продемонстрировали системы автономного вождения автомобилей, но эта технология до сих пор не достигла такого уровня, на котором ее можно было бы поставить на рынок. Имеются достаточные примеры военных автономных транспортных средств, начиная от передовых ракет, до БПЛА для разведывательных миссий или управления ракетами. Космические исследования уже проводятся с использованием автономных транспортных средств с компьютерным зрением, например, NASA Mars Exploration Rover и ESO ExoMars Rover.

Другие области применения включают:

Поддержка создания визуальных эффектов для кино и трансляции, например, отслеживание камеры (matchmoving).
Наблюдение.
Отслеживание и подсчет организмов в биологических науках

Типичные задачи
Каждая из областей применения, описанных выше, использует целый ряд задач компьютерного видения; более или менее четко определенные проблемы с измерением или проблемы обработки, которые могут быть решены с использованием различных методов. Ниже приводятся некоторые примеры типичных задач компьютерного зрения.

Задачи компьютерного видения включают в себя методы получения, обработки, анализа и понимания цифровых изображений и извлечения высокоразмерных данных из реального мира для получения числовой или символической информации, например, в формах решений. Понимание в этом контексте означает преобразование визуальных образов (вход сетчатки) в описания мира, которые могут взаимодействовать с другими процессами мышления и вызывать соответствующие действия. Это понимание изображения можно рассматривать как распутывание символической информации из данных изображения с использованием моделей, построенных с помощью геометрии, физики, статистики и теории обучения.

признание
Классической проблемой компьютерного зрения, обработки изображений и машинного зрения является определение того, содержат ли данные изображения определенный объект, функцию или активность. Различные разновидности проблемы распознавания описаны в литературе:

Распознавание объектов (также называемое классификацией объектов) — можно распознать один или несколько предварительно определенных или изученных объектов или классов объектов, как правило, вместе с их 2D-позициями в изображении или 3D-позициях в сцене. Blippar, Google Goggles и LikeThat предоставляют автономные программы, которые иллюстрируют эту функциональность.
Идентификация — признается отдельный экземпляр объекта. Примеры включают идентификацию лица или отпечатка лица конкретного лица, идентификацию рукописных цифр или идентификацию конкретного транспортного средства.
Обнаружение — данные изображения сканируются для определенного состояния. Примеры включают обнаружение возможных аномальных клеток или тканей в медицинских изображениях или обнаружение транспортного средства в автоматической системе дорожных сборов. Обнаружение, основанное на относительно простых и быстрых вычислениях, иногда используется для поиска небольших областей интересных данных изображения, которые могут быть дополнительно проанализированы с помощью более сложных вычислительных методов для правильной интерпретации.

В настоящее время лучшие алгоритмы для таких задач основаны на сверточных нейронных сетях. Иллюстрацией их возможностей является задача визуального распознавания ImageNet Large Scale; это эталоном в классификации и обнаружении объектов, с миллионами изображений и сотен классов объектов. Производительность сверточных нейронных сетей, на тестах ImageNet, теперь близка к производительности людей. Лучшие алгоритмы по-прежнему борются с маленькими или худшими объектами, такими как маленький муравей на стебле цветка или человек, держащий в руках перо. У них также есть проблемы с изображениями, искаженными фильтрами (все более распространенное явление с современными цифровыми камерами). Напротив, эти виды изображений редко беспокоят людей. Однако у людей возникают проблемы с другими проблемами. Например, они не умеют классифицировать объекты в мелкозернистые классы, такие как особая порода собак или видов птиц, тогда как сверточные нейронные сети справляются с этим с легкостью.

Существует несколько специализированных задач, основанных на распознавании, таких как:

Поиск на основе контента — поиск всех изображений в большем наборе изображений, имеющих конкретный контент. Содержимое может быть указано по-разному, например, с точки зрения подобия относительно целевого изображения (дайте мне все изображения, похожие на изображение X), или в терминах критериев высокого уровня поиска, заданных как ввод текста (дайте мне все изображения, которые содержат многие дома, заняты зимой и не имеют в них автомобилей).
Оценка позы — оценка положения или ориентации конкретного объекта относительно камеры. Примером приложения для этой техники было бы оказание помощи роботу-манипулятору в извлечении объектов из конвейерной ленты в ситуации сборочной линии или в сборе деталей из бункера.
Оптическое распознавание символов (OCR) — идентификация символов в изображениях печатного или рукописного текста, обычно с целью кодирования текста в формате, более пригодном для редактирования или индексирования (например, ASCII).
Чтение 2D-кода Чтение 2D-кодов, таких как матрица данных и QR-коды.
Распознавание лица
Технология распознавания формы (SRT) в системах счётчиков людей, дифференцирующих людей (головы и плечо) от объектов

Анализ движения
Несколько задач связаны с оценкой движения, когда последовательность изображений обрабатывается для получения оценки скорости либо в каждой точке изображения или в трехмерной сцене, либо даже в камере, которая создает изображения. Примерами таких задач являются:

Egomotion — определение 3D жесткого движения (поворота и трансляции) камеры из последовательности изображений, создаваемой камерой.
Отслеживание — слежение за движением (обычно) меньшего набора точек интереса или объектов (например, транспортных средств, людей или других организмов) в последовательности изображений.
Оптический поток — определить для каждой точки изображения то, как эта точка движется относительно плоскости изображения, т. Е. Ее кажущееся движение. Это движение является результатом как того, как соответствующая 3D-точка движется в сцене, так и то, как камера движется относительно сцены.

Реконструкция сцены
Учитывая одно или (как правило) больше изображений сцены или видео, реконструкция сцены нацелена на вычисление 3D-модели сцены. В простейшем случае модель может быть набором трехмерных точек. Более сложные методы создают полную 3D-модель поверхности. Появление 3D-изображений, не требующих движения или сканирования, и соответствующие алгоритмы обработки, позволяют быстро продвигаться в этой области. Трехмерное зондирование на основе сетки может использоваться для получения 3D-изображений с нескольких углов. Теперь доступны алгоритмы для сшивания нескольких трехмерных изображений вместе с облаками точек и 3D-моделями.

Восстановление изображений
Целью восстановления изображения является удаление шума (шума датчика, размытости движения и т. Д.) Из изображений. Простейшим возможным подходом для удаления шума являются различные типы фильтров, такие как фильтры нижних частот или медианные фильтры. Более сложные методы предполагают модель того, как выглядят структуры локального изображения, модель, которая отличает их от шума. Сначала анализируя данные изображения в терминах локальных структур изображения, таких как линии или ребра, а затем контролируя фильтрацию на основе локальной информации с этапа анализа, обычно получается лучший уровень удаления шума по сравнению с более простыми подходами.

Примером в этом поле является рисование.

Системные методы
Организация системы компьютерного зрения очень зависит от приложения. Некоторые системы представляют собой автономные приложения, которые решают конкретную проблему измерения или обнаружения, в то время как другие представляют собой подсистему большего размера, которая, например, также содержит подсистемы для управления механическими приводами, планирование, информационные базы данных, машинные интерфейсы и т. д. Конкретная реализация системы компьютерного зрения также зависит от того, предварительно ли задана ее функциональность или может ли какая-либо ее часть быть изучена или изменена во время работы. Многие функции уникальны для приложения. Однако существуют типичные функции, которые встречаются во многих системах компьютерного зрения.

Получение изображения. Цифровое изображение создается одним или несколькими датчиками изображения, которые, помимо различных типов светочувствительных камер, включают датчики дальности, томографические приборы, радиолокационные, ультразвуковые камеры и т. Д. В зависимости от типа датчика, результирующие данные изображения представляют собой обычное 2D-изображение, трехмерный объем или последовательность изображений. Значения пикселей обычно соответствуют интенсивности света в одной или нескольких спектральных диапазонах (серые изображения или цветные изображения), но также могут быть связаны с различными физическими измерениями, такими как глубина, поглощение или отражение звуковых или электромагнитных волн или ядерный магнитный резонанс.

Предварительная обработка. До того, как метод компьютерного зрения может быть применен к данным изображения для извлечения какой-либо определенной части информации, обычно необходимо обрабатывать данные, чтобы гарантировать, что он удовлетворяет определенным предположениям, подразумеваемым этим методом. Примерами являются
Повторная выборка, чтобы гарантировать правильность системы координат изображения.
Снижение шума для обеспечения того, чтобы шум датчика не вводил ложную информацию.
Улучшение контрастности, чтобы гарантировать, что соответствующая информация может быть обнаружена.
Представление масштаба пространства для улучшения структур изображения в локально соответствующих масштабах.

Извлечение функций — функции изображения на различных уровнях сложности извлекаются из данных изображения. Типичными примерами таких признаков являются
Линии, ребра и хребты.
Локализованные точки интереса, такие как углы, пятна или точки.
Более сложные функции могут быть связаны с текстурой, формой или движением.

Обнаружение / сегментация. В какой-то момент обработки принимается решение о том, какие точки изображения или области изображения имеют отношение к дальнейшей обработке. Примерами являются
Выбор определенного набора точек интереса
Сегментация одной или нескольких областей изображения, которые содержат конкретный объект, представляющий интерес.
Сегментация изображения в архитектуру вложенной сцены включала передний план, группы объектов, отдельные объекты или выделенные части объекта (также называемые иерархией сцен пространственно-таксонов), в то время как визуальная значимость часто реализуется как пространственное и временное внимание.
Сегментация или совместная сегментация одного или нескольких видео в ряд масок переднего кадра, сохраняя при этом временную семантическую непрерывность.

Обработка на высоком уровне. На этом этапе ввод обычно представляет собой небольшой набор данных, например набор точек или область изображения, которая предположительно содержит определенный объект. Оставшаяся обработка касается, например:
Проверка того, что данные соответствуют допущениям на основе моделей и приложений.
Оценка конкретных параметров приложения, таких как позыв объекта или размер объекта.
Распознавание изображений — классификация обнаруженного объекта в разные категории.
Регистрация изображений — сравнение и объединение двух разных видов одного и того же объекта.

Принятие решений Принимая окончательное решение, требуемое для заявки, например:
Передача / сбой при автоматическом контроле
Совпадение / отсутствие соответствия в приложениях распознавания
Флаг для дальнейшего рассмотрения человеком в медицинских, военных, охранных и распознающих приложениях

Системы понимания образов
Системы понимания изображений (IUS) включают в себя три уровня абстракции следующим образом: Низкий уровень включает примитивы изображений, такие как края, текстурные элементы или области; промежуточный уровень включает границы, поверхности и объемы; и высокий уровень включает объекты, сцены или события. Многие из этих требований являются действительно темами для дальнейших исследований.

Репрезентативными требованиями при проектировании IUS для этих уровней являются: представление прототипических понятий, организация понятий, пространственных знаний, временных знаний, масштабирования и описания путем сравнения и дифференциации.

Хотя вывод относится к процессу получения новых, а не явно представленных фактов из известных в настоящее время фактов, управление относится к процессу, который выбирает, какой из методов вывода, поиска и сопоставления должен применяться на определенном этапе обработки. Требованиями вывода и контроля для IUS являются: поиск и активация гипотез, согласование и тестирование гипотез, генерация и использование ожиданий, изменение и фокусировка внимания, уверенность и сила убеждений, вывода и удовлетворения целей.

аппаратные средства
Существует множество видов систем компьютерного зрения, но все они содержат эти основные элементы: источник питания, по крайней мере одно устройство для получения изображений (например, камера, ccd и т. Д.), Процессор, а также кабели управления и связи или какой-то вид механизма беспроводной связи. Кроме того, практическая система видения содержит программное обеспечение, а также дисплей для мониторинга системы. Системы видения для внутренних пространств, как и большинство промышленных, содержат систему освещения и могут быть помещены в контролируемую среду. Кроме того, завершенная система включает в себя множество аксессуаров, таких как поддержка камер, кабели и разъемы.

В большинстве систем компьютерного зрения используются камеры с видимым светом, пассивно просматривающие сцену со скоростью кадров не более 60 кадров в секунду (обычно гораздо медленнее).

Несколько систем компьютерного зрения используют оборудование для сбора изображений с активной подсветкой или что-то иное, чем видимый свет, или и то, и другое. Например, 3D-сканер с структурированным светом, термографическая камера, гиперспектральный тепловизор, радарная визуализация, лидарный сканер, магнитно-резонансное изображение, гидролокатор со сканированием, синтетический апертурный сонар или т. Д. Такое оборудование захватывает «изображения», которые затем обрабатываются часто с использованием тех же алгоритмов компьютерного зрения, которые используются для обработки изображений с видимым светом.

В то время как традиционные широковещательные и потребительские видеосистемы работают со скоростью 30 кадров в секунду, достижения в области обработки цифрового сигнала и аппаратного обеспечения потребительской графики сделали высокоскоростное получение, обработку и отображение изображений в режиме реального времени со скоростью порядка сотен до тысячи кадров в секунду. Для приложений в робототехнике быстрые видеосистемы реального времени критически важны и часто могут упростить обработку, необходимую для определенных алгоритмов. В сочетании с высокоскоростным проектором быстрое получение изображения позволяет осуществлять 3D-измерение и отслеживание характеристик.

Эгоцентрические системы зрения состоят из пригодной для носки камеры, которая автоматически фотографирует с точки зрения от первого лица.

Начиная с 2016 года, процессоры обработки изображений появляются в качестве нового класса процессоров, чтобы дополнить процессоры и графические процессоры (GPU) в этой роли.