и информации на пирамиде DIKW (Данные, Информация, Знания, Здравый смысл).
История компьютерного зрения
Компьютерное зрение – это междисциплинарная область исследований и разработок, служащих для содержательной интерпретации (по-английски understanding) цифровых фото и видео данных. Используемое в английском слово understanding в обычных условиях переводят как понимание, но в данном контексте точнее походит интерпретация, понимание слишком человечно. Компьютерное зрение включает в себя физические и программные методы работы с данными в сочетании с методами анализа и интерпретации изображений, основанными на нейронных сетях и машинном обучении, что позволяет отнести их к AI.
Средства, составляющие CV, выполняют примерно такую последовательность действий: получение изображения (image acquisition), предварительная низкоуровневая обработка изображения (pre-processing), выделение линий, ребер (feature extraction), выделение интересующих областей (detection, segmentation), оценку изображения на соответствие (estimation of application-specific parameters) и, наконец, главное – распознавание изображения (image recognition). Полученный результат передается либо для дальнейшей обработки, например, в систему проверки доступа по лицу или же человеку-эксперту.
В CV наряду с распознаванием изображений (Image recognition) используют термин распознавание образов (Pattern recognition). Эти термины близки, но не синонимичны, не случайно в названиях конференций они содержатся в разных сочетаниях. Из американских одна сейчас называется Conference on Computer Vision and Pattern Recognition, а несколько лет назад она же называлась Pattern Recognition and Image Processing, а другая International Conference on Pattern Recognition and Information Processing. Есть еще две конференции – американская и европейская вообще с одинаковыми названиями International Conference on Image Processing, Computer Vision, and Pattern Recognition.
Распознавание изображений предполагает оцифровку изображений и преобразование их теми или иными алгоритмами в изображения более удобные для получения полезной информации. Распознавание образов, скорее всего, распространяется на более широкий круг данных, чем изображений, в него входит и распознавание голоса, и данных метеопрогноза, и обнаружение скрытых закономерностей геолого-геофизических данных, а также данных иной природы.
Особо следует сказать о машинном зрении, как о прикладной области компьютерного зрения, это инженерная область, связанная с созданием систем контроля производственным оборудованием и роботами-манипуляторами.
Ошибка Папперта
И здесь тоже начало было положено многолетними нейрофизиологическими исследованиями, они достигли высшей точки в конце 40-х годов, но далее возникла пауза, для дальнейшего продвижения не было необходимых технических средств. Однако пауза длилась недолго, после 1956 года, когда восторжествовал символьный AI (Symbolic AI), возникли смелые идеи альтернативного пути к CV на основе символьного подхода с использованием универсальных компьютеров. Тогда главной казалась проблема ввода изображения в компьютер, на нее были брошены большие силы, в результате Минский с коллегами сумели успешно решить ее, после чего казалось, что от оцифрованного изображения до CV остался всего один шаг.
Этот шаг предстояло сделать профессору Сеймуру Папперту (Seymour Papert, 1928–2016) из AI Lab МТИ, он поверил в скорое решение и организовал летний проект Summer Vision Project с той же готовностью к обещаниям, которую на десять лет ранее проявил его руководитель Марвин Минский. Участие самого Папперта свелось к написанию короткой шестистраничной программы действий для группы аспирантов и студентов на несколько каникулярных месяцев. Не правда ли похоже на поручение собрать робота за время летних каникул, данное Джоном Маккарти своим аспиратам. Однако недостаточно продуманный проект, как и следовало ожидать, с треском провалился. Трудно представить подобное легкомыслии, если даже сейчас, полвека спустя многие задачи CV еще не решены. Однако этот фальстарт не мешает многим авторам признавать Сеймура Папперта одним из основоположников компьютерного зрения.
Иронизируя по поводу ошибки Сеймура Папперта, нужно отдать должное, он был замечательным ученым, сочетал в себе качества математика и психолога-педагога, создал первый язык программирования для детей Logo, где реализованы образовательные идеи швейцарского психолога и философа Жана Пиаже (Jean Piaget,1896–1980). Logo жаль, этот интересный язык, способствующий самостоятельному развитию ребенка, сейчас почти забытый он не выдержал конкуренции со стороны богатого интерфейса и неограниченных возможностей подключенных к сети устройств. Кстати, и Папперт тоже, как и многие присные к AI, родом из семьи еврейских эмигрантов из Российской империи.
Нейрофизиологические предпосылки к CV
Фундаментальные предпосылки к решению задачи компьютерного зрения были сделаны не математиками, а нейрофизиологами, причем исследования природы зрения начались существенно раньше упомянутого выше летнего семинара. Предположение о роли зрительной части головного мозга, отвечающей за обработку визуальной информации, в 1810 году выдвинул австрийский врач и анатом Франц Галль (Franz Gall, 1758–1828), известный как создатель паранауки френологии. Позже сложилось несколько школ исследования работы мозга, успешнее других механизмы зрения изучал немец Герман Мунк (Hermann Munk, 1839–1912), один из крупнейших физиологов своего времени.
В XX веке первенствовали ставшие классиками американец Дэвид Хьюбел (David Hubel, 1926–2013) и Торстен Визель (Torsten Wiesel, 1924) со статьей «Рецептивные области одного нейрона в первичной зрительной коре мозга кошки» (Receptive fields of single neurons in the cat’s striate cortex, 1959). В ней авторы показали наличие в мозге животного особого типа нейронов, способных реагировать на изображение, там же они представили общие принципы обработки визуальной информации в нейронных структурах. Хьюбел и Визель обнаружили наличие специализированных клеток, которые обрабатывают данные о фрагментах изображения и передают их в нейронную сеть более высокого уровня с тем, чтобы мозг собирал из них целостное изображение. Спустя годы за это открытие Хьюбел и Визель совместно с Роджером Сперри (Roger Sperry, 1913–1994) получили Нобелевскую премию, по физиологии и медицине «за открытия, касающиеся принципов переработки информации в нейронных структурах».
Дело Хьюбела и Визеля продолжил британец Дэвид Марр (David Marr, 1945–1980) в своей книге «Зрение: вычислительный подход к представлению и обработке визуальной информации человеком» (Vision: A computational investigation into the human representation and processing of visual information, 1982), она вышла после смерти Марра, прожившего всего 35 лет. Он стал открывателем подхода, где человеческий мозг ассоциируют с компьютером, Марр видел в нем систему, перерабатывающую входной поток сенсорной информации, он представил процесс переработки зрительной информации в виде иерархии из четырех стадий от первичной проекции внешнего объекта на сетчатку глаза до его опознания человеком. Результаты обработки зрительной информации на каждой предыдущей стадии, являются исходными данными для следующей стадии:
• Собственно видение, формирование изображения на сетчатке.
• Первичный анализ структуры изображения – выделение текстуры, контуров, формы, взаимного расположения объектов в пространстве.
• Составление эскиза – определение общей ориентации и глубины контуров, оценка глубины и расстояния от точки наблюдения до объекта.
• Построение трехмерной модели – создание общей сцены видения ситуации в виде отдельных объектов независимо от их расположения на сетчатке, формирование объемного изображения внешнего мира.