Первые практические шаги
За двадцать лет до Марра инженер Расселл Кирш (Russell Kirsch, 1929), сын выходцев из России, вместе со своими коллегами по Национальному бюро стандартов (NBS) разработал первую в мире систему оцифровки изображения. В отличие от других организаций, занимающихся стандартизацией, NBS имело сильную исследовательскую лабораторию, где в 1950 году был построен компьютер SEAC (Standards Electronic Automatic Computer), там же были созданы некоторые периферийные устройства, без которых трудно представить себе современный компьютер. Среди них дисковый накопитель, его разработал в 1951 году еще один уроженец России Яков Рабинов (Рабинович), его конструкция была доведена до коммерческого продукта в IBM. Расселл Кирш сделал в 1957 два смежных изобретения, первое – сканер, состоящий из вращающегося барабана, на который помешалось сканируемое изображение, и считывающей головки с сенсором-фотоэлементом, второе – цифровой способ записи изображения в виде матрицы, состоящей из пикселей. Возможности доступной компьютерной памяти ограничивали размер изображения несколькими килобайтами, поэтому максимальное разрешение этого сканера составило всего 179 на 179 пикселей. Собственно идея разбиения изображения на отдельные точки-пиксели была высказана еще в XIX веке, этимология этого термина неоднозначна, существует множество мнений по этому поводу. Но Кирш придумал разбивку изображения на прямоугольные пиксели и способ кодировки уровней серого. Занятно, работа эта была выполнена в инициативном порядке, что дало Киршу повод шутить относительно кражи машинного времени у более важных задач, в частности у расчетов термоядерной бомбы. Тем не менее в компьютерную историю компьютер SEAC вошел в первую очередь благодаря этой работе. Из-за ограничений по памяти пришлось ограничиться сканированием только лица младенца на той фотографии, где изобретатель держит на руках своего трехмесячного сына. Но и этого оказалось достаточно для вхождения полученного Киршем цифрового изображения в список 100 наиболее важных фотографий в истории человечества, опубликованный журналом Life в 2003 году.
Говоря о следующем персонаже – Ларри Робертсе, внесшем свой вклад с историю CV, автор вынужден сделать отступление и высказаться от первого лица. Дело в том, что мне повезло быть лично знакомым с Ларри, это случилось из-за увлечения историей интернета. Во время пребывания в Сан-Хосе, столице Кремниевой Долины, у меня выдался свободный день, в рассуждении как его использовать, я набрался смелости и позвонил ему. Ларри неожиданно пригласил меня посетить возглавляемую им тогда компанию Caspean. Позже мы с ним встречались в Москве, это было в 2002 году, вместе участвовали в передаче Матвея Ганапольского на радио «Эхо Москвы». Все это время я видел в Ларри лидера команды «отцов-основателей» интернета, куда кроме него входили Винтон Серф, Роберт Кан и Леонард Клейнрок. Хорошо известно, что Ларри Робертс взял на себя роль технического руководителя проекта ARPAnet и именно он нарисовал знаменитую схему объединения первых четырех узлов, ему же принадлежат многие предложения по части коммутационного оборудования. Вплоть до последних лет жизни он проектировал новые технологии для опорной сети интернет (backbone).
Недавно я обнаружил, что в молодости, работая над диссертацией в Линкольновской лаборатории МТИ, он создал некоторые подходы к CV и это оказалось полной неожиданностью. Оказывается, еще в 1963 году Робертс опубликовал работу «Машинное восприятие сплошных трехмерных моделей (Machine perception of three-dimensional solids), которую и поныне рассматривают как один из краеугольных камней CV. В ней он описал методы, служащие для восстановления трехмерной машинной модели предмета по его двумерной фотографии. Однако после успешной защиты диссертации Робертс не продолжил начатого, увлекшись идеями Джозефа Ликлайдера, высказанными в знаменитой статье «Межгалактическая компьютерная сеть» (Intergalactic Computer Network). В ней автор, ставший к тому времени директором Управления методов обработки информации (Information Processing Techniques Office, IPTO), описал компьютерную сеть, ставшую прообразом интернета. Идея глобальной сети показалась Робертсу более привлекательной и перспективной, реализуя ее, он приобрел всемирную известность.
В противоположность Ларри Робертсу, японец Кухинико Фокушима (Kunihiko Fukushima) остался верен избранному в молодости пути. Роль, сыгранную им в истории CV, можно сравнить с той, которую сыграл Джон Хопфилд в истории ANN. Заслуга Фокушимы в том, что он как и Хопфилд проложил мостик между нейрофизиологическими моделями и ANN, но он это сделал в приложении к CV.
Начало современной истории CV
В 1989 году в ту пору молодой французский ученый Ян Лекун, работая в Bell Labs, применил алгоритм обратного распространения ошибки (backprop style) к обучению CNN, разработанному Фокушимой. Он, как и его предшественник, использовал обученные сети CNN для распознавания рукописных цифр в почтовых индексах (zip code). Цифры на американских конвертах пишутся не по трафарету, а в свободной форме, поэтому потребовалось распознавание с элементами AI. Усовершенствованный Лекуном тип CNN получил собственное имя LeNet, позже его стали называть lenet5. В первой версии система, в основу которой легла обученная сеть LeNet, смогла обрабатывать 91 % писем с точностью 1 %. Результат работы был изложен в статье «Применение метода обратного распространения ошибок к распознаванию рукописных почтовых кодов. Нейронные вычисления» (Backpropagation applied to handwritten zip code recognition. Neural Computation). Позже в период с 1989 по 1998 он вместе к коллегами опубликовал еще несколько важнейших статей. Среди соавторов Джошуа Бенджо, составивший вместе с ним и с Джеффри Хинтоном триумвират награжденных Тьюринговской премией за достижения в области ANN и машинного обучения.
Примерно в том же направлении до сих пор работает коллектив психологов из Калифорнийского университета в Беркли. Их объединяет уверенность в возможности целостного восприятия изображения, по-английски это называется perceptual grouping, а переводится как перцептивная группировка. Целостный подход к CV предполагает синтез изображения из его отдельных деталей, его концептуальный базис – гештальтпсихология, руководствующаяся принципом целостности. Несмотря на кажущуюся перспективность perceptual grouping, приверженцам этого подхода не удалось выйти за пределы академических исследований. Обзор работ этого направления можно найти в статье британского психолога Джозефа Брукса «Традиционные и новые методы перцептивной группировки (Traditional and new principles of perceptual grouping).
Компьютерное зрение в его современном понимании началось с отказа от идеи целостности и от восстановления трехмерных моделей по полученному тем или иным образом двумерному изображению в пользу более прагматических решений, нацеленных на выявленных заданных свойств наблюдаемого объекта. Этот путь можно назвать выделением скрытых метаданных. Первыми на него встали англичане Крис Харрис и Майк Стефенс, в 1988 году они опубликовали статью «Детектор, обнаруживающий углы и ребра» (A combined corner and edge detector). Позже его стали называть просто методом уголкового обнаружения (Corner detection). В 1999 году Дэвид Лоу пошел дальше, ему удалось справиться с проблемой распознавания вне зависимости от масштаба изображения, он описал свое решение в статье «Распознавание объектов по