В A4Vision решили применить сканирование с помощью (внимание) «проецирования на объект светового шаблона с заранее известной пространственной структурой». Звучит непонятно, но по сути просто и даже изящно. Вспомните, как выглядят лица людей, освещенные через жалюзи. Полосы света и тени, изначально одинаково ровные, прихотливо искажаются на лице (и вообще любом предмете). Понятно, что вся сложная поверхность лица искажает световую «зебру» точно в соответствии со своей формой. Так же понятно, что эту форму (лица или надкусанной груши) можно вычислить, сравнивая разницу между ровными полосами и деформированными. Точность реконструированной 3D-модели будет зависеть, главным образом, от разрешения полосок жалюзи — чем тоньше-гуще, тем лучше. Очевидно, что вместо параллельных полос лучше освещать предмет решеткой линий, может быть даже не с квадратными ячейками, а треугольными. Впрочем, в описании одного из первых своих патентов, стоявшие у истоков разработок бауманцы Артем Юхин и Андрей Климов указывают, что «подсветка объекта формируется в виде апериодической системы полос».
Алгоритмы подобной реконструкции — дистанционной, точной и дешевой, Юхин хорошо изучил во время учебы в «Бауманке». Вполне естественно, что после университета он попытался их внедрить, одновременно серьезно усовершенствовав. Как далеко зашло это совершенство — уже секрет фирмы A4Vision, но ее представители действительно заявляют — точность съемки достигает долей миллиметра и позволяет различать однояйцевых близнецов!
История компании
Один из основателей компании, Артем Юхин стал бизнесменом, как только получил паспорт, создав в 1992 году первую в Москве фирму по компьютерному дизайну интерьеров. Хотя дела шли успешно, через несколько лет он решил получить высшее образование и поступил в «Бауманку» на факультет «Радиоэлектроника и лазерная техника». В университете Юхин познакомился с Климовым, разрабатывавшим математический «предсказатель» котировок акций на бирже, и друзья решили довести его до готового продукта. Однако в 1998 году, когда уже был найден первый покупатель, случился августовский дефолт, и биржевые игры резко потеряли привлекательность.
Тогда друзья решили взяться за дипломную работу Юхина — трехмерное распознавание лиц, и сделать на ее основе объемный фотоаппарат, быстро выдающий виртуальные «слепки» снятых объектов. В 1999 году у них уже было «устройство для бесконтактного контроля и распознавания поверхностей трехмерных объектов» (это цитата из заявки на Патент РФ) и, доработав его до изделия, которое можно было показывать инвесторам, они решили действовать по инструкции для начинающих стартапов — составили список подходящих венчурных фондов и на свои деньги стали летать по миру, убеждая вложить капитал в свое ноу-хау. К счастью, разработка оказалась удивительно демонстративной — быстрое создание виртуальных «слепков» было легко показывать, и российский «сканер» застревал в памяти многих инвесторов (сохранилась страничка проекта на сайте бауманского университета)…
Через год, когда свои и занятые деньги заканчивались, у друзей было три предложения от разных венчурных фондов. После долгих колебаний был выбран европейский фонд MyQube, дававший наибольшую свободу действий. Документы были подписаны, а через несколько месяцев пузырь «интернет-экономики» громко лопнул — новорожденная A4Vision оказалась последним стартапом фонда. В тот момент к ним примкнула Келли Ричдейл (Kelly Richdale), внеся свой большой вклад в дальнейшее развитие бизнеса. Покупателями своего сканера они видели в первую очередь доткомы — сетевые магазины и разного рода галереи, которые должны были быть заинтересованы в создании (а затем показе на веб-сайтах) 3D-каталогов своих товаров. Расчет не оправдался, и вместо потока заказов доткомы сообщали о своей ликвидации.
В новых условиях решили изменить направление разработок. Биометрия была еще не в фаворе, поэтому попытались сделать приложение для пластической хирургии — субмиллиметровая точность «слепков» должна была привлечь хирургов, правящих носы и прочие части тела богатым клиентам. Хотя идея казалась вполне разумной, но и для нее покупателей не нашлось. Но им удалось заинтересовать гигантскую Logitech идеей автоматической фокусировки ее веб-камер на лице человека. В результате, A4Vision сделала программный продукт, который успешно начал продаваться, и Logitech стал первым стратегическим инвестором. А затем наступило 11 сентября 2001 года…
Скажем сразу, что сам по себе метод «сканирования с помощью проецирования шаблона» изобретен давно. Он хорошо известен среди специалистов и даже имеет историю успешного применения. В самом начале 90-х автору этих строк попалась фотография поросенка, освещенного сверху десятком ярких световых полос — это была разработка британских ученых, создавших систему быстрого и бесконтактного измерения свиней. Вроде бы в этом нуждались английские фермеры, но свиньи (чуя истинную цель затеи) отказывались сотрудничать, поэтому пришлось изобретать способ измерения объекта без его ведома. В конце концов установка вылилась в узкий коридор с темным полом, по которому «объекты» прогонялись и освещались сверху через подобие жалюзи. Камера делала снимок «полосатой» свиньи, по которому даже тогдашние компьютеры могли рассчитать ее охват «в плечах», «в талии», «в бедрах» и т. д.
Кстати
Ошибки распознавания «обознался» и «не признал» тесно связаны — закручивая чувствительность системы, одновременно повышаешь и вероятность ложных тревог. На сайте A4Vision указывается: Extremely low False Rejection Rates (FRR), even when the False Acceptance Rate (FAR) is set close to zero (.0001). В популярных статьях называются цифры «одна ошибка на сотню» для «не признала своего», «одна шибка на миллион» для «приняла чужого за своего» или более скромные «одна на сто тысяч».
Что в начале 90-х могли британские университеты, в конце 90-х смогли российские выпускники, причем лучше и дешевле — первый прототип своей системы, который демонстрировался инвесторам, был сделан из цифрового фотоаппарата Olympus, даже не «доработанного напильником». Как уже догадались проницательные читатели, процесс «сканирования» выглядел просто — объект освещался специальным источником света. Затем делался его снимок, который отправлялся в компьютер, где самое важное и трудное совершалось на программном уровне — из плоского изображения строилась трехмерная поверхность объекта. Судя по всему, строилась достаточно впечатляюще, чтобы идея получила финансирование.
Но давайте рассмотрим, как процесс опознания по лицу проходит в готовой системе A4Vision, испытанной и уже предлагаемой покупателям. Итак, настенный прибор под названием Vision Access 3D Face Reader работает в инфракрасном спектре. Он удобнее видимого, поскольку устойчивее к посторонней засветке, не привлекает внимания и просто не слепит глаза. Главный узел прибора состоит из двух блоков — излучателя и фотоприемника, способного делать качественные снимки со скоростью десятки кадров в секунду. Иногда его называют 3D-камерой, что может ввести в заблуждение. Камера там обычная — 2D, но ее снимки преобразуются в трехмерные поверхности. Естественно, для этого излучатель «структурированной подсветки» должен быть немного в стороне от камеры — ведь если подсвечивать лицо прямо через объектив, то на снимке не будет заметно искажений световой решетки. На некоторых моделях сканера отчетливо видны два «окна», и параллакс между ними составляет около 30 см.
Снимки, сделанные камерой, сначала обрабатываются алгоритмами первичной обработки. Компания рассказывает о них скупо, но известно, что, например, автоматически отбрасываются кадры, на которых нет человеческих лиц, а на тех, что есть, сами лица эффективно выделяются из окружающего их «шума». Слово «эффективно» значит, что эта фильтрация идет почти со скоростью съемки — десятки снимков в секунду. Это впечатляющее и важное достижение — выделение из видеопотока лица, подсвеченного световым шаблоном, прямо влияет на весь процесс опознания. Традиционные системы, работающие с плоскими снимками, проводят такое выделение с большим трудом, поскольку вынуждены работать, по сути, с комбинацией темных и светлых пятен — именно так машина «видит» обычную фотографию.
Новые горизонты
Рынок лицевой идентификации в США (тогда еще 2D) был занят несколькими известными компаниями, которые после терактов провели активную PR-компанию своих продуктов. Их акции пошли вверх, и даже были заключены крупные контракты, но затем Пентагон провел независимые испытания, которые все системы провалили. Например, известная Visionix дала 52,5% ошибок типа «не признал» на базе всего из пятнадцати человек-добровольцев (503 неудачных попытки на 958 распознаваний), а на полевых испытаниях в аэропорту Палм-Бич ошибки типа «обозналась» составили 31,3% от общего числа тревог (1081 ложная тревога из 3455).