02/1/2008

Искусственный разум скоро обретет телепатические способности

На паспортном контроле у психолога Роба Дженкинса почти всегда проблемы. Пограничники упорно не хотят узнавать его по фотографии. «Особенно в последнее время тяжело стало ездить, когда проверки ужесточились», - жалуется Дженкинс, преподающий в Университете Глазго.

Стражей границы можно понять. Перед ними стоит и слегка улыбается с прищуром молодой интеллектуал, у которого от этой постоянной улыбки из уголков глаз веером разбегаются морщинки. А на странице паспорта - портрет грозы неблагополучных кварталов Глазго, словно снятый в полицейском участке после ареста: надменный взгляд сверху вниз, глаза навыкате - немного напоминает Гошу Куценко, только подбородок у Дженкинса более волевой. Ситуация тем более комична, что главный предмет исследований Дженкинса на факультете психологии Университета Глазго - то, как узнают лица люди и компьютеры.

Узнаваемое среднее

Вместе со старшим коллегой по факультету, профессором Майком Бартоном, Дженкинс изучал, как и почему люди отличают знакомые лица от незнакомых. «Оказалось, что, очень хорошо узнавая родных и друзей, мы значительно хуже - намного хуже, чем сами думаем, - различаем незнакомцев. Это проявляется, например, при проверке паспортов», - рассказывает психолог.

Две разные фотографии одного и того же лица могут сильно отличаться друг от друга рисунком света и тени. Меняется само лицо - в зависимости от возраста, полноты и здоровья. Но одноклассницу, в которую когда-то был влюблен, можно узнать по фото и через 40 лет, а если немного изменить на снимках ракурс незнакомого лица, многие подумают, что это изображения разных людей.

Дженкинс и Бартон предположили, что мы сохраняем в памяти некий общий, усредненный образ человека, и воспроизвели этот процесс буквально. Из нескольких фотографий ученые с помощью несложного алгоритма создавали одно изображение. Результат обкатывали на группе добровольцев, которые узнавали фото знаменитостей на время. «Оказалось, что быстрее всего люди распознают именно усредненное изображение, а это значит - оно ближе к тому образу, который хранится в памяти», - рассказывает Дженкинс. Потренировавшись на людях, психологи перешли к компьютерам.

Для проверки взяли один из самых доступных сервисов для распознавания изображений - сайт Myheritage.com, который предлагает посетителям найти самую похожую на них знаменитость. Поиск выполняется по алгоритму немецкой фирмы Cogniteс, основной профиль которой - системы распознавания лиц для транспортных узлов. На каждого из 25 известных людей психологи отобрали по два десятка фотопортретов, которых заведомо не было в базе на сайте, и устроили сеанс автоматического распознавания. В среднем система правильно угадала 54% фото-графий. После этого из серии снимков каждого человека сделали его «среднее лицо». Полученный результат даже вынесли в заголовок статьи журнала Science: «Стопроцентная точность в автоматическом распознавании лиц».

Лучше, чем люди

Заслуга Дженкинса и Бартона - в доказательстве того, что усредненные фотографии лучше узнаются и компьютерами, и людьми. Компании, специализирующиеся на распознавании лиц, уже несколько лет используют прием с совмещением нескольких фотографий - очень похожий на тот, что описывают психологи из Глазго. Но у этого метода есть и недостаток, существенный для промышленных систем: повышается вероятность ложного узнавания лица, которого нет в базе данных.

По прогнозу исследовательской компании International Biometric Group, рынок распознавания лиц вырастет с $400 млн. в 2007 г. как минимум до $1 млрд. в 2012 г. Дело в том, что именно сейчас компьютерные системы начинают разбираться в человеческих лицах лучше, чем сами люди.

Между разными системами распознавания регулярно проводятся конкурсы, самый известный среди которых - Face Recognition Vendor Test (FRVT) Национального института стандартов и технологий США. В 2006 г. полностью автоматические системы показали рекордный результат: 1% ошибок, когда система не узнает кого надо, при фиксированном уровне 0,1% ошибочных узнаваний (когда узнает кого не надо). Результат на уровне разрекламированного в Science стопроцентного распознавания был достигнут на фотографиях высокого разрешения, тогда как психологи из Шотландии использовали материалы «веб-качества». Зато Дженкинс и Бартон вообще не озаботились проблемой ошибочного узнавания (использовали только фотографии звезд, занесенных в базу Myheritage.com).

На конкурсе FRVT при том же проценте ошибочных узнаваний системы ошибочно отвергали в 2002 г. 20% лиц, в 1997-м - 54%, в 1993-м - 79%. В соревнованиях 2006 г. впервые участвовали люди, которым предлагали те же задачи, что и компьютеру: определить, изображен ли на двух фотографиях один человек или разные люди. Из семи испытанных алгоритмов два - от компаний Viisage и Toshiba - вчистую выиграли у человека. Система от Cognitec, показавшая третий результат в общем зачете, в соревновании с человеком уступила.

Считается, что системы распознавания лиц более всего востребованы в системах безопасности: пропуск в офис, обнаружение террористов в аэропортах или воришек в магазинах. Но когда десятидолларовые телекамеры размером с наперсток станут надежно разбираться в лицах, внушительные изменения затронут не только мирок спецслужб и корпоративных секьюрити.

Специальные программы для лояльных покупателей, которых узнают со въезда на стоянку мегамолла. Кросс-маркетинг в реальной жизни и в социальных сетях, где люди выкладывают свои изображения. А уж как расцветет неоломброзианство - поиск связи личных характеристик со строением лица! Дискриминировать по форме носа, конечно, незаконно, но кто мешает учитывать ее в маркетинговых или страховых программах?

Следующим шагом, очевидно, будет чтение мыслей при помощи компьютера. И в этом нет ничего невозможного. Скрупулезно просматривая видеозаписи в замедленном режиме, американские психологи Пол Экман и Уоллес Фризен успешно занимаются этим уже три десятка лет. Осталось автоматизировать трудоемкую процедуру.

Движение мысли

В конце 1960-х гг. Экман объездил полмира. Он побывал в Африке, Юго-Восточной Азии, Папуа-Новой Гвинее и Японии. Местным жителям он всюду показывал один и тот же набор фотографий людей с выражением грусти, радости, презрения и других эмоций на лице. Убедившись в том, что отражение эмоций - процесс врожденный и примерно одинаковый у всех землян, он взялся за их кодирование.

11 основных мимических мышц, сокращаясь в разных комбинациях, могут теоретически создавать около 10 000 выражений лица. Большинство не имеет определенного смысла - эмоции и различные их оттенки выражают всего около 3000. Экман и Фризен каталогизировали их все, присвоив коды и сведя в систему FACS (Facial Action Coding System).

Выразительной мимикой герои «Истории игрушек» и «Шрека» не в последнюю очередь обязаны FACS. Бессчетное количество раз авторы FACS привлекались в качестве экспертов, когда нужно было определить, обманывает человек или говорит правду.

Самое главное для этого, по их словам, - поймать микровыражения, которые появляются и исчезают в доли секунды. Опытный наблюдатель способен различить их при замедленном просмотре видеозаписи. А о человеке, который умеет ловить их в живом общении - пусть бессознательно, - мы говорим, что он читает чужие мысли.

Экман помогает приблизить то время, когда телепатические способности обнаружатся и у компьютеров. 73-летний патриарх чтения мыслей ожидает, что первые результаты появятся в течение года. «Этот джинн неизбежно вырвется из бутылки, - говорит Экман. - Мы останемся без частной жизни, но, возможно, в большей безопасности».

Надежное средство, чтобы ни один мускул на лице не дрогнул, впрочем, известно уже сегодня. Это один из сильнейших природных ядов - ботулинический токсин. Или просто ботокс.