Мой визит в Калтех был одним из самых запоминающихся дней в моей жизни. Это были интеллектуальные гиганты, и для меня было честью просто пообщаться с ними в течение нескольких часов, не говоря уже о том, чтобы обдумать возможность стать их студентом. Мое решение было принято еще до того, как мой обратный рейс оторвался от взлетной полосы.
Учитывая масштабы и сложность эволюции, неудивительно, что человеческая способность к зрению не поддалась десятилетиям попыток автоматизации. Но что, если это изменится? Что, если бы мы могли делиться с машинами человеческим восприятием мира, с их автоматической скоростью и неутомимой точностью? Представьте себе беспилотники или даже спутники, которые летают над лесами, ледниками и побережьями и составляют экспертные оценки состояния окружающей среды в глобальном масштабе. Представьте себе умных нечеловеческих помощников, которые помогают людям с ослабленным зрением ориентироваться в среде любой сложности так же, как это сделал бы человек. Представьте, что поиск и спасение станут более безопасными благодаря роботам-первопроходцам, которые объединят суждения врача скорой помощи или пожарного с выносливостью и устойчивостью машины, или автоматизированной медицинской диагностике, которая позволит пациентам по всему миру с помощью мобильных устройств узнать мнение специалиста.
Возможности открываются и в цифровом мире. После более чем ста лет существования визуальных средств массовой информации, включая фотографию, кино, журналистику и телевидение, потребление изображений стало неотъемлемой частью современной жизни. Но в отличие от текстовых и числовых данных, поиск которых доступен с первых дней существования компьютеров, даже беглый поиск изображений остается ручным делом, требующим времени и, зачастую, зарплаты человека. Как визуально интеллектуальные машины могут помочь нам разобраться в коллективной массе данных, которая уже давно превзошла все надежды на ручную работу?
Подобные возможности манили исследователей ИИ с первых дней существования этой области. Однако вскоре они поняли - и каждое последующее поколение только подтверждает это - что визуальное понимание является задачей удивительной сложности, начиная с самих данных. Поскольку цифровые изображения хранятся в виде пикселей - отдельных цветовых точек, закодированных в цифровом виде, - для машины они представляются не более чем длинным списком целых чисел. Чтобы увидеть изображение так, как это мог бы сделать человек, с точки зрения таких значимых понятий, как люди, места и вещи, алгоритм должен просеять этот список и выявить числовые паттерны, которые каким-то образом соответствуют друг другу.
К сожалению, определить эти закономерности даже для таких простых понятий, как прямые линии или геометрические фигуры, довольно сложно. Сделать это для такого органического и протеинового объекта, как человеческое лицо - во всех его цветах и пропорциях, в бесконечном диапазоне углов, условий освещения и фона - гораздо сложнее.
И дальше загадка только углубляется. Например, где именно проходит граница между пассивным актом видения и связанным с ним, но гораздо более глубоким актом понимания? Как часто чисто перцептивный опыт зрения - цветные пятна, которым придают форму края и текстуры, - становится целостным благодаря нашей способности наделять эти формы смыслом еще до того, как мы успели осознанно обработать увиденное? Вскоре становится ясно, что разделить эти два понятия невозможно: видеть - значит понимать, что делает задачу не только интеллектуальной, но и сенсорной. Таким образом, зрение - это не просто применение нашего интеллекта. Для всех практических целей оно является синонимом нашего интеллекта.
Это и есть магия зрения. Этот навык настолько тонко настроен, что, хотя мы видим мир не более чем через свет, случайно попавший на поверхность наших глаз, то, что мы получаем из этого света, расширяется и заполняет весь наш опыт. Этот почти чудесный переход от сенсорного ввода к надежному и действенному знанию - одна из самых впечатляющих возможностей нашего мозга. Вычислительная стоимость одной только этой задачи на порядки превышает возможности даже суперкомпьютеров размером со склад, и все это обеспечивает влажный органический комок диаметром около пяти дюймов. А ее концептуальная глубина продолжает смирять даже светил академического мира.
Загадка зрения - это нечто большее, чем просто понимание того, как мы видим. Это не просто вопрос о цветах или формах или даже о вычислении чисел во все более крупных масштабах. Это исследование феномена, лежащего в самой основе нашего познания, из которого проистекает многое из того, кем и чем мы являемся, биологически, межличностно и культурно. Это путешествие к самым основополагающим слоям нашего опыта. Очень часто видеть - значит знать. Поэтому понять, как мы видим, - значит понять себя.