Пообещав глорбонам вернуться, вы летите на Землю в полной уверенности, что ученые смогут объяснить вам, что такое зрение. Недавно вы читали статью о свёрточных нейронных сетях[141] (компьютерных симуляциях тесно связанных иерархий нейронов), и поэтому первым делом обращаетесь к специалисту по компьютерному зрению — профессору Y. Вы рассказываете ему о своей проблеме, профессор выражает сочувствие и сообщает, что в теории вычислительных систем зрение остается одной из самых сложных проблем, несмотря на былую уверенность в нашей способности ее решить. Он показывает вам прогноз Массачусетского технологического института, сделанный в 1970-е годы, в котором говорится, что программные алгоритмы для распознавания объектов на фотографиях вполне смогут создавать даже участники летних студенческих школ[142]. «Прошло 50 лет, — вздыхает он, — но задача все еще не решена».
Вы возражаете: но ведь в свёрточных сетях в итоге удалось воспроизвести возможности человеческого зрения? Профессор Y улыбается и ведет вас к себе в лабораторию, чтобы показать работу AlexNet — нейросети глубокого обучения[143]. Он достает изображение пингвина, стоящего на снегу; на заднем плане — другие пингвины и горы. Компьютер рисует прямоугольник вокруг пингвина и сообщает, что с вероятностью 70 % это птица. Неплохо, думаете вы, хотя сами на 100 % уверены, что это пингвин — черный клюв, глубоко сидящие глаза-бусины по обе стороны головы, забавно склоненной набок, белый пушистый живот, кажущийся теплым, несмотря на снег, смешные короткие крылья, больше похожие на плавники, и грушевидное тело, нависающее над черными перепончатыми лапами и почти скрывающее их. Такое ни с чем не перепутаешь.
Затем профессор Y добавляет к изображению компьютерный монитор, помещая его рядом с пингвином. Этот комичный коллаж вызывает у вас улыбку, но затем вы видите, что теперь компьютер на 70 % уверен, что перед ним не пингвин, а человек[144]. Как такое может быть, удивляетесь вы: ведь совершенно очевидно, что это пингвин, и он совсем не похож на человека. Профессор Y объясняет, что именно так работает большинство успешных программ распознавания образов — они делают вывод на основе статистической обработки характеристик всего изображения. Но, спрашиваете вы, а как же клюв, перья, крылья… А потом понимаете, что AlexNet не обладает полной информацией о физических особенностях пингвина, которая исключает возможность перепутать его с кем-то еще. Нейросеть знает самые простые и надежные признаки для распознавания образов — своей единственной задачи. Избыточная информация о пингвине, которая есть у вас, абсолютно не нужна для простого узнавания в обычных обстоятельствах. (Однако она будет чрезвычайно полезной, если вы захотите изучить пингвинов — их анатомию, эволюционную адаптацию, поведение и т. д.)
Совершенно очевидно, думаете вы по пути из лаборатории, что зрение не ограничивается распознаванием образов. Вам нужен кто-то, кто разбирается в человеческом зрении, и вы обращаетесь к нейробиологу, профессору Z. Вы говорите, что хотите разобраться в том, как работает зрение: во всей его сложности и во всех подробностях, а не только в механизме распознавания образов. Профессор охотно делится с вами информацией о последних 60 годах исследований высших уровней обработки зрительной информации. Для начала она рассказывает вам об анатомии — о том, что у приматов (в том числе у человека) в зрительном процессе участвует примерно половина коры головного мозга. Первичная зрительная кора в задней части мозга получает зрительную информацию, распознанную и обработанную сетчаткой (см. эссе Анирудды Дас в этой книге), а затем преобразованную промежуточной структурой — таламусом; и это только начало! Из первичной зрительной коры информация распределяется по нескольким десяткам областей мозга, которые отвечают за разные аспекты зрительного восприятия[145]. Отдельные участки занимаются объектами, общей картиной, лицами, телами, движением и цветом. Области, связанные с действием, опираются на зрение, чтобы решить, куда смотреть, как ориентироваться в пространстве, как брать предметы. Области, связанные с эмоциями и аппетитом, используют зрительную информацию для оценки полезности или опасности объектов. В префронтальной коре зрительная информация хранится в кратковременной памяти в течение нескольких секунд. В височных зонах коры зрительная информация «складируется» в долговременной памяти, где может храниться всю жизнь.