Конечно, было и исключение - отсканированные изображения, использовавшиеся для обучения LeNet считыванию почтовых индексов, и это сравнение было весьма показательным. Но даже в этом случае собрать обучающий набор рукописных цифр было едва ли возможно: в отличие от многомегапиксельных полноцветных фотографий, отсканированные цифры были маленькими, монохромными и занимали относительно мало памяти. К тому же, для того, чтобы набросать необходимый уровень разнообразия для освоения их идиосинкразии, требовались тысячи примеров, а не сотни миллионов, как в естественном мире. Поэтому неудивительно, что единственное приложение, для которого в то время удалось найти обучающий набор, более двадцати лет оставалось единственным достижением алгоритма. Казалось, что данные способны вдохнуть огонь в систему.
Действительно, AlexNet ожила в присутствии ImageNet, жадно впитывая его содержимое, процветая за счет его масштаба и разнообразия. Все это время нейросети не нуждались в более сложной математике и более экзотических абстракциях. Они просто ждали более четкого представления о мире, который, как мы ожидали, они должны были понять. Того, на чем они действительно могли бы учиться. Как большие данные научили LeNet разбираться в тонкостях человеческого почерка, так и AlexNet научилась разбираться во всем.
Позже я узнал, что Хинтон с новой страстью работал над доказательством жизнеспособности нейронных сетей в течение нескольких лет до 2012 года. В 2011 году, полагая, что он как никогда близок к переломному моменту, начал обращаться к своим коллегам в стиле, который был одновременно конфронтационным и совместным, запрашивая совета о том, что ему делать дальше, в форме, которая звучала скорее как вызов, чем как вопрос. Один из таких звонков был адресован Джитендре, давнему другу, который скептически относился к его проекту.
"Что мне нужно сделать, чтобы убедить вас в том, что за нейронными сетями будущее?" спросил Хинтон.
"Ты действительно хочешь произвести на меня впечатление, Джефф? Покажи мне, что они могут справиться с чем-то серьезным".
"Как?"
"Например, распознавание объектов. В реальном мире". Что бы Джитендра ни думал об ImageNet, я еще со времен учебы в Калтехе знал, что он верит в силу визуальной категоризации. "Вы пробовали PASCAL VOC?"
"Да. Не повезло. Она просто слишком маленькая. Примеров недостаточно, поэтому сеть не очень хорошо обобщает, когда мы показываем ей что-то новое".
"Хорошо, значит, вам нужно что-то посерьезнее. Ты, случайно, не следишь за лабораторией Фей-Фей? Когда будешь готов к настоящему испытанию, посмотри, что они затевают".
Независимо от того, действительно ли Джитендра изменил свое мнение о проекте или просто пытался залезть в шкуру старого друга - оба варианта казались правдоподобными, - Хинтон отнесся к совету серьезно.
Как будто каждая вихревая мысль на мгновение выровнялась, вырвав меня из уже наступившей дымки путешественника, и мне пришло в голову: нейронные сети естественным образом подходят для представления мира в ImageNet. Сеть ЛеКуна сделала это с почерком, обнаружив значимые закономерности на всех уровнях анализа, от мельчайших скоплений пикселей до текстуры штрихов пера и полных цифр. Это была своего рода перцептивная беглость, которая возникала из данных сама по себе, естественно организованная в иерархию осознания. Хьюбел и Визель увидели, как та же идея воспроизводится в зрительной коре кошки. В лаборатории Калифорнийского университета в Беркли мы увидели еще глубже. Они всегда были способны это. Но только сейчас у них появились вычислительные мощности для этого.
Теперь, похоже, AlexNet сделал то же самое с мировым масштабом самой сети ImageNet. И в этом, попросту говоря, заключалось главное отличие - огромное увеличение объема данных, которые теперь можно было изучать. Я восхищался мыслью о том, что будет содержаться в слоях AlexNet после завершения процесса обучения: формы, края, узоры и текстуры, покрывающие людей, животных и предметы, которые мы столько лет вылавливали из Интернета. Призрачные фрагменты реального мира, организованные правильным образом, чтобы алгоритм мог их увидеть.
Самолет мягко подпрыгнул, когда его колеса коснулись Флоренции. Мне все еще было трудно поверить в то, что AlexNet - это аванс, которым он казался. Скачок казался слишком большим. Но чем больше я думал об этом, тем больше мне казалось, что это отличительная черта любого великого прорыва: шкура безумия, обернутая вокруг идеи, которая только может иметь смысл.
Слухи распространились к утру следующего дня. Предстояло объявить о чем-то историческом, так говорили, и неясность слухов только разжигала любопытство слушателей. К тому времени, когда я прибыл на семинар, там было так много народу, что самому ЛеКуну пришлось стоять у задней стены, поскольку он пришел с опозданием на несколько минут, чтобы найти свободное место.