Настроение в зале было напряженным с самого начала заседания, толпа разделилась на три фракции. Первую составлял небольшой контингент сторонников ImageNet, включая меня, Алекса Берга и членов лаборатории Хинтона. Вторая, подавляющее большинство, состояла из нейтральных, но заинтригованных наблюдателей. Третья группа, скромная по численности, но воинственная, была наиболее решительной. Это были недоброжелатели, которые выступали против самой идеи ImageNet с самых первых дней ее появления на сайте , и хотя обычно я отмахивался от их мнения, здесь их присутствие было трудно игнорировать.
Хуже того, мы едва ли были единым фронтом. Хинтон не смог присутствовать из-за хронических проблем со спиной, которые делали международные поездки практически невозможными для него, поэтому вместо себя он прислал Алекса Крижевского. Алекс был чрезвычайно талантлив, и его статус ведущего автора делал его подходящей кандидатурой. Но, как и в случае со многими другими гениальными людьми, его личное представление не соответствовало серьезности его работы - я не уверен, что даже он сам это в полной мере оценил. Это проявилось в неловкой взбалмошности, нередкой среди академиков, что проявилось в его очевидной неспособности ответить на мои неоднократные текстовые сообщения с попыткой подтвердить нашу встречу до начала семинара. (К счастью, он прибыл в назначенное время.) Поскольку недоверие аудитории было на пике, ему было еще труднее убедить слушателей в своей правоте.
Когда слово было предоставлено для вопросов, напряжение спало. Мы услышали все обычные жалобы - что ImageNet слишком велик, чтобы быть практичным, что не было необходимости включать столько категорий и что модели распознавания объектов все еще слишком примитивны, чтобы оправдать такой обширный набор данных. Тот факт, что AlexNet демонстрирует обратное, более или менее точечно, был странно неубедителен. Но были и новые критические замечания, некоторые из которых были откровенно странными. Один из участников - восходящая звезда одного из ведущих университетов, не меньше, - зашел так далеко, что предположил, что в категории изображений, изображающих футболки, не хватает разнообразия, необходимого для надежного обучения модели. Меня это больше всего позабавило. Неужели? Футболки - это ахиллесова пята? Остальная часть комнаты была просто озадачена.
Но те, кто слушал, были вознаграждены. На протяжении двадцати семи слайдов, большинство из которых содержали лишь черно-белый текст и диаграммы, природа нейронной сети была продемонстрирована с такой ясностью, какой мы никогда не видели, и это было откровением. После перцептрона Розенблатта, неокогнитрона Фукусимы и LeNet ЛеКуна это был долгожданный следующий шаг, который делался десятилетиями и наконец был реализован в масштабе, соответствующем его потенциалу.
Особого внимания заслуживает процесс обучения AlexNet.
Как и все нейронные сети, AlexNet в исходном состоянии бесформенна и инертна, как гобелен в пустоте. Затем начинается натиск: одна за другой случайным образом выбираются фотографии из библиотеки ImageNet, и перед сетью ставится задача правильно присвоить им одну из тысячи меток. Поначалу это практически невыполнимая задача: десятки миллионов нейронов сети настроены наугад, не имея даже смутного представления о мире, и дают лишь осечки. Изображение гриба с надписью "бутылочная крышка". Неверно. Изображение эвакуатора с надписью "электрогитара". Неверно. Изображение кожистой черепахи с надписью "банное полотенце". Неверно.
Но неудачи не напрасны. Ошибки вызывают корректирующие сигналы, распространяющиеся по десяткам миллионов составных частей сети, каждая из которых оценивает свой вклад в результат и подталкивает, пропорционально, к тому, чтобы в следующий раз вести себя по-другому. Это простейшая форма обучения - делать меньше того, что не получилось, и больше того, что не получилось, - раздутая до гигантских масштабов. Придирчивое внимание уделяется каждой детали каждой ошибки: каждому пятну света и тени, каждому узору и текстуре, каждой мягкой градации и жесткому краю.
На ранних этапах это не так уж и много, и в следующий раз, когда AlexNet увидит фотографию, похожую на ту, которую он неправильно классифицировал, он, скорее всего, снова ошибется. Но это будет уже не такая ошибка. И так до тех пор, пока не получится что-то правильное, пусть даже по счастливой случайности. На этот раз сигнал должен усилиться, а не ослабнуть; он должен подчеркнуть то, что, как оказалось, указывало на правильное направление. Обучение продолжается. Неправильно. Неправильно. Неправильно. Правильно. Неправильно. Неверно. Правильно. Правильно. Неверно.