Малик сказал, что глубокое обучение должно уметь работать с европейским набором данных под названием PASCAL. «PASCAL слишком мал, – возразил Хинтон. – Чтобы метод эффективно работал, нам нужен большой объем обучающих данных. Как насчет ImageNet?» Малик согласился. В рамках проекта ImageNet в Стэнфорде, примерно в сорока милях к югу от Беркли проводился ежегодный конкурс135. В Стэнфордской лаборатории была собрана обширная база136 тщательно аннотированных фотографий различных объектов, от собак до цветов и автомобилей, и каждый год исследователи со всего мира соревновались в создании системы, которая могла бы распознать наибольшее количество изображений. Победа в конкурсе ImageNet, решил Хинтон, завершит спор. Он не стал говорить Малику, что его лаборатория на тот момент уже создавала нейронную сеть для конкурса; более того, благодаря двум его ученикам – Илье Суцкеверу и Алексу Крижевскому – эта работа уже близилась к завершению.
Суцкевер и Крижевский олицетворяли собой международный характер исследований ИИ. Оба родились в Советском Союзе, потом переехали в Израиль, а оттуда в Торонто. Но по темпераменту они были очень разными. Суцкевер был честолюбив, нетерпелив и напорист. Крижевский был немногословен и замкнут. Он не был мечтателем и идеалистом, он был необычайно талантливым инженером-программистом и умел строить нейронные сети. Опираясь на опыт, интуицию и толику удачи, такие исследователи, как Крижевский, строили эти системы методом проб и ошибок, работая над тем, чтобы многочасовые или даже многодневные компьютерные вычисления, которые они никогда не смогли бы выполнить самостоятельно, принесли какой-то результат. Они назначали десяткам цифровых «нейронов» определенные математические операции, вводили в эту искусственную нейронную сеть тысячи фотографий собак и надеялись, что после многих часов вычислений она научится распознавать собаку. Когда это не срабатывало, они корректировали математические операции и пробовали снова и снова, пока не сработает. Крижевский был мастером того, что некоторые называли «темным искусством». Но еще важнее, по крайней мере на тот момент, было то, что он умел из машины, оборудованной графическими процессорами (которые все еще оставались не вполне обычной категорией компьютерного оборудования), выжать максимум производительности – все до последней капли. «Он очень хороший разработчик нейронных сетей, – говорит Хинтон. – Но он еще и потрясающий программист».
Суцкевер был другой породы. Он постучался в дверь кабинета Хинтона за девять лет до этого – когда еще был студентом Университета Торонто и подрабатывал приготовлением картофеля фри в местном ресторане быстрого питания, – и со своим резким восточноевропейским акцентом с порога попросился в руководимую Хинтоном лабораторию глубокого обучения.
– Давайте сначала договоримся о встрече, и тогда поговорим об этом, – попросил Хинтон.
– Хорошо, – сказал Суцкевер. – А может, прямо сейчас?
Делать нечего, Хинтон пригласил его войти. Суцкевер был студентом-математиком и сразу показался человеком сообразительным. Хинтон дал ему копию статьи об алгоритме обратного распространения ошибки – статьи, которая двадцатью пятью годами ранее наконец раскрыла потенциал глубоких нейронных сетей, – и сказал прийти, когда прочитает ее. Суцкевер вернулся через несколько дней.
– Я не понимаю, – сказал он.
– Но это же элементарный матанализ, – произнес удивленный и разочарованный Хинтон.
– Нет-нет, я не понимаю, почему не взять производные и не применить методы оптимизации.
«Мне потребовалось пять лет, чтобы додуматься до этого», – подумал про себя Хинтон и протянул двадцатиоднолетнему студенту вторую статью.
Суцкевер вернулся через неделю.
– Я не понимаю, – снова сказал он.
– А теперь что не так?
– Вы обучаете нейронную сеть решать определенную задачу, а затем, если вам нужно решить другую задачу, вы начинаете все сначала с другой нейронной сетью и обучаете ее работать с другой задачей. Должна быть одна нейронная сеть, которая обучается на решении всех этих задач одновременно.