Ирония ситуации заключалась в том, что вся эта огромная компьютерная сеть со всей ее производительностью работала большей частью вхолостую, потому что компьютеры были не те. Система распознавания речи Навдипа Джейтли успешно обучалась с использованием компьютеров, оснащенных графическими процессорами. Однако Дин и другие основатели Google Brain обучали свою систему, получившую название DistBelief, на компьютерах, из которых складывалась глобальная сеть Google’овских центров обработки данных и которые были оснащены тысячами центральных процессоров132 – но не графических. Себастьян Трун пытался было добиться от руководителя отдела инфраструктуры установить в центрах обработки данных машины с графическими процессорами, но ему было отказано на том основании, что это усложнит работу дата-центров компании и увеличит их расходы. Когда Джефф Дин и его команда представили свои методы на одной из крупных конференций по искусственному интеллекту, Ян Гудфеллоу, тогда еще студент Монреальского университета, присутствовавший в аудитории, встал и упрекнул докладчиков за то, что они не используют графические процессоры, хотя вскоре он пожалеет о том, что позволил себе публично – и так небрежно – критиковать Джеффа Дина. «Я тогда понятия не имел, кто он такой, – говорит Гудфеллоу. – Теперь-то я почти боготворю его».
Для функционирования системы DistBelief не только компьютеры были неправильные. Как оказалось, неправильно был выбран и тип обучаемых нейронных сетей. Обычно исследователям в процессе обучения нейронной сети приходилось аннотировать каждое изображение, чтобы оно было правильно воспринято. Необходимо было идентифицировать каждую кошку как кошку, обводя каждую кошачью морду на снимке ограничивающей рамкой. Но в «Статье о кошках», на принципах которой строилась работа в Google’овской лаборатории, речь шла о системе, способной учиться распознавать кошек – или другие объекты –
Весной 2012 года Джефф Хинтон позвонил Джитендре Малику, профессору Калифорнийского университета в Беркли, который публично критиковал Эндрю Ына за его заявления о том, что глубокое обучение является будущим компьютерного зрения. Несмотря на успех глубокого обучения с распознаванием речи, Малик и его коллеги скептически относились к его возможностям в деле распознавания изображений. И когда Хинтон позвонил ему, большой удачей было то, что он вообще снял трубку, потому что звонили ему преимущественно телемаркетеры. Состоявшийся разговор имел почти судьбоносное значение. «Я слышал, вы негативно относитесь к глубокому обучению», – сказал Джефф Хинтон. Малик ответил: да, это правда. Когда Хинтон спросил о причинах этого, Малик ответил, что нет никаких научных доказательств, которые бы подтверждали, что глубокое обучение способно превзойти любую другую технологию компьютерного зрения. Хинтон указал на недавние испытания, свидетельствовавшие о высокой эффективности глубокого обучения при идентификации объектов. Малик сказал, что в этих испытаниях использовались устаревшие наборы исходных данных и что это никому не интересно. «Это не убедит никого из тех, кто не разделяет ваши идеологические пристрастия», – сказал он. Хинтон спросил, что же его убедит.