"Кажется, у меня есть идея", - сказал Андрей через дверь в мой кабинет. С момента нашего последнего разговора прошло несколько дней, и на этот раз он выглядел уже не таким подавленным. Я мог сказать, что у него есть что-то хорошее. "Представьте, что мы объединяем CNN с RNN, - сказал он, присаживаясь на диван. "Один кодирует визуальную информацию и сопоставляет ее со словами, а другой генерирует язык. Мы будем тренировать нашу модель на парах изображений и написанных человеком описаний".
Ну вот, мы и добрались до цели, подумал я и кивнул, обдумывая сказанное.
"Продолжайте", - сказала я, любопытствуя, о чем еще он думает. "А что потом?"
"Ну, здесь определенно есть несколько неизвестных моментов, которые нужно прояснить, но я думаю, что RNN генерирует каждое новое слово в описании условно, основываясь на словах, уже имеющихся в предложении. Таким образом, мы описываем содержимое изображения, следуя при этом грамматическим шаблонам, которые были получены из обучающих данных. В результате, по крайней мере в теории, должно получиться совершенно новое описание на более или менее естественном языке".
Трудно было не впечатлиться. Если бы хотя бы половина этого сработала, он бы сконструировал свой способ выбраться из той дыры, в которой я его оставил. Мне не терпелось увидеть, что будет дальше.
Наш проект по созданию автомобиля Google Street View был завершен, и глубина собранных нами данных поражала воображение. Более пятидесяти миллионов изображений из более чем двухсот городов прошли через наши классификаторы, охватывая более трех тысяч почтовых индексов и почти сорок тысяч избирательных участков. В общей сложности наши классификаторы идентифицировали более двадцати двух миллионов автомобилей - почти 10 процентов всего автопарка Соединенных Штатов, - что позволило выявить удивительные статистические данные. Некоторые из них были забавными подтверждениями стереотипов, как, например, наш вывод о соотношении седанов и пикапов в городе: если первых больше, то город с вероятностью 88 % голосует за демократов; если больше вторых, то с вероятностью 82 % голосует за республиканцев. Но это было только начало.
Например, корреляция между этнической принадлежностью автовладельцев и предпочитаемой ими маркой была настолько сильной, что почти полностью совпадала с данными Американского общественного опроса о расовом составе населения тех же районов. Столь же точные прогнозы можно было сделать относительно среднего уровня образования и дохода в регионе. Снова и снова наша модель генерировала цветные карты целых городов, прослеживая колебания социально-экономических и политических показателей от одного конца до другого, и все они были удивительно похожи на данные, собранные традиционными методами Бюро переписи населения. И все это путем простого наблюдения за автомобилями на улицах.
Однако настоящим открытием стал потенциал процесса, который мы продемонстрировали на сайте : быстрая, масштабируемая и сравнительно дешевая альтернатива ручным опросам, на которые только в США тратится более 250 миллионов долларов в год. Это была одна из самых крупных и амбициозных работ в истории нашей лаборатории, опубликованная на страницах журнала Proceedings of the National Academy of Sciences, или PNAS, с Тимнит в качестве ведущего автора - вполне заслуженная честь, учитывая ее впечатляющие усилия. Я гордился этой работой на техническом уровне, но больше всего меня взволновало то, что она говорит о возможностях искусственного интеллекта показать нам наш мир совершенно по-новому.
Я повернулась на бок, чтобы плечом открыть двери лаборатории, жонглируя сумочкой, телефоном и недопитой чашкой чая из "Старбакса". Я находилась в оцепенении, характерном для перегруженного делами утра, спеша с одной встречи на другую и пытаясь уловить повестку дня каждой из них, когда Андрей помахал мне рукой, когда я проходила мимо его кабинета.
"Проверьте это", - сказал он, кивнув в сторону своего рабочего места. На этот раз выражение его лица было заметно более уверенным.
Я поспешил внутрь, настолько взволнованный желанием увидеть последние новинки, что почти забыл, куда шел. На экране была фотография подростка и скейтборда, оба в воздухе, на фоне голубого неба и далеких кустов. В крошечном окошке командной строки под изображением было выведено предложение.
Человек на скейтборде.
Я улыбнулся, даже не успев осознать этого. Андрей позволил моменту затянуться на секунду, а затем нажал на клавишу. Появилось еще одно изображение, на котором была изображена грязная строительная площадка с двумя рабочими в оранжевых жилетах, заливающими цемент. Через секунду-другую после этого появилось еще одно предложение.
Строители работают на обочине.
Он снова нажал на клавишу. Другое изображение, другая надпись. Затем еще одно, и еще, и еще. По количеству и разнообразию сцен было ясно, что эти предложения не просто выкопаны где-то из учебного корпуса. Их писала модель.