"Освещение? Кружка может быть ярко освещена или находиться в тени. И цвет тоже. Кружки могут быть практически любого оттенка, а на некоторых есть рисунки и слова".
"Хорошо, хорошо. И сколько вариаций для каждого из них?"
"Одно и то же. Оба бесконечны".
"А мы еще только начинаем", - сказал я. "Как насчет перспективы? Куда направлена ручка? Мы смотрим на кружку снизу вверх или сверху вниз? А как насчет окклюзии? Есть ли что-то перед ней? Стопка книг? Кошачий хвост? Другая кружка? А что насчет фона? Кружка стоит перед стеной? Окно? Находится ли она в шкафу?"
"Бесконечно, бесконечно, бесконечно, бесконечно", - подытожила Цзя, довольно точно.
Чем больше я думал об этом, тем больше убеждался в развивающем характере нашей работы - попытке синтезировать восприятие ребенка в годы его становления в виде данных. Я представил себе, как дети играют с вещами - как они тянутся к ним, ощупывают и трогают, тычут и тыкают. Они привыкают к изменениям освещения и перспективы, беря вещи в руки, поворачивая их и рассматривая под разными углами. Они играют в игры вроде "пикабу", узнавая, что предметы сохраняются, даже если их на мгновение спрятать. Все это инстинкты, которых так не хватало нашим алгоритмам.
"Хорошо, но мы так и не пришли к числу", - размышлял Цзя. "Пока что мы просто умножили бесконечность на саму себя. Что же нам с этим делать?"
"Полагаю, в этом и заключается моя мысль", - ответил я. "Никакого количества изображений не будет достаточно. Поэтому, сколько бы мы ни думали о количестве, мы должны думать о большем. А потом еще больше. Мы в любом случае угадываем, так что давайте угадывать по-крупному".
Мы поставили перед собой цель сделать тысячу разных фотографий каждой категории предметов. Тысяча разных фотографий скрипок. Тысяча разных фотографий немецких овчарок. Тысяча разных фотографий брошенных подушек. И так далее, более чем по двадцати двум тысячам категорий. Что-то около двадцати миллионов изображений. И даже эта цифра говорила нам только о готовом продукте; скорее всего, нам придется начать с сотен миллионов, а то и почти миллиарда изображений-кандидатов.
Цзя смотрел скептически. "Я понимаю теорию, но вы говорите об астрономическом объеме работы. Это выходит за рамки нескольких поисков в Google".
Он, конечно, был прав, но нам нужно было принять этот факт, а не прятаться от него. Мы пытались отразить всю полноту реального мира. Цифры должны были нас пугать.
"Цзя, все, что мы хотим, чтобы наши алгоритмы увидели, уже где-то есть. Каждая деталь фотографируется, даже пока мы разговариваем. В наши дни у каждого есть телефон-раскладушка. Каждый получает на Рождество цифровую камеру. Представьте, что вы увидите, если сможете каким-то образом собрать все эти фотографии в одном месте. Это была бы мозаика всего мира! Вся повседневная жизнь, от одного конца до другого".
"При условии, что мы сможем как-то это организовать", - добавил он. "Изображения сами по себе ничего не делают, верно? Все они должны быть помечены, прежде чем мы сможем использовать их для обучения модели. И каждая метка должна быть точной". Цзя сделал паузу, как будто его осенила серьезность собственных слов. "Это уже совсем другой разговор".
"Да, да, да", - ответила я. "По одному чуду за раз".
Мы с Джией наблюдали из угла лаборатории, как ряд студентов-старшекурсников выдает ровный ритм щелчков мыши и нажатий клавиш. Отклик на письмо, которое мы разослали в начале недели, был быстрым. Требуются: Студенты, готовые помочь загрузить и разметить изображения из Интернета. Гибкие смены. 10 долларов в час. Это казалось справедливой сделкой: мы сделаем шаг к новой эре машинного интеллекта, а они получат деньги на пиво. Это был приятный момент, но реальность не заставила себя долго ждать.
"Мне кажется, Цзя, или все это выглядит немного... медленно?"
"Да, я беспокоился об этом. На самом деле, я засекал несколько минут их темпа и делал некоторые экстраполяции".
О-о.
"С такими темпами мы можем ожидать, что ImageNet будет завершен в..."
Я тяжело сглотнула. Он заметил.
"Да: девятнадцать лет, плюс-минус. Фей-Фей, я верю в этот проект - правда верю, но я не могу так долго ждать своей докторской".
Справедливое замечание, Цзя.
"Так что же нам делать?" - спросил он. "Может, просто наймем больше студентов?"
"Это один из вариантов, конечно. Но это будет стоить нам денег, и если наш временной горизонт составляет девятнадцать лет, я не уверен, что бюджет нашей лаборатории будет достаточно велик, чтобы выкупить наш выход".
Так или иначе, было ясно, что для решения проблемы нам понадобится больше, чем горстка подростков. Этого едва хватило для Caltech 101, который был просто ошибкой в сравнении с ImageNet. Казалось, необходимо применить новую тактику.