Я подумал о работе, которой Цзя занимался вместе с Каем Ли до прихода в мою лабораторию. Их мир был миром сложных систем - ошеломляюще сложных - и они жили стремлением к эффективности. Более высокая производительность. Более низкая стоимость. Кратчайший путь. Конечно, протеже одного из лучших в мире разработчиков микропроцессоров мог бы придумать, как повысить производительность некоторых детей.
"Цзя, подожди секунду". Я жестом указал на студентов. "Это ведь все процесс, верно? Разве это не инженерная задача?"
Он на мгновение задумался, а затем бросил на меня взгляд человека, собирающегося засучить рукава.
"Хорошо", - сказал он со слабым намеком на ухмылку. "Давайте поговорим об оптимизации".
Следующие месяцы вошли в ритм, хотя и не слишком изящный. ImageNet был диким зверем, который не поддавался укрощению и вырывался каждый раз, когда мы подходили слишком близко. Мы продолжали бороться, одерживая все новые и новые победы - по крайней мере, маленькие, - а также накапливая царапины и синяки. Но каждый раз, когда нам казалось, что мы наконец загнали его в угол, он издавал более глубокий, более гортанный рев и отправлял нас в бегство.
К счастью для меня, Цзя был из тех партнеров, которые в ответ на досадные проблемы начинают думать еще активнее. Участие людей было самой затратной частью нашего процесса, как с точки зрения времени, так и с точки зрения денег, и именно здесь он начал свою контратаку: сделал своей личной миссией сократить эти затраты до абсолютного минимума. Например, когда один из наших специалистов по наклеиванию этикеток собирал коллекцию фотографий для определенной категории, скажем, "вельш-корги пемброк", мы изначально предполагали, что каждый шаг будет выполняться вручную: вводили запрос в поисковую систему вроде Google Images, прочесывали результаты, чтобы найти четкие примеры, накладывали этикетку на каждую, а затем помещали итоговые подборки в соответствующий каталог. Но большинство этих шагов не требовали человеческого интеллекта.
Первым делом Цзя автоматизировал этап загрузки, написав программу, которая отправляла каждую категорию WordNet в поисковую систему по изображениям, как это делали наши маркировщики. Но поскольку поисковые системы предназначены для людей, а не для машин, они не возвращают набор изображений напрямую; вместо этого они представляют веб-страницу, которая организует полученные результаты в виде прокручивающейся сетки миниатюр, исходный код которых программа Цзя затем разбирала, чтобы извлечь ссылки на полноразмерные изображения. Это было сложное решение, но оно давало нам возможность загружать изображения кандидатов на максимальной скорости, днем и ночью, столько, сколько мы хотели - месяцы, если нужно. А полученные изображения автоматически упорядочивались на наших собственных машинах.
Наше хранилище стало наполняться как по волшебству. Конечно, в широкую сеть, которую мы закинули, попало изрядное количество хлама - низкокачественных фотографий, клип-арта и тому подобного, - но мы накопили и много хорошего. Где-то в сети наших быстро заполняющихся жестких дисков появлялись первые проблески этой мозаики - грубого, но достоверного изображения всего визуального мира. По крайней мере, так было какое-то время.
"Ой-ой", - услышала я голос Джии из другого конца лаборатории.
"В чем дело?"
"Похоже, у нас возникла небольшая заминка. Ага... Google нас забанил".
"Что? Запрещено? Почему?"
"Очевидно, они ограничивают количество запросов, которые может подать один пользователь за определенный период. Около тысячи, насколько я могу судить".
"Как долго длится этот период?"
"Двадцать четыре часа. Он обнуляется в полночь. Это хорошая новость".
"Хорошо, как быстро мы сжигаем дневную норму?"
"Что ж, это плохие новости". Цзя поднял файл журнала и произвел мысленную арифметику. "Около девяти минут".
Уф.
Рост хранилища остановился. И это была не единственная наша проблема. Конвейер был карикатурно однобоким: наша коллекция необработанных изображений взрывалась, тысячи и тысячи добавлялись каждый день, пока Google не заблокировал нас, но лишь малая часть из них была точно промаркирована и организована. Мы с самого начала знали, что процесс маркировки будет узким местом, но по мере того, как проходили недели, нас постоянно удручало то, насколько тяжелым было это бремя.
Мы с Цзя встретились, чтобы обсудить этот вопрос, в столовой Mathey на территории кампуса - месте, на которое я стал полагаться, так как в связи с тем, что ImageNet завладел моим разумом, мысль о том, чтобы отвлечься на приготовление пищи, стала просто невыносимой. Кроме того, после стольких дней и ночей, проведенных в лаборатории, это была желанная смена обстановки: высокие потолки, деревенские люстры и витражи наводили на мысль, что мы нашли убежище в монастыре.