Я подумал о своих примерах для подражания - от легенд физики до моих собственных профессоров. Годами я восхищался силой идей, которые двигали ими как учеными, и тем, какое влияние они оказывали на свои области. Теперь, спустя всего пару лет после начала обучения в аспирантуре, я верил, что вижу проблеск на своем собственном горизонте - что-то далекое и туманное, но достаточно яркое, чтобы осветить мой путь вперед. Так или иначе, мы собирались сделать визуальный мир привычным для машин. Превзойдя даже стандарты жизни, склонной к зацикливанию, я развил одержимость, более сильную, чем любая другая, которую я когда-либо знал.
Я нашел свою собственную Полярную звезду.
На экране появилось изображение реактивного лайнера, и алгоритм приступил к выполнению своей задачи. Это была задача, с которой мог справиться даже ребенок: определить присутствие самолета в любой точке фотографии. Но в 2003 году на этот вопрос машины могли ответить только после изучения огромного количества примеров. И даже тогда их шансы на успех были скромными. В тот день мы с Пьетро проверяли идею, которая, как мы надеялись, могла изменить эти шансы, возможно, кардинально. Я присмотрелся, желая увидеть, что будет делать алгоритм.
На экране начали появляться розовые точки - так сказать, визуальные подсказки, призванные выделить детали на фотографии, которые привлекли внимание алгоритма. Я слегка поморщился, когда первая из них появилась на участке травы у асфальта. Алгоритм смотрел не туда. Но тенденция быстро изменилась, когда следующие две появились на крыльях самолета. Затем еще одна, где-то в хвостовой части. Затем еще три возле кабины пилота. Наконец появилась последняя точка. Шасси. Это считается, подумал я. Это же техническая часть самолета!
Я взволнованно выдохнула. Пока все хорошо.
Далее началась самая сложная часть работы. Поскольку каждый выделенный элемент занимал всего несколько пикселей, алгоритм был разработан таким образом, чтобы объединять их в кластеры, представляющие более крупные части объекта, который он должен был идентифицировать. Другими словами, это прокси для тусклой формы визуального восприятия. Вокруг каждой части были нарисованы цветные круги: синий и тиловый - для разных сегментов фюзеляжа, красный - для вертикального стабилизатора, зеленый - для области, где они встречаются. Конечно, алгоритм расположил их почти точно на своих местах.
Самолет признан.
Это был волнующий момент, но не потому, что он сработал, а потому, как он сработал. Вместо того чтобы погрузить машину в сотни фотографий самолетов, охватывающих как можно больше вариаций цвета, стиля, перспективы и условий освещения, мы показали ей всего одну. Однако мы показывали ей сотни изображений совершенно несвязанных предметов - пятнистых кошек из джунглей, мотоциклов, человеческих лиц, сделанных нашими улыбчивыми товарищами по лаборатории и новой цифровой камерой Пьетро, а также случайные подборки, которые мы загрузили из Google Images. Наша гипотеза заключалась в том, что, ознакомив алгоритм сначала с широким спектром визуального мира, он будет лучше подготовлен к обучению чему-то конкретному. Поэтому, хотя алгоритм был обучен на самых разных вещах, самолет, который он только что распознал, был лишь вторым, который он видел. Эвер.
Наше творение было лишь пробным вариантом, и в нем не обошлось без ошибок. Но наша цель состояла в том, чтобы продемонстрировать, что алгоритмы, как и люди, получают огромную пользу от того, что видят больше визуального мира. Теперь на моем горизонте замаячила Северная звезда, и мы сделали реальный шаг в ее направлении.
Мы назвали эту технику "одномоментным обучением". Это был значительный отход от существующего положения дел в области распознавания изображений, но способность, которая нас вдохновила, хорошо известна. Как люди, мы от природы умеем распознавать вещи даже после одного взгляда на них: новый вид музыкального инструмента, животное, которого мы никогда раньше не видели, лицо недавно избранного политика. Можно привести множество объяснений этой способности, но одним из самых простых и действенных является тот факт, что даже когда мы видим что-то новое, мы используем для этого опыт всей нашей жизни. Независимо от новизны, практически все, что мы видим, настолько сильно опирается на прошлый опыт - знакомые детали, такие как контуры, свет и тень, текстуры и узоры, - что трудно представить, что можно увидеть что-то в полном одиночестве.
Наша техника воплотила эту концепцию в машинах, и оказалось, что она работает. Однако если результаты оказались приятным сюрпризом, то прием, который получила наша статья, был ошеломляющим. Это был своего рода прорывной успех: ее не только приняли на Международную конференцию по компьютерному зрению (ICCV) в Ницце, Франция, но и дали нам одно из немногих мест для устного доклада. Хотя доклад был написан в соавторстве с Пьетро и его коллегой по имени Роб Фергус, я был ведущим. Это означало, что честь и ответственность за поездку лежала на мне.