"Я не думаю, что ImageNet сделает сегодняшние алгоритмы лучше", - сказал я. "Я думаю, он сделает их устаревшими".
Официально названный "ImageNet Large Scale Visual Recognition Challenge", этот конкурс был открыт для всех и обещал мгновенное распознавание победителям, а его инаугурационное мероприятие состоялось в 2010 году. Регистрация участников открылась в мае, результаты должны были быть подсчитаны к сентябрю, а победитель объявлен на сессии семинара ECCV - Европейской конференции по компьютерному зрению, которая должна была состояться в конце того же года на Крите. Исследовательскому сообществу казалось, что все прошло гладко. Но за кулисами потребовалась помощь со стороны.
Осознавая недостаток опыта, не говоря уже о все еще слабой узнаваемости ImageNet, мы обратились к Марку Эверингему, организатору-основателю PASCAL VOC. Оксфордский исследователь, Марк был восходящей звездой в мире компьютерного зрения и любезно разрешил ImageNet начать свою жизнь в качестве нового направления в рамках конкурса PASCAL VOC, который в то время проводился уже шестой год. Это было особенно любезное предложение, дававшее нам возможность освоиться в уже сложившихся рамках.
Учитывая относительную редкость конкурсов по компьютерному зрению в то время, создание нового конкурса произвело достаточный фурор, чтобы привлечь к себе внимание. Мы начали работу со 150 первыми регистрациями, которые вылились в тридцать пять заявок от одиннадцати команд. Это не было особенно многолюдным полем, но это было начало.
В каком-то смысле преддверие первого ImageNet Challenge было даже более волнующим, чем запуск самого ImageNet годом ранее. Тогда мы показывали миру то, что создали сами. Теперь мир будет показывать нам, что они создали с его помощью. Это было достойным продолжением биологического влияния, которое двигало всем проектом. В основе ImageNet лежала идея о том, что алгоритмы должны противостоять всей сложности и непредсказуемости окружающей их среды - природы реального мира. Соревнования привнесут в эту среду настоящее конкурентное давление.
Подобно нашим предкам-трилобитам, дрейфующим в древнем глобальном океане, алгоритмы компьютерного зрения современного мира вот-вот должны были попасть в свое собственное горнило. Присланные работы представляли собой первое поколение исследований, проведенных с помощью ImageNet, и мы держали их в руках. Я не мог не задаться вопросом: а вдруг это оно - вдруг мы вот-вот заглянем за новый рубеж?
Мы не были.
Победитель, представляющий совместную команду исследователей из NEC Labs, Rutgers и Университета Иллинойса, был примером машины опорных векторов, или SVM, - одного из алгоритмов, которые, как я предполагал, одолеют ImageNet. Ее довольно загадочное название - это ссылка на особенность геометрии высоких измерений, которую она использует, и символизирует ее абстрактную природу. В предыдущие годы SVM приобрели огромную популярность, и к 2010 году они стали считаться стандартом де-факто для распознавания объектов. Этот участник действительно показал достойные результаты, и мы высоко оценили усилия каждого из них. Но это было лишь небольшое улучшение по сравнению с передовыми работами в нашей области; вряд ли это можно назвать рассветом новой эры.
Это был момент разочарования, один из многих в истории ImageNet. Но если 2010 год был антиклиматическим, то 2011-й стал апокалиптическим. Победителем, на этот раз от исследовательского центра Xerox во Франции, стал другой SVM, и его производительность, хотя и улучшилась по сравнению с предыдущим годом, но номинально составила около 2 процентных пунктов.
Меня начало осенять, что я просчитался. Как я и предполагал, ImageNet оказался слишком сложным для большинства алгоритмов. Но SVM в оказался более надежным, чем я ему доверял, предлагая безопасную гавань для новичков и препятствуя агрессивным инновациям, о которых я мечтал. Два года подряд хорошо зарекомендовавшие себя алгоритмы демонстрировали лишь постепенный рост возможностей, в то время как настоящий прогресс, казалось, практически отсутствовал. Хуже всего то, что число участников уже падало, причем стремительно: за второй год регистрация сократилась со 150 до 96, а число самих заявок - с 35 до всего 15. Неудивительно, что все меньше и меньше людей считали, что усилия того стоят.
Сказать, что это было "унизительно", значит преуменьшить. Мы посвятили годы своей жизни набору данных, который на порядки превосходил все, что когда-либо существовало, организовали международное соревнование для изучения его возможностей и, несмотря на все это, добились не более чем простого подтверждения статус-кво. Если ImageNet был ставкой, то пора задуматься, не проиграли ли мы.
"Сильвио! Смотри! Я хотел показать тебе!"