Два вопроса, одинаково амбициозные, вдохновили проект: что, если бы все понятия, которые человек может сформулировать с помощью языка, были организованы в единую, массивную базу данных слов? И что, если бы, в отличие от алфавитной организации словаря, эти слова были связаны друг с другом на основе их значений? Например, вместо того чтобы объединять "яблоко" с "прибором" из-за случайности их написания, "яблоко" можно было бы объединить с целым кластером родственных слов - "еда", "фрукт", "дерево" и так далее. Это было бы похоже на карту всего, что ценят люди, - всего, что мы научились описывать словом, - расположенного в едином пространстве. В двух словах, это и есть WordNet.
С момента своего создания в 1985 году проект разросся до почти непостижимых размеров, включив в себя более 140 000 английских слов и быстро распространяясь на новые языки. Для Кристиана, занимавшего пост президента ассоциации Global WordNet , это была почти постоянная работа. Я был потрясен ее масштабами, ее долговечностью и координацией, которая, должно быть, требовалась, чтобы так точно и на протяжении многих лет направлять ее рост. Я практически краснел, вспоминая, каких усилий стоило уговорить горстку студентов на несколько месяцев, чтобы собрать достаточно снимков для набора данных Caltech 101 - его собственная категориальная глубина более чем в тысячу раз меньше. Но я также был вдохновлен до такой степени, какой не испытывал уже давно.
WordNet стал для меня откровением. Она давала ответ или хотя бы намек на вопросы, которые занимали большую часть моей жизни в течение почти четырех лет с тех пор, как я наткнулся на номер Бидермана. Это была карта человеческих смыслов, бескомпромиссная как по охвату, так и по достоверности содержания. Я еще не знал, как с помощью компьютерного зрения можно достичь масштабов, которые представлял себе Бидерман, но теперь, по крайней мере, у меня было доказательство того, что такая работа вполне осуществима. Впервые передо мной открылся путь, и я мог видеть следующий шаг.
Затем, как будто для того, чтобы еще больше убедить меня в этом, Кристиана упомянула о смежном проекте, целью которого было проиллюстрировать каждое понятие WordNet одним визуальным примером, например фотографией или диаграммой. Хотя эта инициатива была заброшена, я был заинтригован. Даже его название - ImageNet - было почти идеально подходящим. Еще один толчок, и не особенно тонкий.
Точки начали соединяться еще до того, как я покинул кампус в тот день. Сначала была WordNet: лексическая база данных почти неописуемой амбициозности, которая, казалось, охватывала все мировые понятия, организованные в естественную иерархию человеческого смысла. Затем появился ImageNet: попытка присвоить каждому понятию отдельную картинку. Оба проекта казались ответами на зияющее, загадочное пространство, которое число Бидермана создало в моих мыслях.
Я задал себе вопрос, столь же абсурдный, сколь и очевидный: что если создать набор данных, подобный Caltech 101, в масштабах WordNet? Не обращая внимания на невозможную логистику такой затеи - и действительно, "невозможно" было единственным словом, пришедшим на ум, - нельзя было отрицать силу этой идеи. И дело было не только в размерах: хотя набор данных был бы астрономически огромным, конечно, его цифры были бы побочным эффектом чего-то более глубокого: разнообразия в невиданных ранее масштабах, такого же беспорядочного и непредсказуемого, как и мир, который он отражал.
После многих лет, которые я провел, погружаясь в эту область, и десятилетий истории, которую я изучал с Пьетро и Кристофом, это казалось чем-то действительно новым. Дивергентным, даже разрушительным. Следующий шаг в поисках тайны, которая преследовала меня днем и не давала спать по ночам. Если существовал хотя бы номинальный шанс, что это приблизит меня к открытию - любому открытию, - я должен был рассмотреть его.
Мои мысли неслись вскачь, когда я представлял себе богатство визуальных сигналов, которые мог бы усвоить алгоритм, обученный на таком наборе данных. Твердые края пластика, блеск лакированного дерева, текстура шерсти животного, отражение на поверхности глаза и многое другое - возможно, все остальное. Я представлял себе, как наши алгоритмы становятся все более гибкими в своей способности отделять передний план от заднего, определять, где заканчивается один объект и начинается другой, и отделять свет и тень от поверхности и объема.
Что, если секрет распознавания чего бы то ни было заключается в обучающем наборе, включающем в себя все?