Но по мере того как проходили годы моей работы в Калтехе, во мне укоренялось нечто иное. Я размышлял обо всем, что мы сделали: о нашем эксперименте по психофизике, об исследовании алгоритмов одномоментного обучения, о нашей работе, демонстрирующей мощь набора данных Caltech 101, и о десятилетиях литературы, над которой мы корпели. Несмотря на нестандартный путь моего образования, раздвоенный под руководством двух консультантов, я начинал ценить элегантность нашей работы. То, что мы сделали все это, не было случайностью; я как никогда был убежден, что категоризация - это идея, связывающая их, и что ее роль в понимании зрения - а может быть, и всего человеческого интеллекта - скоро окажется первостепенной.
Так почему же прогресс был таким медленным?
Одним словом, наши алгоритмы "перестраивались", как это называется в науке о данных. Иными словами, независимо от того, насколько продуманным был дизайн - а мы исследовали все возможные варианты, - даже те, которые показали наилучшие результаты во время тестирования, быстро давали сбой при воздействии новых стимулов. Снова и снова алгоритмы, которые, казалось бы, прошли эффективное обучение, оказывались неспособны применить полученные знания - или предполагалось, что они их получили - в реальном мире. По сути, это было противоположно человеческому восприятию, которое определяется способностью к обобщению. Обобщение делает нас гибкими, адаптируемыми и даже творческими, готовыми использовать силу новых идей, а не томиться в рамках прошлого опыта. Любое существо, лишенное такой способности, было бы быстро ошеломлено непредсказуемостью мира природы, что делает ее ключевой характеристикой биологически развитого разума. Но для машин она оставалась недоступной.
В наших попытках разгадать загадку избыточной подгонки естественным местом для начала был сам алгоритм - в частности, способы, с помощью которых он обучался на обучающих данных. Большинство алгоритмов, которые мы исследовали, были настолько сложны, настолько "вычислительно неразрешимы", что их нельзя было настроить вручную. Диапазон перестановок для их бесчисленных параметров был просто слишком велик, как панель управления с ручками и переключателями, простирающаяся за горизонт. Вместо этого автоматизированные технологии позволяли приблизиться к идеальному балансу этих параметров путем долгой итеративной последовательности проб и ошибок. В течение многих лет совершенствование таких методов было основой исследований в области компьютерного зрения.
Но Caltech 101 побудил нас глубже задуматься и о данных, что, в свою очередь, заставило нас задуматься о том, как эта сторона уравнения может способствовать чрезмерной подгонке. В конце концов, без данных к чему относится "обучение" в термине "машинное обучение"? Несмотря на очевидную важность этой темы, ей не хватало точности, которую мы привыкли ожидать от физики, математики или статистики. Такие исследователи, как Пьетро и Джитендра, были одними из немногих, кто изучал эту тему хотя бы номинально глубоко, и они разработали, как мне кажется, лучшие интуиции для ее понимания. Наши публикации свидетельствовали о том, что по мере увеличения массивов данных росли возможности наших алгоритмов - во всяком случае, относительно. Тем не менее, работа с данными больше походила на черное искусство, чем на науку.
Я начал думать, что мы делаем не так. Может быть, учебные изображения должны быть ориентированы по-другому? Нужно ли нам больше разнообразия? Может быть, дело в разрешении или качестве камеры? А может быть, - и я почти не решался допустить такую мысль, не говоря уже о том, чтобы высказать ее вслух, - может быть, даже 101 категории недостаточно? Чем больше я размышлял над этими вопросами, тем более очевидными, даже насущными, они казались. Но, насколько я мог судить, никто другой в нашем сообществе их не задавал.
Даже вопрос о количестве - наша специальность - казался загадочным. Я вынужден был признать, что было разумно задаться вопросом, что делает число 101 таким особенным. Это не был эмпирически подтвержденный результат или даже принципиальная оценка, выведенная из теории. Это был результат игры в салочки с моим консультантом над обеденными подносами, расставленными как картины Хокни. Неужели так удивительно, что это не было прелюдией к прорыву? Я снова вернулась к литературе, на этот раз с остервенением. Если не 101, то что? 200? 500? 1,000? Пожалуйста, только не 1000, подумал я. Я был полон решимости найти разгадку, где-нибудь, как-нибудь.
Пришлось немного покопаться, но в конце концов я кое-что нашел. И даже из знакомого источника - статьи Ирвинга Бидермана, одного из главных авторов нашего современного понимания зрения, опубликованной в 1983 году. Прошли годы с тех пор, как я читал ее, несомненно, пролистав вместе со стопкой другой литературы в два часа ночи. Теперь, после всего, что мы узнали из наших приключений с одномоментным обучением и мечтой о достижении истинной визуальной категоризации, я увидел ее по-новому.