Скачок на 10 процентов? За один год? И с помощью нейронной сети? Я прокручивал эту идею в голове, пока мы переходили из одного часового пояса в другой. Это все равно что сказать, что рекорд скорости был побит с разницей в сто миль в час на автомобиле Honda Civic. Это просто не сходится. Прогресс не должен выглядеть так.
Или нет? Я вспомнил статью Цзя о том, что он узнал, обучая алгоритмы на ImageNet. Как методы, которые хорошо работали с небольшими наборами данных, вдруг стали плохо работать при обучении на больших - и наоборот. Может быть, все это время нейронные сети лучше подходили для того, чтобы разобраться с большим, более плотно упакованным пространством возможностей ImageNet? Что они могли справиться с огромным увеличением общего числа категорий в сочетании с резким сокращением различий между ними, в то время как их современные конкуренты не могли? В поисках новых подсказок я открыл свой ноутбук и открыл слайд-деск, который команда AlexNet приложила к своей заявке и в котором излагался выбор дизайна, который они сделали.
AlexNet - это пример сверточной нейронной сети, или CNN. Название происходит от графического процесса свертки, в котором серия фильтров проносится по изображению в поисках признаков, соответствующих вещам, которые распознает сеть. Это уникальная органическая конструкция, вдохновленная наблюдением Хьюбела и Визеля о том, что зрение млекопитающих проходит множество стадий. Как и в природе, каждый слой CNN интегрирует все новые и новые детали в более высокие уровни осознания, пока, наконец, реальный объект не становится полностью видимым.
В результате получился алгоритм, который ведет себя как сетчатка глаза, вглядываясь в окружающее пространство. Как и в настоящем глазу, ее внешний слой накладывает тысячи рецептивных полей на пиксели фотографии, каждое из которых настроено на уникальный, крошечный узор и активируется, когда встречает его - диагональный край, наклоненный под определенным углом, нечеткое смешение двух оттенков, узор из полос или чередующихся интенсивностей и так далее. На таком уровне осознания эти фильтры могут реагировать на что угодно - на узор меха на шерсти собаки, край кухонного стола или отблеск по контуру освещенного солнцем лепестка розы. На самом деле AlexNet смог уловить все эти и многие другие вещи не только потому, что был обучен на ImageNet, но и, что очень важно, потому, что он остался верен эволюционному духу биологического зрения. Вместо того чтобы произвольно решать заранее, какие признаки должна искать сеть, авторы позволили каждому из сотен тысяч нейронов постепенно научиться собственной чувствительности, исключительно на основе обучающих данных, без ручного вмешательства. Подобно биологическому интеллекту, AlexNet была естественным продуктом окружающей среды.
Затем сигналы от тысяч рецептивных полей уходят вглубь сети, сливаясь и группируясь в более крупные и четкие подсказки. Каждый новый слой, работающий на более сложном уровне восприятия, чем предыдущий, реагирует, когда чувствует что-то знакомое - то, что его научили распознавать, - загораясь с нарастающей интенсивностью, как нейроны в момент биохимического прилива. Крошечные узоры превращаются в более крупные, которые, в свою очередь, соединяются, как кусочки головоломки, образуя все более узнаваемые фрагменты - полосы тигра, текстура дерева, тень, падающая на землю.
Наконец, немногие оставшиеся сигналы, прошедшие через каждый слой, отфильтрованные и объединенные в детальную картину объекта, сталкиваются с последним этапом работы сети: распознаванием. Мотороллер. Леопард. Абакус. Курица. Телевизор. Или любой из тысячи альтернативных вариантов. Все по единому алгоритму и с точностью, которая все больше конкурировала с нашей собственной.
Конечно, это были не совсем новые идеи. Ян ЛеКун оставался поразительно верен конволюционным нейронным сетям на протяжении многих лет после своего успеха в применении их к рукописным ZIP-кодам в Bell Labs. К моменту появления AlexNet он потратил два десятилетия на совершенствование алгоритма и публикацию своих результатов, даже не имея ресурсов, необходимых для их полной реализации. Теперь же, в одночасье, стремление, которое часто списывали на ошибки, стало казаться прямо-таки прозорливым. Словно реинкарнированный, дух собственной CNN ЛеКуна, получившей соответствующее название "LeNet", был явно жив в AlexNet.