В большинстве из них на первой позиции лидер мэйнстрима Джеффри Хинтон, он абсолютный лидер, но на втором или на третьем стоит профессор Майкл Джордан, иногда он опережает Лекуна и Бенджо. Джордан преподает в университета Беркли, он обладает колоссальным научным авторитетом. В списках наиболее влиятельных ученых в Computer Science, составляемом журналом Science или порталом Guide2Research, Майкл Джордан существенно опережает Хинтона и других членов канадского ганга. С начала 80-х он разрабатывал когнитивные модели, основанные на рекуррентных нейронных сетях. Будучи статистиком, Джордан способствовал внедрению в машинное обучение байесовских сетей, представляющих собой множество переменных и их вероятностных зависимостей по Байесу.
В качестве постоянного оппонента Хинтону выступает немецко-швейцарский ученый Юрген Шмидхубер, профессор в Университете Лугано. В 1997 году Шмидхубер вместе со своим научным руководителем Сепплом Хохрайтером опубликовали статью Long short-term memory с описанием варианта рекуррентной нейронной сети (RNN), который они на несколько лет раннее назвали «Долгая краткосрочная память» (LSTM). Такое, на первый взгляд, нелогичное название не игра слов, оно имеет глубокие корни, идущие из психологии, где память делят на долговременную (long-term) и кратковременную рабочую (short-term). При объединении двух типов памяти в одной LSTM программа извлекает из short-term структуры, используемые для долговременного запоминания. Этот подход делает LSTM удобным для работы с последовательными данными, например текстами на естественных языках.
Более глубоким идейным оппонентом мэйнстриму является Хаим Самполинский, профессор Еврейского университета в Иерусалиме и профессор Гарвардского университета. Он автор множества работ, но наиболее доступно его позиция изложена вы статье «Глубокое обучение и альтернативные обучающие стратегии при ретроспективном анализе реальных клинических данных» (
Трансферное обучение
Всё нынешнее глубокое обучение относится к категории обучения с учителем (supervised DL), ставшего новой классикой. Оно обладает несколькими врожденными недостатками. По определению для него требуются чрезвычайно большие объемы данных на этапе обучения и соответственно большие вычислительные мощности. В ряде случаев требуется такая вычислительная мощность, что решение сопряженно с существенными энергетическими затратами, но полученная при этом модель способна решать только одну задачу, что снижает эффективность. То есть модель, обученная для решения одной задачи настолько специальна, что не может быть полезной для решения другой задачи, для нового решения потребуются новые данные для обучения и новые затраты на обучение. Избавлением от этого врожденного недостатка станет модифицированный тип DL, который получил название transfer learning (TL), его можно перевести как «обучение с переносом», но чаще используют кальку английского термина «трансферное обучение». TL отличается тем, что «знание», полученное при тренировке модели, сохраняется для последующего повторного использования, чем напоминает обучение человека, с той разницей, что машинное знание не имеет ничего общего с человеческим, оно не может служить источником для самостоятельной деятельности. Знание в данном случае сводится к возможности полного или частичного использования ранее обученной модели для решения новой задачи. TL повышает эффективность DL при условии родственности решаемых задач. Если модель обучена на распознавание кошек, то она окажется бесполезной для распознавания собак.
Общие идеи относительно возможностей TL и сам термин предложила известная специалист в этой области Лорин Пратт еще в 1993 году, но путевку в жизнь этому направлению в DL дал Эндрю Ын в своем ставшем широко известным выступлении на конференции Neural Information Processing Systems (NIPS) 2016. По его мнению, TL должно стать следующим стимулом для коммерческого успеха после обучения с учителем.
На данный момент видится несколько стратегий внедрения TL. Это может быть прямое использование заранее обученной модели (pre-trained models) для определенной области приложений, например NLP. Пользователям уже доступны такие специализированные как BERT, YOLO, GloVe, UnsupervisedMT и другие. Или же можно тем или иным способом воспользоваться обученной моделью для частичного экстрагирования сведений из ранее натренированного набора данных с тем, чтобы потом перенести их другую модель.
Генеративно-состязательные сети