Читаем Мозговой трест. 39 ведущих нейробиологов – о том, что мы знаем и чего не знаем о мозге полностью

Обучение методом временных разностей может показаться не слишком эффективным, поскольку обратная связь состоит лишь в том, получаете вы вознаграждение или нет. Однако некоторые варианты применения такого обучения показали, что в сочетании с другими алгоритмами оно может быть весьма мощным инструментом. Джерри Тезауро работал со мной над обучением нейросети игре в нарды. Эта игра очень популярна на Ближнем Востоке, и некоторые даже зарабатывают на жизнь игрой с высокими ставками. Это соревнование между двумя игроками — кто раньше снимет с доски свои шашки. Скорость перемещения шашек определяется броском игральной кости, ходы делаются по очереди. В отличие от детерминированных игр вроде шахмат, в нардах неопределенность результата при броске игральной кости значительно затрудняет предсказание результата каждого хода. Стратегия игры в нарды в программе Джерри определялась на основе функции ценности, которая рассчитывала вероятность выиграть матч на основе всех возможных позиций на доске, каждой из которых группа мастеров этой игры присваивала оценку. Программа анализировала все возможные ходы в конкретной позиции и выбирала ход с наивысшей оценкой.

В нашем подходе для обучения нейросети оценке игровых позиций и выбору ходов использовалось экспертное знание. Недостаток этого подхода состоит в необходимости собрать и хранить множество экспертных оценок; кроме того, программа по определению не могла играть лучше экспертов. Когда Джерри перешел в исследовательский центр IBM имени Томаса Уотсона, он переключился с метода контролируемого обучения на метод временных разностей и заставил программу играть саму с собой. Проблема игры с собой заключается в том, что единственный обучающий сигнал — это выигрыш или проигрыш всей партии, а информация о влиянии на победу или поражение каждого из множества ходов отсутствует.

В начале обучения игре в нарды ходы вычислительной машины были случайными, но в итоге одна из сторон выигрывала. Сначала система вознаграждения обучала программу «выигрывать», то есть снимать все шашки с доски к концу игры. Когда программа освоила завершение игры, функция ценности для выигрыша начала обучать функцию ценности для середины игры, где приходилось принимать сложные решения о взаимодействии с шашками противника. Наконец, после ста тысяч партий, функция ценности научилась разыгрывать дебют, в котором шашки занимают оборону, чтобы помешать продвижению шашек противника. Процесс обучения шел с конца игры, где вознаграждение очевидно, к началу, с использованием неявного вознаграждения, рассчитанного функцией ценности. Таким образом, обратная последовательность функции ценности позволяет слабому обучающему сигналу (такому, как в дофаминовой системе вознаграждения) обучать машину последовательности решений, ведущих к достижению отдаленной цели.

Программа Тезауро, получившая название TD-Gammon, была представлена миру в 1992 году и удивила меня и многих других[470]. Функция ценности использовала несколько сотен смоделированных нейронов — по нынешним меркам это относительно небольшая нейросеть. После ста тысяч партий программа начала выигрывать у Джерри, и он позвонил Биллу Роберти, мастеру игры в нарды из Нью-Йорка, и тот приехал в исследовательский центр IBM, чтобы сыграть с компьютером. Роберти выиграл большинство партий, но был удивлен, проиграв несколько напряженных поединков. Он заявил, что это лучшая программа для игры в нарды из всех, с которыми он имел дело. Некоторые ходы компьютера были необычными, каких он не видел раньше; при тщательном анализе выяснилось, что эта стратегия лучше той, к которой обычно прибегают люди. Роберти вернулся, когда программа сыграла сама с собой миллион партий, и был поражен ничейным исходом серии поединков с TD-Gammon. Возможно, вам покажется, что миллион — это много, но программа ознакомилась лишь с ничтожно малой долей возможных позиций на доске. TD-Gammon приходилось сводить к общим правилам каждую новую позицию почти после каждого хода.

Перейти на страницу:

Похожие книги

12 недель в году
12 недель в году

Многие из нас четко знают, чего хотят. Это отражается в наших планах – как личных, так и планах компаний. Проблема чаще всего заключается не в планировании, а в исполнении запланированного. Для уменьшения разрыва между тем, что мы хотели бы делать, и тем, что мы делаем, авторы предлагают свою концепцию «года, состоящего из 12 недель».Люди и компании мыслят в рамках календарного года. Новый год – важная психологическая отметка, от которой мы привыкли отталкиваться, ставя себе новые цели. Но 12 месяцев – не самый эффективный горизонт планирования: нам кажется, что впереди много времени, и в результате мы откладываем действия на потом. Сохранить мотивацию и действовать решительнее можно, мысля в рамках 12-недельного цикла планирования. Эта система проверена спортсменами мирового уровня и многими компаниями. Она поможет тем, кто хочет быть эффективным во всем, что делает.На русском языке публикуется впервые.

Брайан Моран , Майкл Леннингтон

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература
1991. Хроника войны в Персидском заливе
1991. Хроника войны в Персидском заливе

Книга американского военного историка Ричарда С. Лаури посвящена операции «Буря в пустыне», которую международная военная коалиция блестяще провела против войск Саддама Хусейна в январе – феврале 1991 г. Этот конфликт стал первой большой войной современности, а ее планирование и проведение по сей день является своего рода эталоном масштабных боевых действий эпохи профессиональных западных армий и новейших военных технологий. Опираясь на многочисленные источники, включая рассказы участников событий, автор подробно и вместе с тем живо описывает боевые действия сторон, причем особое внимание он уделяет наземной фазе войны – наступлению коалиционных войск, приведшему к изгнанию иракских оккупантов из Кувейта и поражению армии Саддама Хусейна.Работа Лаури будет интересна не только специалистам, профессионально изучающим историю «Первой войны в Заливе», но и всем любителям, интересующимся вооруженными конфликтами нашего времени.

Ричард С. Лаури

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература / История / Прочая справочная литература / Военная документалистика / Прочая документальная литература
100 способов уложить ребенка спать
100 способов уложить ребенка спать

Благодаря этой книге французские мамы и папы блестяще справляются с проблемой, которая волнует родителей во всем мире, – как без труда уложить ребенка 0–4 лет спать. В книге содержатся 100 простых и действенных советов, как раз и навсегда забыть о вечерних капризах, нежелании засыпать, ночных побудках, неспокойном сне, детских кошмарах и многом другом. Всемирно известный психолог, одна из основоположников французской системы воспитания Анн Бакюс считает, что проблемы гораздо проще предотвратить, чем сражаться с ними потом. Достаточно лишь с младенчества прививать малышу нужные привычки и внимательно относиться к тому, как по мере роста меняется характер его сна.

Анн Бакюс

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература / Детская психология / Образование и наука