Читаем Десять уравнений, которые правят миром. И как их можете использовать вы полностью

Когда мы изучаем примеры современного ИИ – например, нейронную сеть компании DeepMind, которая стала лучшим в мире игроком в го, или искусственный интеллект, который научился играть в «Космических захватчиков» либо в другие игры для Atari, – мы должны считать их выдающимися достижениями инженерии. Некая группа математиков и программистов собрала воедино все фрагменты. За этим ИИ стоит не какое-то одно уравнение.

Но – и это важно для всего моего проекта по описанию десяти уравнений – компоненты искусственного интеллекта включают девять из них. Так что в финале я попробую объяснить, как DeepMind стала мастером игры, используя ту математику, которую мы уже изучили в этой книге.

Представьте сцену, где в окружении кольца столиков стоит шахматный гроссмейстер. Он подходит к одному столу, изучает позицию и делает ход. Затем переходит к следующему и делает ход там. В конце сеанса оказывается, что он выиграл все партии. Сначала может показаться невероятным, что гроссмейстер отслеживает столько шахматных партий одновременно. Неужели он может помнить, как развивалась игра до данного момента, и решать, что делать дальше? Но потом вы вспоминаете уравнение умений.

Ситуацию в партии можно увидеть непосредственно на доске: защитная структура пешек, качество убежища для короля, насколько хорош для атаки ферзь и т. д. Гроссмейстеру не нужно знать, как шла игра до настоящего момента, достаточно изучить позицию и выбрать следующий ход. Умения шахматиста можно измерить тем, как он берет текущее состояние доски и переводит его в новое, делая какой-то закономерный ход. Это новое состояние уменьшает или увеличивает его шансы на победу в партии? При оценке гроссмейстеров применяется уравнение 4 (марковское предположение).

«Многие игры с полной информацией – например, шахматы, шашки, реверси или го – можно считать марковскими». Такой была первая фраза в разделе «Методы» статьи Дэвида Сильвера и других специалистов Google DeepMind об их программе, ставшей лучшим игроком в го в мире[183]. Это наблюдение упрощает задачу нахождения решения для этих игр, поскольку позволяет сосредоточиться на поиске оптимальной стратегии для текущего состояния на доске, не заботясь о том, что происходило до этого момента.

Мы уже анализировали математику отдельного нейрона в главе 1. Уравнение 1 брало текущие коэффициенты для какого-нибудь футбольного матча и преобразовывало в решение, стоит нам делать ставку или нет. По сути, это упрощенная модель того, что делает отдельный нейрон в вашем мозге. Он получает внешние сигналы – от других нейронов или из внешнего мира – и преобразует их в решение, что ему сделать. Такое упрощающее предположение легло в основу первых моделей нейронных сетей, а уравнение 1 использовалось для моделирования реакции нейронов. Сегодня это одно из двух очень похожих уравнений, которые используются для моделирования нейронов почти во всех сетях[184].

Далее мы обратимся к одному из вариантов уравнения вознаграждения. В уравнении 8 величина Qt была оценкой качества сериала Netflix или вознаграждения, получаемого от проверки аккаунта в Twitter. Вместо того чтобы оценивать один фильм или один аккаунт, сейчас мы просим нашу нейронную сеть оценить 1,7 × 10172 разных состояний в игре го или 10172 сочетаний клипов и пользователей на YouTube. Обозначим Qt(st, at) качество состояния мира st при условии, что мы намереваемся произвести некоторое воздействие at. В игре го состояние st – решетка 19 × 19, где у каждого узла (в го они называются пунктами) есть три возможных состояния: пуст, занят белым камнем или занят черным камнем. Возможные действия at – пункты, куда можно поставить очередной камень. Тогда величина, характеризующая качество – Qt(st, at), – говорит нам, насколько хорош будет ход at в состоянии st. Для YouTube одно состояние – все пользователи в сети и все имеющиеся ролики. Действие – просмотр конкретным пользователем конкретного видеоролика, а качество – насколько долго он его просматривает.

Вознаграждение Rt(st, at) – награда, которую мы получаем за выполнение действия at в состоянии st. В го награда появляется только с концом партии. Мы можем дать 1 за выигрывающий ход, – 1 за проигрывающий и 0 за любой другой. Какое-нибудь состояние может иметь высокое качество, но нулевое вознаграждение: например, если некоторое расположение камней близко к победному.

Когда DeepMind использовала уравнение вознаграждения для игр Atari, она добавляла еще один компонент: будущее. Когда мы производим какое-нибудь действие at (ставим камень в го), то переходим в новое состояние st+1 (на доске занят тот пункт, куда мы сделали ход). Уравнение вознаграждения DeepMind добавляет вознаграждение размером Qt(st+1, a) за наилучшее действие в этом новом состоянии. Это позволяет искусственному интеллекту планировать свои будущие шаги в игре.

Перейти на страницу:

Все книги серии МИФ. Научпоп

Как рождаются эмоции. Революция в понимании мозга и управлении эмоциями
Как рождаются эмоции. Революция в понимании мозга и управлении эмоциями

Как вы думаете, эмоции даны нам от рождения и они не что иное, как реакция на внешний раздражитель? Лиза Барретт, опираясь на современные нейробиологические исследования, открытия социальной психологии, философии и результаты сотен экспериментов, выяснила, что эмоции не запускаются – их создает сам человек. Они не универсальны, как принято думать, а различны для разных культур. Они рождаются как комбинация физических свойств тела, гибкого мозга, среды, в которой находится человек, а также его культуры и воспитания.Эта книга совершает революцию в понимании эмоций, разума и мозга. Вас ждет захватывающее путешествие по удивительным маршрутам, с помощью которых мозг создает вашу эмоциональную жизнь. Вы научитесь по-новому смотреть на эмоции, свои взаимоотношения с людьми и в конечном счете на самих себя.На русском языке публикуется впервые.

Лиза Фельдман Барретт

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература

Похожие книги