Читаем Десять уравнений, которые правят миром. И как их можете использовать вы полностью

Каждый нейрон кодирует определенные аспекты того, как сеть реагирует на входные данные. В «Воронке» нейроны фиксируют взаимосвязи между разными элементами контента и каналов YouTube. Например, люди, которые смотрят правого комментатора Бена Шапиро, также склонны смотреть и видео Джордана Питерсона. Я знаю это, потому что после завершения своего исследования для главы 3 об уравнении уверенности YouTube с маниакальным упорством подсовывает мне ролики Шапиро. Где-то внутри «Воронки» есть нейрон, который представляет связь между этими двумя иконками «Темной сети интеллектуалов». Когда он получает входной сигнал, что я заинтересовался роликом Питерсона, то дает на выходе вывод, что меня могут интересовать и ролики Шапиро.

Мы можем понять, как «обучаются» искусственные нейроны, узнав, как формируются связи внутри сети. Нейроны кодируют отношения в виде параметров – регулируемых величин, которые измеряют прочность отношений. Рассмотрим нейрон, отвечающий за определение того, сколько пользователей будут тратить время на просмотр выступления Бена Шапиро. Внутри этого нейрона имеется параметр θ, который соотносит время, потраченное на видео Шапиро, с количеством просмотренных роликов с Джорданом Питерсоном. Например, мы можем спрогнозировать, что количество минут, которое пользователь тратит на видео Шапиро (обозначим его yθ), равно θ, умноженному на количество просмотренных роликов Питерсона. Скажем, если θ = 0,2, то прогнозируется, что человек, просмотревший десять роликов Питерсона, потратит yθ = 0,2 ∙ 10 = 2 минуты на видео Шапиро. Если θ = 2, то прогнозируется, что тот же человек потратит yθ = 2 ∙ 10 = 20 минут на Шапиро, и т. д. Процесс обучения включает корректировку параметра θ для улучшения прогнозов для времени просмотра.

Предположим, первоначальное значение нейрона θ = 0,2. Здесь появляюсь я, который видел 10 выступлений Питерсона и трачу на просмотр Шапиро y = 5 минут. Квадрат разности между прогнозом (yθ) и реальностью (y) составляет:

(y – yθ)2 = (5–2)= 32 = 9.

Мы уже видели идею квадрата разности – в главе 3, когда измеряли стандартное отклонение. Вычислив (y – yθ)2, получаем меру того, насколько хороши (или плохи) прогнозы нейронной сети. Расхождение между прогнозом и реальностью равно 9, так что, похоже, предсказание не особо хорошее.

Чтобы чему-то научиться, искусственный нейрон должен знать, что он делал неправильно, когда прогнозировал, что я буду смотреть только две минуты. Поскольку прочностью связи между количеством видеороликов Питерсона и типичным временем, которое пользователь тратит на просмотр Шапиро, управляет параметр θ, его увеличение также увеличит и предсказанное время yθ. Поэтому, например, если мы возьмем для θ небольшое увеличение dθ = 0,1, то получим yθ+dθ = (θ + dθ) ∙ 10 = (0,2 + 0,1) ∙ 10 = 3 минуты. Такой прогноз будет ближе к реальности:

(y – yθ+dθ)2 = (5–3)2 = 22 = 4.

Именно это улучшение и использует уравнение 9 – уравнение обучения[171].

Это выражение говорит, что мы рассматриваем, как маленькое изменение dθ увеличивает или уменьшает квадрат расстояния (y – yθ+dθ)2. Конкретно в нашем примере получаем:

Поскольку эта величина положительна, увеличение θ улучшает качество прогноза – и расстояние между ним и реальностью уменьшается.

Математическая величина, задаваемая уравнением 9, известна как производная по θ или градиент[172]. Она измеряет, приближает или отдаляет ли нас изменение θ от хорошего прогноза. Процесс медленной корректировки θ на основании производной часто называют градиентным подъемом[173], что вызывает в мозге образ человека, движущегося по крутому уклону холма. Следуя по градиенту, мы можем медленно улучшать точность искусственного нейрона (см. рис. 9).

Рис. 9. Как обучается нейронная сеть

«Воронка» работает не только с одним нейроном, а сразу со всеми. Первоначально все параметры принимают случайные значения, и нейронная сеть делает очень плохие прогнозы о времени, которое люди потратят на просмотр видео. Затем инженеры начинают подавать на входные нейроны (широкий конец «Воронки») данные о просмотре роликов пользователями YouTube. Небольшое число выходных нейронов (узкий конец «Воронки») измеряет, насколько хорошо нейронная сеть предсказывает продолжительность просмотра роликов. Сначала ошибки в прогнозах очень велики. При применении метода обратного распространения ошибки отклонения, измеренные на узком конце, передаются обратно по слоям «Воронки». Каждый нейрон измеряет градиент и улучшает параметры. Медленно, но верно нейроны поднимаются по градиенту, и прогнозы постепенно улучшаются. Чем больше данных от пользователя YouTube подается в сеть, тем лучше будет прогноз.

Перейти на страницу:

Все книги серии МИФ. Научпоп

Как рождаются эмоции. Революция в понимании мозга и управлении эмоциями
Как рождаются эмоции. Революция в понимании мозга и управлении эмоциями

Как вы думаете, эмоции даны нам от рождения и они не что иное, как реакция на внешний раздражитель? Лиза Барретт, опираясь на современные нейробиологические исследования, открытия социальной психологии, философии и результаты сотен экспериментов, выяснила, что эмоции не запускаются – их создает сам человек. Они не универсальны, как принято думать, а различны для разных культур. Они рождаются как комбинация физических свойств тела, гибкого мозга, среды, в которой находится человек, а также его культуры и воспитания.Эта книга совершает революцию в понимании эмоций, разума и мозга. Вас ждет захватывающее путешествие по удивительным маршрутам, с помощью которых мозг создает вашу эмоциональную жизнь. Вы научитесь по-новому смотреть на эмоции, свои взаимоотношения с людьми и в конечном счете на самих себя.На русском языке публикуется впервые.

Лиза Фельдман Барретт

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература

Похожие книги