Если я пишу: Qt+1 = Qt+1, это означает, что я увеличил Qt на единицу. Эта идея используется в программировании внутри «цикла со счетчиком»: мы увеличиваем Qt на 1 каждый раз, когда проходим цикл. Та же идея применяется и в уравнении вознаграждения. Но вместо прибавления 1 мы изменяем Qt, добавляя два разных слагаемых. Первый компонент – (1 – α)Qt – понижает оценку качества вознаграждения. Например, если мы выберем α = 0,1, на каждом шаге наша оценка будет снижаться на 1–0,1 = 90 % по сравнению с предыдущим уровнем. Это то же уравнение, которое мы сейчас используем, например, для описания того, как автомобиль каждый год падает в цене; далее мы увидим, как оно описывает испарение феромонов и других химических веществ. Второй компонент – αRt – повышает нашу оценку стоимости вознаграждения. Если вознаграждение равно 1, добавляем α к нашей оценке.
Сложив оба компонента, можем увидеть, как работает уравнение в целом. Представьте, что я начинаю работу утром в 9 часов с оценкой Q9 = 1. Иными словами, я на 100 % уверен, что Twitter даст мне вознаграждающий ретвит. Открываю его, но с разочарованием обнаруживаю, что R9 = 0. Нет ретвитов. Нет вознаграждения. И я использую уравнение 8, чтобы изменить мою оценку качества на Q10 = 0,9 ∙ 1 + 0,1 ∙ 0 = 0,9. Теперь я немного меньше уверен, когда открываю Twitter в 10 часов утра, однако на этот раз получаю то, что искал: R10 = 1. Ретвит! Моя оценка качества не возвращается к исходному состоянию, но чуть двигается вверх: Q11 = 0,9 ∙ 0,1 + 0,1 ∙ 1 = 0,91.
В 1951 году математики Герберт Роббинс и Саттон Монро доказали, что уравнение 8 всегда дает верную оценку среднего значения вознаграждения[153]. Чтобы понять этот результат, предположим, что вероятность получения вознаграждения (ретвита) за любой конкретный час равна R–, и пусть R– = 0,6, или 60 %. Перед тем как начать ежечасную проверку Twitter, я понятия не имел о значении R–. Моя цель – оценить значение этой величины по последовательности вознаграждений, которые я получаю после открытия Twitter. Они у нас представлены в виде последовательности из 0 и 1 – 011001011… Если та продолжается бесконечно, средняя частота единиц будет R– = 60 %.
Уравнение 8 быстро начинает отражать вознаграждения: R11 = 0, и поэтому Q12 = 0,919; R12 = 0, и поэтому Q13 = 0,827 и т. д., так что к концу дня мы получаем Q17 = 0,724. Каждое наблюдение приближает меня к истинному значению R–. По этой причине Qt часто называют отслеживающей переменной: она отслеживает значение R–. Рисунок 8 иллюстрирует этот процесс.
Рис. 8. Как отслеживающая переменная отслеживает вознаграждение
Роббинс и Монро показали, что для надежной оценки R– не нужно хранить всю последовательность нулей и единиц. Чтобы получать очередную оценку Qt+1, надо знать текущую оценку Qt и следующее вознаграждение в последовательности Rt. Если я все вычислил правильно вплоть до этого момента, то могу забыть о прошлом и сохранять только отслеживающую переменную.
Есть оговорки. Роббинс и Монро показали, что нам нужно очень медленно уменьшать со временем значение α. Помните, что α (греческая буква) – параметр, которые управляет скоростью забывания. Изначально у нас доверия нет, поэтому нужно уделять много внимания последним величинам, и поэтому α получает значение, близкое к 1. Со временем нам нужно понижать α, так что эта величина стремится к 0. Именно медленное уменьшение гарантирует, что наша оценка сходится к вознаграждению.
* * *Представьте, что вы лежите на диване и вознаграждаете себя просмотром телевизора. На экране какой-то сериал Netflix. Первая серия – отличная (как всегда), вторая – средняя, третья – чуть лучше. Вопрос таков: сколько времени вам следует смотреть, прежде чем бросить сериал? Вашему мозгу это не особо важно, но вас это заботит. Вы хотите смотреть в выходной что-то хорошее.
Решение – использовать уравнение вознаграждения. Для телесериала хорошим значением для нашего показателя снижения доверия будет α = 0,5, или половина. Это очень высокая скорость забывания прошлого, но хорошее шоу должно постоянно дарить новые идеи.
Вот ваши действия. Вы ставите первому эпизоду оценку по 10-балльной шкале – скажем, 9. Итак, Q1 = 9. Если смотрите серии подряд, то держите в голове число 9 и начните следующую серию. Поставьте ей оценку. Предположим, это 6. Теперь имеем Q2 = 9/2 + 6/2 = 7,5. Удобно каждый раз округлять, так что новая оценка будет 8. Смотрим следующий эпизод. Пусть на этот раз мы ставим 7. Берем Q2 = 8/2 + 7/2 = 7,5, снова округляем до 8.