Читаем Десять уравнений, которые правят миром. И как их можете использовать вы полностью

Десять уравнений, которые правят миром. И как их можете использовать вы

Новый коэффициент учитывает, как муравей выбирает между двумя альтернативными путями. Величину Q_t можно представлять как количество феромона на пути к одному потенциальному источнику пищи, а Q'_t – на пути к другому. Теперь у нас две отслеживающие переменные (Q _t и Q'_t) – по одной для каждого источника или (если мы моделируем использование соцсетей) по одной для каждого приложения в телефоне[161].

Когда сталкиваешься с новым запутанным уравнением с кучей параметров, всегда полезно рассмотреть сначала более простой вариант. Взглянем на новый коэффициент без квадратов:

Если β = 0, это просто доля, которую одна отслеживающая переменная составляет от их суммы. Соответственно, вероятность того, что муравей использует конкретное вознаграждение, пропорциональна доле отслеживающей переменной для него. Теперь посмотрим, что произойдет при β = 100. Поскольку Q_t заключена между 0 и 1, она невелика по сравнению с числом 100, так что вышеуказанная дробь примерно равна 100 / (100 + 100) = 1/2. Вероятность того, что муравей будет использовать определенное вознаграждение, равна 0,5 (или пятьдесят на пятьдесят).

Проблема баланса между разведкой и эксплуатацией превращается в проблему нахождения оптимального уровня подкрепления маршрута. Это то же, что задача нахождения правильного значения β. Если подкрепление сильное (значение β очень мало), муравьи всегда следуют по пути с самым сильным запахом. Очень быстро второй источник забрасывается (насекомые перестают его посещать), и даже если он станет лучше, никто о нем не узнает. В результате муравьи оказываются прикованными к тому источнику, который казался лучше первоначально, даже если потом качество изменилось.

Слишком слабое подкрепление (значение β очень велико) приводит к противоположной беде. В этом случае насекомые выбирают маршруты наугад и не пользуются своими знаниями о том, какой из них лучше.

Ответ на задачу разведки и эксплуатации включает неожиданный поворот. Оказывается, решение дилеммы оптимального подкрепления связано с другим понятием, которое обычно возникает в совершенно другом контексте: критическими точками.

Поясню: критические (переломные) точки – моменты, когда накапливается какая-то критическая масса и система резко переходит из одного состояния в другое: например, мода внезапно распространяется после того, как авторитетные люди стали рекламировать этот бренд, или вспыхивает бунт, когда маленькая группа агитаторов заводит протестующих[162]. В каждом из этих и во многих других примерах подкрепление представлений приводит к внезапным переменам состояния. То же у муравьев – формирование феромонового маршрута происходит при достижении критической точки: путь начинается, когда небольшая группа муравьев решает двигаться к пище одной дорогой.

И вот удивительный вывод: наилучший способ сбалансировать разведку и эксплуатацию – чтобы муравьи оставались в состоянии, близком к критической точке. Если насекомые отойдут от нее, то слишком многие из них будут замкнуты на один источник пищи; они не смогут переключиться, когда появится что-то лучшее. Но если этому источнику будет привержено недостаточно насекомых и ситуация не дойдет до критической точки, то муравьи не смогут сосредоточиться на оптимальной пище. Они должны найти между разведкой и эксплуатацией золотую середину.

Муравьи эволюционировали так, чтобы оставаться в критической точке. Один из моих любимых примеров того, как они добиваются этого равновесия, обнаружила биолог Одри Дюссютур, работавшая с большеголовыми муравьями (этот вид получил свое название за необычно крупную голову). У них много поводов гордиться своей головой: они колонизировали большую часть тропического и субтропического мира, выиграв конкуренцию у других местных видов. Одри выяснила, что они используют два вида феромонов: один испаряется медленно и дает слабое подкрепление, другой же испаряется быстро и дает очень сильное подкрепление[163].

Мы с математиком Стэмом Николисом разработали модель с двумя уравнениями вознаграждения: одно для слабого, но длительно действующего феромона, а другое – для сильного, но короткоживущего. Мы показали, что комбинация этих двух феромонов позволила муравьям оставаться в районе критической точки. В нашей модели муравьи могли отслеживать два разных источника, переключаясь между ними всякий раз, когда качество пищи менялось. Одри подтвердила наши прогнозы экспериментально: когда она меняла качество еды, большеголовые муравьи переключали свои усилия на лучший источник.

Перейти на страницу: