Q-обучение (Q-learning) – метод, применяемый в искусственном интеллекте при агентном подходе. Относится к экспериментам вида обучение с подкреплением. На основе получаемого от среды вознаграждения агент формирует функцию полезности Q, что впоследствии дает ему возможность уже не случайно выбирать стратегию поведения, а учитывать опыт предыдущего взаимодействия со средой. Одно из преимуществ Q-обучения – то, что оно в состоянии сравнить ожидаемую полезность доступных действий, не формируя модели окружающей среды.
Обучение с подкреплением – одна из трех основных парадигм машинного обучения, наряду с обучением с учителем и обучением без учителя.
Обучение с подкреплением (англ. reinforcement learning) – один из способов машинного обучения, в ходе которого испытуемая система (агент) обучается, взаимодействуя с некоторой средой. С точки зрения кибернетики, является одним из видов кибернетического эксперимента. Откликом среды (а не специальной системы управления подкреплением, как это происходит в обучении с учителем) на принятые решения являются сигналы подкрепления, поэтому такое обучение является частным случаем обучения с учителем, но учителем является среда или ее модель.
ИР и человек: две морали
Человеку свойственно считать себя и свой мир эталоном, критерием всего и вся. Раньше это проявлялось в убеждении, что весь мир вертится вокруг нашей планеты, потом в антпропоморфизме, где человеческий образ и его свойства переносились на разные одушевлённые и не очень предметы, природные явления и абстрактные понятия. Далее появился углеродный шовинизм, утверждающий, что жизнь возможна только в водно-углеродной форме ввиду исключительных химических и термодинамических свойств углерода. Последняя теория в том же ряду: антропный принцип, утверждающий, что «Мы видим Вселенную такой, потому что только в такой Вселенной мог возникнуть наблюдатель, человек». То есть не человек такой, потому-что Вселенная такая, а Вселенная такая, потому что человек такой.
Свойства человека быть всему голова, хорошо описал Элиезер Юдковский в своей работе «Искусственный интеллект как позитивный и негативный фактор глобального риска»: