Значение открытий
Подкрепляющее обучение хорошо изучено в лабораторных экспериментах над животными. Обычно животным предлагают нажать на рычаг или на один из нескольких рычагов, после чего им дают вознаграждение в зависимости либо от числа нажатий на рычаг с момента последней награды, либо от времени, которое прошло с момента получения последней награды.
В обоих случаях функция может быть детерминистской или вероятностной. При режиме с постоянным соотношением количества реакций и подкреплений животное получает награду после того, как нажало на рычаг установленное количество раз, тогда как при режиме с вариативным числом подкреплений количество нажатий, необходимых для получения награды, произвольно варьирует.
В обоих случаях каждое нажатие приносит поощрительное очко, которое добавляется к предыдущим. При режиме с постоянным интервалом между подкреплениями нажатие даст награду через определенное время после получения последней награды, тогда как при режиме с вариативным интервалом временной промежуток, по прошествии которого выдается награда, произвольно меняется.
В обоих случаях время выдачи наград не зависит от количества нажатий. Каждый режим подкрепления через некоторое время производит специфический стабильный паттерн поведения, который к тому же исчезает, как только положительный стимул (награду) убирают.
Так, реакции, усвоенные, когда награда следует за каждым нажатием на рычаг (особый случай режима с постоянным соотношением, известный как постоянное подкрепление), исчезают быстрее, чем те, которые были усвоены при режиме с вариативным соотношением. Интуиция подсказывает противоположную идею, поскольку кажется, что постоянное подкрепление порождает более сильную привычку, но, как это иногда бывает, интуиция заблуждается.
Если цель в том, чтобы повлиять на действие, например, в школьном классе, в казино или на рабочем месте, организатор может (более или менее свободно) установить режим вознаграждений, чтобы сформировать желаемое поведение. Так, режим с вариативным интервалом часто используют для воздействия на поведение, например, когда учитель использует политику произвольных викторин. При режиме с вариативным соотношением, который работает для многих азартных игр, легче повлиять на поведение, если первая награда дается рано.
Поскольку менеджеры казино и ипподромов не располагают технологией, которая позволила бы им втягивать новых игроков, предлагая им более высокий выигрыш, им приходится полагаться на так называемое везение новичков. Действия мошенников, однако, часто полагаются на выдачу быстрых наград.
В школьном классе и в казино режимы вознаграждений работают «за спиной» у учеников или игроков, то есть они воздействуют на поведение не эксплицитными стимулами, но скорее как в случае с плачущим ребенком, то есть посредством бессознательного процесса. Наоборот, когда менеджеры платят работникам, если те достигли установленной цели (режим с постоянным соотношением) или ежемесячно (режим с постоянным интервалом), они просто устанавливают систему стимулов. Поскольку поведение работников может быть адекватно объяснено ожиданием вознаграждения, нет нужды обращаться к собственно вознаграждению.
Оставьте комментарий!
Вы должны быть авторизированы чтобы оставлять комментарии.