Чтобы объяснить модели поведения
Если цель в том, чтобы объяснить модели поведения их реальными последствиями, режимы вознаграждения имеют смысл, только если возникают естественным образом и, более того, настолько непрозрачны, что не создают открытых стимулов. С двумя постоянными режимами такое, похоже, случается нечасто. На поведение моих друзей влияет не то, сколько я им улыбаюсь, а то, насколько последовательны и уместны мои улыбки. В естественных условиях редко встречаются награды, выдаваемые на регулярной основе (как зарплата).
Важнее два вариативных режима. Человек, играющий в «горячо-холодно» (режим с вариативным соотношением) с представителем противоположного (или того же) пола, может вызвать более сильное влечение, чем тот, кто неизменно демонстрирует дружественное поведение. Режим с вариативным интервалом возникает, когда вы хотите до кого-то дозвониться, а линия занята. Вы знаете, что рано или поздно дозвонитесь, но не знаете, когда. В этой ситуации возникает стабильный паттерн повторяемого набора номера, но теория рационального выбора не может дать точного прогноза. Эта теория могла бы предсказать любое число паттернов в зависимости от представлений звонящего о том, как долго может продлиться разговор. Однако представляется маловероятным, чтобы у людей были стабильные убеждения на сей счет.
Паттерн реакций, порождаемый подкреплением, как правило, отличается от паттерна, порождаемого сознательным, рациональным выбором. Предположим, животное должно нажать рычаг, выдающий награды в режиме либо с вариативным соотношением, либо с вариативным интервалом. Рациональный паттерн, максимально увеличивающий общее вознаграждение, состоит в том, чтобы большую часть времени нажимать рычаг с вариативным соотношением, набирая поощрительные очки, и при этом время от времени нажимать на рычаг с вариативным интервалом, чтобы посмотреть, не вышло ли новое вознаграждение. Подкрепляющее обучение, однако, не производит такой паттерн. Вместо этого животные гораздо чаще, чем надо, нажимают на рычаг с вариативным интервалом. Они уравнивают средние награды при нажатии одного или другого рычага, вместо того чтобы, как диктует рациональНОСТЬ, уравнивать предельные (marginal) вознаграждения. При других комбинациях режимов подкрепляющее обучение иногда подражает рациональному выбору, но делает это непоследовательно. Если и есть *ка- кой-то неинтенциональный механизм, способный надежно симулировать рациональность, его нужно искать в другом месте.
Оставьте комментарий!
Вы должны быть авторизированы чтобы оставлять комментарии.