Verstärkerpläne in der Hundeerziehung

Was sind Verstärkerpläne in der Natur und im Hundetraining?

Von:
Zuletzt aktualisiert am: 21.12.2023

Jagdhund bekommt ein Leckerchen.jpg
Synonyme
  • Belohnungspläne
  • fixe Intervallpläne
  • Fixe Quotenpläne
  • Intervall-Verstärkerpläne
  • Intervallbelohnungsplan
  • Intervallpläne
  • Quoten-Verstärkerpläne
  • Quotenbelohnungsplan
  • Quotenpläne
  • variable Intervallpläne
  • Variable Quotenpläne
  • Wiederholungsbasierte Belohnungspläne
  • Wiederholungsbasierte Verstärkerpläne
  • Zeitbasierte Verstärkerpläne

Ein Verstärker- oder Belohnungsplan beschreibt die Regel, nach welcher ein Verhalten verstärkt oder belohnt wird. Verstärkerpläne spielen bei der positiven Verstärkung im Rahmen der operanten Konditionierung in der Natur und im Training eine Rolle. Sie wurden von B. F. Skinner erforscht.

Zu Beginn seiner Karriere forschte Skinner zur positiven Verstärkung, die nicht mit Prägung verwechselt werden darf. Hierzu entwickelte er die sogenannte Skinner-Box, welche es ihm ermöglichte, Versuchstieren kleine Futtermengen für ein bestimmtes Verhalten zu verabreichen. Konkret sollten Tauben auf einen Schalter picken. Das taten die Tiere hin und wieder zufällig. Skinner maß zunächst die Baseline des Verhaltens: Also die Anzahl von Picks auf den Schalter pro Stunde. Dieses Vorgehen machte Annahmen über Instinkte und weitere innere Vorgänge weitgehend überflüssig.

Dann verdrahtete er den Schalter mit einem Futterspender, sodass das Picken auf den Schalter umgehend den automatischen Futterspender auslöste. Nun maß er, dass die Anzahl der Picks pro Stunde auf den Schalter zunahm. Diese Phase nannte er Akquise. Das, was in der Akquisephase vor sich geht, beschrieb er als Kopplung eines Verhaltens (Picken auf den Schalter) mit dem angenehmen Reiz, der von dem Futter ausgeht. Die Kopplung eines Verhaltens und eines als Verhaltenskonsequenz auftretenden angenehmen Reizes nannte er „positive Verstärkung“. Hierbei stellt der angenehme Reiz, der vom Futter ausgeht, den Verhaltensverstärker dar. Dieser sorgt dafür, dass das Verhalten sich lohnt und künftig häufiger gezeigt wird.

Der Ansatz der positiven Verstärkung erklärt, wie ein Lebewesen lernt und Verhalten in der Natur entsteht: Verhaltensweisen mit einer als positiv und angenehm empfundenen Folge wird häufiger gezeigt. Außerdem ermöglicht sie demjenigen, der über die Folgen eines Verhaltens bestimmen kann, dieses zu formen: Lehrer und vor allem Hundetrainer können hierüber das Verhalten ihrer Zöglinge mit modernen Trainingsmethoden formen.

Im bisherigen Experiment wurde immer, wenn auf den Schalter gepickt wurde, der Futterautomat ausgelöst und somit das Picken auf den Schalter immer verstärkt. Allerdings ist es in der Natur selten so, dass ein Verhalten immer zum Erfolg und somit immer zu einer verhaltensverstärkenden Belohnung führt, vielmehr erfolgen Verhaltensverstärkungen eher unregelmäßig. 

Aus diesen Gründen untersuchte Skinner im weiteren Verlauf seiner Experimente, was passiert, wenn dem Verhalten, das bisher jedes Mal verstärkt wurde, plötzlich kein Verhaltensverstärker mehr folgt. Er stellte fest, dass das Verhalten dann schnell seltener gezeigt wird, es wird gelöscht

Das ist für alle belohnenden Lehrer und Hundetrainer ein schlechtes Zwischenergebnis: Schließlich sollte das Training eines Hundes nicht dazu führen, dass er nur dann hört, wenn er beispielsweise mit einem Leckerchen belohnt wird. Dieser Umstand ließ Skinner über verschiedene Regeln nachdenken, nach denen eine verhaltensverstärkende Belohnung gegeben werden kann und nannte diese Regeln „Verstärkerpläne“ und führte zu deren Wirkweisen die in diesem Abschnitt des ersten Teils unserer dreiteiligen Artikelserie über die wissenschaftliche Entwicklung der Lerntheorien und ihre praktische Anwendung im modernen Hundetraining beschriebene umfangreiche Experimente durch.

Der Verstärkungsplan „Immerverstärkung“

Wird jedes Mal, wenn ein gewünschtes Verhalten gezeigt wird, auch eine verhaltensverstärkende Belohnung gereicht, entspricht das der Immerverstärkung. In Skinners Systematik entspricht die Immerverstärkung einem fixen Quotenplan, bei dem die Quote 1 beträgt.

Dieser Verstärkerplan weist den Vorteil auf, dass die Kontingenz hierdurch maximiert wird und daher das Muster aus einem bestimmten Verhalten und der dazugehörigen verhaltensverstärkenden Belohnung relativ leicht erkennbar ist. Kann der Lernende oder der zu trainierende Hund diesen Zusammenhang leicht erkennen, kann er in Folge auch schneller die Kopplung zwischen beidem herstellen. Auf diese Weise steigt die Lerngeschwindigkeit

Allerdings konnte Skinner experimentell beweisen, dass eine mit diesem Verstärkerplan entstandene Kopplung mit derselben Geschwindigkeit wieder gelöscht wird, wenn die verhaltensverstärkende Belohnung nicht mehr gegeben wird.

Wiederholungsbasierte Verstärkerpläne – Quotenpläne

Auf Quoten basierende Verstärkerpläne knüpfen die verhaltensverstärkende Belohnung daran, dass das zu verstärkende Verhalten vor der nächsten Belohnung in einer vorher festgelegten Menge wiederholt wird. Insofern ist die Immerverstärkung ebenfalls ein Quotenplan. Da bei dem die Anzahl der Wiederholungen vor der Gabe einer verhaltensverstärkenden Belohnung 1 beträgt, handelt es sich um einen Quotenplan mit der Quote 1 und damit um den niedrigsten denkbaren Quotenplan. Es können alle Quoten von 2 bis unendlich festgelegt werden.

Die experimentelle Forschung zu Verstärkerplänen ergab, dass mit steigender Quote die Lerngeschwindigkeit abnimmt und in demselben Maß die Löschungsresistenz des auf diese Weise konditionierten Verhaltens zunimmt: Das Verhalten wird auch dann noch lange gezeigt, wenn keine Verstärkung mehr erfolgt.

Fixe und variable Quotenpläne

Ist die Anzahl der Wiederholungen eines Verhaltens zwischen zwei belohnenden Verhaltensverstärker immer gleich hoch, spricht man von einem fixen oder festen Quotenplan. Allerdings hat sich im Experiment gezeigt, dass die Berechenbarkeit, die mit der hier vorliegenden Regelmäßigkeit einhergeht, zu einer sogenannten Nachverstärkerpause führt. Diese führt dazu, dass nach der Verabreichung eines belohnenden Verstärkers das belohnte Verhalten für einige Zeit nicht mehr gezeigt wird. Bezogen auf ein Hundetraining würde dies bedeuten, dass nach einem belohnten „Sitz“ der Hund das Signal für das nächste Sitz einige Male nicht umsetzen würde.

Dem gegenüber stehen die variablen Quotenpläne, bei denen eine durchschnittliche Anzahl an Wiederholungen des Verhaltens festgelegt wird. Das führt dazu, dass bei einem variablen Quotenplan mit der Durchschnittsquote von 2 Wiederholungen zwischen den Belohnungen auf 10 Verhaltenswiederholungen 5 Verstärkungen kämen. In einem praxisfernen Beispiel, das nur der Verdeutlichung dient, könnte das bedeuten, dass die ersten 5 Wiederholungen alle und keine der letzten 5 Wiederholungen belohnt würden. Da der Belohnte, egal ob Hund oder Mensch, hier kein klares Belohnungsmuster erkennen kann und somit nicht weiß, ob die nächste Verhaltenswiederholung nach einem belohnten Verhalten erneut verstärkt wird, entsteht hier keine Nachverstärkerpause. 

Skinner erklärte unzählige Male, dass jedes Glücksspiel nach einem variablen Quotenplan das Verhalten „Glücksspiel spielen“ verstärkt und dabei derart löschungsresistentes Verhalten ohne Verstärkerpause (das Casino nach einem Gewinn verlassen) schaffen kann, dass es im Extremfall der Spielsucht schon als krankhaft bezeichnet werden kann. 

Variable Quotenpläne werden häufig unbewusst und mit ungünstigem Ergebnis angewendet, wenn „Unarten“ aberzogen werden sollen. Bettelt ein Hund beispielsweise am Tisch und bekommt unregelmäßig, aber im Schnitt nach 100 Bettelversuchen etwas vom Tisch, führt diese gelegentliche Inkonsequenz zu einem Verstärkerplan, der das Verhalten „Betteln am Tisch“ noch löschungsresistenter macht.

Zeitbasierte Verstärkerpläne - Intervallpläne

Bei Intervallplänen stellen nicht Wiederholungen eines Verhaltens, sondern Zeitpunkte, zu denen das Verhalten gezeigt wird, die Basis für die Belohnung. Auch hier wird nach fixen und variablen Intervallplänen unterschieden. Im Hundetraining spielen sie eine untergeordnete Rolle, weshalb sie hier auch nicht eingehend erklärt werden. Als Beispiel eines Intervallplanes kann der Gang zum Briefkasten dienen, der nur einmal am Tag, sinnvoll ist: Der mehr oder weniger angenehmen Reiz, Post in der Hand zu halten, wird höchstens einmal am Tag zur Verfügung stehen, nämlich nachdem der Postbote da war. Entsprechend wird stündliches zum Briefkasten gehen von uns selten gezeigt, da klar ist, dass es mindestens ca. 24 Stunden dauern wird, bis der Postbote wiederkommt. Handelt es sich bei dem Briefkasten um den eines großen Unternehmens, das täglich Briefe erhält, käme das einem fixen Intervallplan mit einem Intervall von 24 Stunden gleich. Privatpersonen, die eher unregelmäßig Post bekommen, unterliegen einem variablen Intervallplan: Wenn der Postbote an insgesamt 10 Tagen im Monat Post hat, diese Tage aber unregelmäßig verteilt sind und gerade am Monatsanfang und -ende viele Rechnungen anstehen und der Postbote fast täglich, in der Monatsmitte aber seltener kommt, läge ein variables Intervall von 30 Kalendertagen durch 10 Postlieferungen = 3 Tage vor.  

„Ausschleichen“ der Belohnung oder die Kombination der Vorteile zweier Verstärkerpläne

Schon Skinner gab den Tipp für die schnelle Konditionierung eines trotzdem löschungsresistenten Verhaltens zwei verschiedene Arten von Verstärkerplänen zu nutzen, um jeweils deren Vorteile zu nutzen. 

In der Phase, in der der Zusammenhang zwischen einem bestimmten Verhalten und der belohnenden Verstärkung erkannt und verknüpft werden soll, bietet sich die Immerverstärkung an: Jedes Mal, wenn das gewünschte Verhalten gezeigt wird, wird auch eine Belohnung gegeben. 

Um die Löschungsresistenz zu erreichen, rät er zu variablen Quotenplänen, bei denen es keine Nachverstärkerpausen gibt. Hierbei ist darauf zu achten, dass zunächst sehr niedrige Quoten verwendet werden: z. B. über einige Trainingseinheiten nur jedes zweite Sitz/Platz etc. zu belohnen um nach einigen Trainingseinheiten die variable Quote erst auf drei und dann langsam auf immer höhere durchschnittlich für eine Belohnung zu zeigende Wiederholungen zu steigern. Alltagssprachlich wird hierbei gerne vom „Ausschleichen“ der Belohnung gesprochen. Allerdings ist das insofern nicht ganz korrekt, als der Begriff „Ausschleichen“ suggeriert, dass am Ende des Ausschleichens nie wieder belohnt werden muss. Das stimmt so nicht, denn dann könnte trotzt allem eine Löschung des Verhaltens erfolgen. Was tatsächlich passiert ist, dass die Belohnung für ein Wohlverhalten nur noch sehr, sehr selten und dabei sehr unregelmäßig gewährt wird.

Konkrete Anwendungsbeispiele zeigen wir sowohl im zweiten als auch im dritten Teil der o. a. Artikelserie.

Hat dir der Inhalt gefallen? Dann teile ihn doch auch mit anderen:

VGWort Zählpixel