Operante Konditionierung im Hundetraining

Was ist die operante Konditionierung? Wie wirkt sie auf moderne Hundeerziehung?

Von:
Zuletzt aktualisiert am: 19.12.2023

Zwei Bordeaux Doggen mit Hundemantel im Schnee trainieren mit einer blonden Frau.jpg

Die operante Konditionierung ist eine experimentell erwiesene Lerntheorie, die aussagt, dass ein Verhalten von seinen Konseqeuenzen abhängt. Auf dieser Theorie basieren die meisten Trainingsmethoden in der Hundeerziehung. Die operante Konditionierung B. F. Skinners stellt eine Weiterentwicklung der instrumentellen Konditionierung dar. Im Gegensatz zur instrumentellen ist die operante Konditionierung mit ihrem Kontingenzschema, den Verstärkerplänen, der Kontiguität und den verhaltensauslösenden Hinweisreizen sowie den Wechselwirkungen zwischen den genannten sehr umfänglich und wirkt stark auf die modernen Trainingsmethoden.

Der amerikanische Psychologe und Verhaltensforscher Burrhus Frederic Skinner beschäftigte sich fast über sein gesamtes akademisches Leben, beginnend mit seinem Psychologiestudium ab 1928, hinweg mit der Verhaltensforschung. Er war der Begründer des radikalen Behaviorismus, der bewusst auf unbeweisbare Annahmen, beispielsweise zu Instinkten zu inneren Vorgängen verzichtet. Zu Beginn interessierte ihn vor allem die instrumentelle Konditionierung Thorndikes. Kern dieser Lerntheorie sind drei Gesetze, von denen eines besagt, dass ein Organismus nur dann lerne, wenn er dazu bereit sei. Diese Bereitschaft wurde experimentell durch einen wie Freiheitsentzug hergestellt. Ein weiteres besagt, dass die Auswirkung über die Auftretenswahrscheinlichkeit eines Verhaltens bei wiederholtem Auftreten desselben Reizes entscheidet: Beendet das Verhalten den Problemreiz, wird die erneute Anwendung dieses Verhaltens wahrscheinlicher. 

Skinner war nun der Ansicht, dass es keines Problemreizes bedarf, damit ein Lebewesen Verhalten zeigt und es daher des Gesetzes der Bereitschaft nicht bedarf. Vielmehr würde es ständig zufälliges Verhalten zeigen. Dem Gesetz der Auswirkung widmete Skinner hingegen viel Aufmerksamkeit, da er der Überzeugung war, dass die Folgen eines Verhaltens tatsächlich über die künftige Auftretenswahrscheinlichkeit dieses Verhaltens entscheiden würde. Skinner ging also zunächst von einer Reaktion-Reiz-Kopplung aus, während die instrumentelle Konditionierung von einer (Problem)Reiz-Reaktion-Reiz-Kopplung ausging. Operant bedeutet im Zusammenhang mit Skinners Konditionierung, dass ein Lebewesen in der Umwelt mit seinem Verhalten „operiert“, das Verhalten aber kein „Instrument“ darstellt, ein spezielles Ziel zu erreichen, obwohl die Umwelt jedes Verhalten mit Konsequenzen versieht.  

Um seine Thesen experimentell überprüfen zu können, entwickelte er die nach ihm benannte und heute noch in der Verhaltensforschung verwendete Skinner Box. Sie kann jeweils an die Erfordernisse einzelner Experimente angepasst werden. So können Versuchstiere in der Box verschiedene Verhaltensweisen zeigen. Die Box misst und dokumentiert nun ein spezielles Verhalten im Zeitverlauf, beispielsweise das Drücken eines Hebels, und lässt diesem Verhalten einen Reiz als Verhaltenskonsequenz folgen. Im ersten Teil unserer dreiteiligen Artikelserie über die wissenschaftlichen Grundlagen und deren praktische Anwendung in den modernen Trainingsmethoden sind die verschiedenen Konfigurationen und Versuche Skinners detailliert dargestellt.

Skinner teilt nun die einem Verhalten folgenden Reize, also die Auswirkung eines Verhaltens, nach zwei Aspekten mit den insgesamt vier Kombinationen des Kontingenzschemas ein. Ein solcher Reiz kann entweder als angenehm, z. B. die Verfügbarkeit von Futter, oder als unangenehm, z. B. der Schmerz eines Stromstoßes, empfunden werden. Außerdem kann ein solcher Reiz entweder in Folge des Verhaltens beginnen (positiv) oder enden (negativ). Aus dieser experimentell belegten Überlegung ergeben sich die vier Felder des Kontingenzschemas, bestehend aus

  1. Positive Verstärkung (angenehmer Reiz startet)
  2. Negative Verstärkung (unangenehmer Reiz endet)
  3. Positive Strafe (unangenehmer Reiz startet)
  4. Negative Strafe (angenehmer Reiz endet)

Die ersten beiden verstärken ein Verhalten, werden also die Auftretenswahrscheinlichkeit erhöhen und können somit Verhalten aufbauen. Die letzten beiden bestrafen Verhalten und lassen die Auftretenswahrscheinlichkeit sinken. Beispielhafte Reaktions-Reiz-Kopplungen aus dem Hundealltag könnten folgende sein:

  1. Positive Verstärkung: Hund setzt sich und bekommt dafür ein Stück Futter
  2. Negative Verstärkung: Hund gibt Pfötchen und es wird ihm ein schmerzhafter Dorn aus der Pfote gezogen
  3. Positive Strafe: Hund frisst Mittagessen des Halters, der "klappst" ihn mit der Zeitgung (verursacht mehr Schreck und Schmerz) und schubst ihn auf grobe Art vom Teller weg (ggf. Schmerz). Oder der Jagdhund greift einen Wildschweinkeiler an und wird von dem sich verteidigenden Schwein schmerzhaft verletzt.
  4. Negative Strafe: Hund und Halter spielen, Hund zwickt Mensch in die Hand, Mensch entzieht ihm Aufmerksamkeit und beendet sofort das Spiel (Spaß endet)

Alle vier Varianten treten im natürlichen, nicht durch einen Trainer gesteuerten Lernprozess eines Lebewesens in einer reaktiven Umwelt auf. Ihre Anwendbarkeit im Rahmen eines auf Verhaltensaufbau und damit die Steigerung der Auftretenswahrscheinlichkeit eines Verhaltens zielenden Trainingsprogramms in der Hundeerziehung ist aber einzeln zu bewerten.

Vor diesem Hintergrund kommt die Anwendung von Strafen zunächst nicht in Betracht, da sie kein Verhalten auf- sondern bestenfalls abbauen. Hinzu kommt, dass mit der positiven Strafe Risiken einhergehen, die in diesem Abschnitt des ersten Teils unserer dreiteiligen Artikelserie über die wissenschaftlichen Grundlagen der modernen Trainingsmethoden ausführlich beschriebenen sind. In diesem Abschnitt des zweiten Teils werden diverse Möglichkeiten, wie mit unerwünschtem Verhalten umgegangen werden kann, dargelegt.

Die negative Verstärkung erinnert an das Set-Up der instrumentellen Konditionierung, die Verhalten als Instrument zur Lösung eines Problems wahrnimmt. Sie eignet sich nicht für ein planvolles Hundetraining, da sie ausschließlich Flucht- und Vermeidungsverhalten erzeugt und voraussetzt, dass bewusst, vorsätzlich und planvoll während des Trainings ein dauerhafter, unangenehmer Reiz erzeugt wird, um ihn nach Wohlverhalten beenden zu können. Solches ist nicht zuletzt aus tierschutzrechtlichen Gründen undenkbar.

Die positive Verstärkung bildet den Ausgangspunkt von Skinners Forschung und wird heute teilweise auch positive Bestärkung oder Konditionierung genannt. Sie bildet die Basis modernen Hundetrainings, da im Grunde mit der Gabe von Belohnungen gewünschtes Verhalten aufgebaut wird. Ziel der modernen Hundeerziehung ist es, über den Abruf eines solchen Verhaltens, das in dem Fall gerne „Alternativverhalten“ genannt wird, auch Fehlverhalten zu verhindern oder zu unterbrechen, was eine Bestrafung überflüssig machen würde.

Nun erweiterte Skinner sein Reaktion-Reiz-Modell um den diskriminativen Stimulus. Hierbei handelt es sich um einen Reiz, der darauf hinweist, dass ein bestimmtes Verhalten nun eine bestimmte Folge haben wird. Damit wird das Modell zu einem Reiz-Reaktion-Reiz-Modell erweitert, das für alle vier Möglichkeiten des Kontingenzschemas gilt, wobei die Auswirkungen jeweils anders sind. Der Anblick einer Radarfalle ist beispielsweise ein Hinweisreiz, dass eine Geschwindigkeitsübertretung nun von einer negativen Strafe (dem Entzug des Führerscheins) gefolgt sein wird.

Skinner erforschte den Hinweisreiz für die positive Verstärkung, indem er seine Skinner Box um eine Lampe erweiterte. Nur, wenn ein ebenfalls in der Box befindlicher Schalter von einer Taube bepickt wurde, während das Licht an war, gab der mit Licht und Schalter verbundene Futterspender Futter frei. Die Tiere lernten schnell, dass sich das Verhalten nur dann lohnte, wenn die Lampe brannte. Somit wurde das Verhalten unter Signalkontrolle gestellt. Allerdings dienen einem Hund nicht nur unsere Kommandos als Hinweisreize, sondern die Umwelt wartet ständig mit vielen Reizen auf. Wie damit umgegangen werden kann, zeigt dieser Abschnitt des zweiten Teils unserer dreiteiligen Reihe über die wissenschaftlichen Grundlagen und deren praktische Anwendung in den modernen Trainingsmethoden.

Skinner erforschte auch, was passiert, wenn ein durch positive Verstärkung aufgebautes Verhalten nicht mehr verstärkt wird. Er stellte fest, dass es immer seltener gezeigt wird. Diesen Effekt nennt man Extinktion oder Löschung. In diesem Zusammenhang spielen Verstärkerpläne eine Rolle. Ein Verstärkerplan definiert die Regeln, wann einem Verhalten ein Verstärker folgt. Wobei die Faustregel gilt, dass eine Reiz-Reaktion-Reiz-Kopplung schneller entsteht, also gelernt wird, wenn das gewünschte Verhalten jedes Mal belohnend verstärkt wird. Es wird dann aber auch besonders schnell wieder gelöscht, wenn keine Verstärkung mehr erfolgt. Hingegen wird ein Verhalten sehr löschungsresistent, wenn die Verstärkung nur sehr selten erfolgt – allerdings um den Preis, dass die Lernphase länger dauert. Der Begriff Verstärker- oder Bestrafungsplan wird synonym für alle vier Konsequenzen aus dem Kontingenzschema Anwendung, auch für Strafen. Allerdings gilt der o. a. Zusammenhang zwischen Verstärkerplan und Löschungsresistenz nur für die positive Verstärkung.

Ebenfalls Teil der Forschung Skinners zur operanten Konditionierung ist die Frage der zeitlichen Nähe von Reaktion und Reiz. Der Fachbegriff hierfür ist Kontiguität und in ihr liegt der Grund, warum wir weniger als eine Sekunde Zeit haben, von uns gewünschtes Verhalten zu verstärken.

In der operanten Konditionierung Skinners ist ein Verstärker ausschließlich durch seine Wirkung auf das Verhalten bestimmt: Wird ein Reiz in Folge eines Verhaltens verabreicht und steigt dadurch die Auftrittswahrscheinlichkeit des Verhaltens, war der Reiz ein angenehmer und dient als Verstärker. In diesem Abschnitt des zweiten Teils der o. a. Artikelserie versuchen wir zu beschreiben, welche Möglichkeiten wir haben, schon vor dem Training eingrenzen zu können, was als belohnender Verhaltensverstärker dienen kann, auch vor dem Hintergrund der kurzen Zeit, die uns zur Verfügung steht, bis das gezeigte Verhalten verstärkt sein muss.

Das Modell der operanten Konditionierung erklärt aber nicht den Vorgang der Prägung.

Hat dir der Inhalt gefallen? Dann teile ihn doch auch mit anderen:

VGWort Zählpixel