Die Belohnung von Hunden

Wie werden Belohnungen im Hundetraining verhaltensverstärkend eingesetzt?

Von:
Zuletzt aktualisiert am: 27.10.2023

Yorkshire Terrier loben Leckerli.jpg
Synonyme
  • Behavioral Bliss Point
  • Premack-Prinzip
  • Primärverstärker
  • Sekundärverstärker
  • Verhaltensverstärker

Mit richtig eingesetzten belohnenden Verhaltensverstärkern können Hunde operant konditioniert und trainiert werden. Welche Reize primär, welche sekundär verstärken und ob es belohnende Verhaltensweisen gibt, erforschten und definierten Lerntheoretiker, was zu einer Vielzahl möglicher Belohnungsformen und Erkenntnisse zur erfolgreichen Anwendung im Hundetraining führte. Über diese Erkenntnisse wird hier ein Überblick gegeben.

Die Belohnung in der operanten Konditionierung heißt Verhaltensverstärkung

Der in der Umgangssprache gängige Begriff der Belohnung wurde wissenschaftlich unter anderem von B. F. Skinner im Rahmen seiner wissenschaftlichen Arbeit zur operanten Konditionierung, wie hier detailliert beschrieben, experimentell erforscht. Sein Ansatz ist von der Prägung zu unterscheiden. Im Ergebnis seiner Versuche verstand er den Vorgang des Lernens als die Bildung von Kopplungen aus Hinweisreiz, Reaktion und Konsequenz. Hierbei wirkt sich die Konsequenz auf die künftige Auftretenswahrscheinlichkeit der Reaktion aus, was Annahmen über Instinkte und andere innerer Vorgänge weitgehend überflüssig macht. 

Nach Skinners Ansicht besteht die Konsequenz aus einem Reiz. Ein solcher Konsequenzreiz kann einerseits als angenehm oder unangenehm empfunden werden.  Andererseits kann er in Folge des gezeigten Verhaltens beginnen oder enden. Hieraus ergeben sich vier mögliche Konsequenzen, die er im Kontingenzschema darstellte.  Zwei der möglichen Konsequenzen haben strafende Wirkung und senken somit die Auftretenswahrscheinlichkeit des Verhaltens, zwei wirken verhaltensverstärkend und damit belohnend: 

1. Beginnt als Konsequenz des Verhaltens ein angenehmer Reiz, handelt es sich um positive Verstärkung.

2. Endet hingegen ein unangenehmer Reiz als Folge eines Verhaltens, handelt es sich um negative Verstärkung.

Die Adjektive „positiv“ und „negativ“ haben eine eher mathematische Bedeutung und zeigen an, ob ein Reiz endet und damit negativ ist oder beginnt und somit positiv ist. 

Da die negative Verstärkung voraussetzt, dass dem Schüler oder dem zu trainierenden Hund kontinuierlich ein unangenehmer Reiz verabreicht wird, den der Lehrer oder Trainer in Folge eines Wohlverhaltens enden lassen kann, eignet sich diese Methode nicht für ein Training. Aus diesem Grund werden Hunde vorwiegend mit der positiven Verstärkung trainiert und für das richtige Verhalten belohnt. Die positive Verstärkung entspricht dem, was im Allgemeinen unter „Belohnung geben“ verstanden wird, wobei wissenschaftlich zunächst offen war, was genau die Belohnung ausmacht und in welchem Zeitraum nach dem Verhalten sie geben werden muss.

Die Theorie der positiven Konditionierung stellt den Lernvorgang als die Bildung einer Kopplung eines Hinweisreizes (unser Signal „Sitz“ oder der Anblick von Wild) mit einem bestimmten Verhalten (sich hinsetzen, das Wild jagen) und einer bestimmten Konsequenz (Leckerchen bekommen, Wild fangen) dar. Unabhängig davon, welcher Art der Hinweisreiz, das Verhalten oder die Konsequenz sind, stellen die zentrale Herausforderung für den Lernenden, in unserem Falle also für den Hund, folgende dar:

1. In einer an Reizen reichen Umwelt den speziellen Reiz herauszufiltern, der ein von uns bewusst gegebener Befehl und Hinweisreiz ist.

2. In einer Flut ständig gezeigter Verhaltensvarianten dasjenige Verhalten zu erkennen, das mit dem Hinweisreiz und der Konsequenz verbunden ist.

Großen Einfluss auf die Verringerung dieser Herausforderungen haben die folgenden beiden Kriterien, da sie das Muster aus Hinweisreiz/Signal, Verhalten und verstärkender Belohnung besonders deutlich und damit erkennbar machen, was die Grundvoraussetzung für die Kopplung ist.

Zeitpunktgenaue Belohnung erhöht die Lerngeschwindigkeit

Wie die Forschung zur Kontiguität zeigt, ist in diesem Zusammenhang die Vermeidung zeitlicher Verzögerungen zwischen Verhalten und Belohnung besonders wesentlich: Die Belohnung muss innerhalb einer Sekunde erfolgen, damit das Tier den Zusammenhang noch herstellen kann und vor allem, bevor der Hund ein anderes Verhalten als das zu belohnende zeigt. 

Immer-Belohnung erhöht die Lerngeschwindigkeit

Auch hat sich herausgestellt, dass das Muster aus Hinweisreiz/Signal, Verhalten und verstärkender Belohnung dann besonders schnell erfolgen kann, wenn diese Abfolge immer erfolgt. Mit anderen Worten muss jedes Mal belohnt werden, damit für den Hund erkennbar wird, dass das spezielle Verhalten sich lohnt. 

Leider hat aber Skinner schon experimentell nachgewiesen, dass ein immer belohntes oder verstärktes Verhalten schnell nicht mehr gezeigt wird, wenn keine Belohnung oder Verstärkung mehr erfolgt. Hierbei spricht man von Verhaltenslöschung. Aus diesem Grund wurden neben der Immer-Verstärkung andere Verstärkerpläne entwickelt, die im Fortgang des Trainingsprogramms die Belohnungen „ausschleichen“ und unberechenbarer werden lassen und dadurch das Verhalten löschungsresistenter machen.

Reiz oder Verhalten, womit kann Verhalten belohnt und positiv verstärkt werden?

Nun stellt sich die Frage, womit eine belohnende Verhaltensverstärkung erreicht werden kann: Liegt die Belohnung eher in einem Reiz oder bringen bestimmte, nun ermöglichte Verhaltensweisen die Verstärkung für die vorangegangene Verhaltensweise?

In Skinners Theorie der operanten Konditionierung wird davon ausgegangen, dass Reize ein Veralten verstärken: Die Wahrnehmung, dass nun Futter verfügbar ist, ist in seinen hier geschilderten Versuchen der verhaltensverstärkende Reiz. Allerdings ist die Frage vor dem Hintergrund, dass Skinner seine Versuchstiere vor den Versuchen auf Diät setzte, bis sie nur noch 80 % ihres Normalgewichst wogen, berechtigt, ob nicht die Versuchstiere tatsächlich dadurch belohnt wurden, dass sie das Futter fraßen. Skinner begründete außerdem auch das Chaining, das komplexeres Verhalten als Ketten aus Reiz-Reaktion-Reiz-Reaktion Kopplungen darstellt und bei denen Reize sowohl Konsequenz für das vorangehende Verhalten als auch Hinweisreiz für das nächste Verhalten sind. Auch dieser Umstand weist darauf hin, dass nicht der Reiz, sondern das ihm folgende Verhalten belohnend und verstärkend wirkt.

So betrachtet, liegt die Verstärkung oder die Belohnung nicht in einem Reiz, sondern in einem Verhalten, in Skinners Experiment wirkte das Verhalten „Fressen“ belohnend. Dann wäre der Reiz, der von dem verfügbaren Futter ausgeht, lediglich ein Hinweisreiz, dass jetzt das Verhalten „fressen“ gezeigt werden kann.

Sicherlich bilden Streicheleinheiten hierzu eine Ausnahme: Diese stellen für das gestreichelte Lebewesen einen Reiz dar, der ihm gefallen und somit verstärkend wirken kann. Wie und warum auch ein Reiz belohnend wirken kann, erfährst Du im Abschnitt über primäre und sekundäre Verstärker.

Belohnen mit Futter: verstärken mit bedürfnisreduzierendem Verhalten

Hull stellte zu dieser Frage eine hier beschriebene Theorie auf, die zwar an einigen Stellen experimentell nicht belegt werden kann, aber in die richtige Richtung weist: Denn sie führt biologische Bedürfnisse wie das nach Nahrung, Schlaf oder Wasser in die Überlegungen ein. 

Diese Bedürfnisse bilden seiner Meinung nach gemeinsam einen Trieb, dessen Verringerung verhaltensverstärkend wirkt. Um diesen Trieb zu erzeugen, verhinderte er das triebreduzierende Verhalten: Verhindert man ein Verhalten, beispielsweise, dass getrunken, gefressen und geschlafen werden kann, spricht man von Verhaltensdeprivation. Die von Hull angewendete Verhaltensdeprivation bewirkt in den beschriebenen Fällen, dass das Bedürfnis nach Wasser, Futter und Schlaf steigt, was den Trieb insgesamt steigen lässt. 

Jedes andere Verhalten kann nun dadurch verstärkt werden, dass in seiner Folge trinken, fressen oder schlafen ermöglicht wird. Hierdurch wird nun der Trieb gesenkt. Im Versuch kann seine Theorie nicht bestehen, da sie davon ausgeht, dass der Trieb als Summe aller Bedürfnisse entsteht und somit sinkt, wenn eines der Bedürfnisse sinkt. Sie sagt dadurch voraus, dass die einzelnen Verhaltensweisen einander ersetzen können und beispielsweise der Trieb nur durch fressen auf 0 gebracht werden kann, auch wenn weder getrunken noch geschlafen werden kann.

Dennoch spielen Bedürfnisse sicherlich eine Rolle: Beispielsweise hat ein überfressener Hund sein Bedürfnis nach Futter mehr als nur abgebaut und wird sich über ein Leckerchen nicht sonderlich freuen, weshalb er Futter nicht als Belohnung wahrnehmen wird. Umgekehrt kann daraus geschlossen werden, dass der Hund tagsüber nicht pappsatt sein sollte, wenn Du ihn mit Futter belohnen willst. Entsprechend sollte in diesem Fall morgens nur ein kleinerer Teil, z. B. ein Drittel oder Viertel, der Tagesration als Frühstück, ein Großteil als Belohnung über Tag und der Rest als Abendbrot verfüttert werden. Entsprechend verhält es sich mit allen Verhaltensweisen: Ein Hund, der vom Spielen müde ist, wird ein weiteres Spiel nicht als Belohnung empfinden.

Zeitgenaueres Belohnen mit Reizen: primäre und sekundäre Verstärker wie Lob und Klicker

Der Tatsache, dass offensichtlich ein Verhalten ein anderes Verhalten verstärken oder belohnen kann zum Trotz, kann durchaus erfolgreich mit einem Reiz verstärkt werden. Umgangssprachlich sprechen wir dann von einem Lob, einem Marker oder Klicker. Allerdings kann man ein Lob von dem Reiz, den ein vor dem Fang befindliches Stück Futter auslöst, klar unterscheiden: Die bedürfnisminimierende Reaktion auf den Reiz, der von Futter ausgeht (zu Beginn ist das bei Hunden natürlich die Zitze der Mutter), muss der Hund nicht lernen, sondern sie ist ihm angeboren. Somit muss der Hund auch die Bedeutung dieses Reizes nicht lernen. Das macht Futter zu einem Primärverstärker.

Hingegen ist die Bedeutung eines akustischen Reizes, beispielsweise eines Wortes des Lobes oder des Geräuschs eines Klickers für den Hund zunächst unklar. Dass diese Reize etwas Angenehmes verkörpern, muss der Hund erst verknüpfen oder erlenen. Dazu wird nach der Methode der klassischen Konditionierung der unbedeutende Reiz des Lobwortes oder des Klickers mit einem primären Reiz wie dem, der von Futter ausgeht, verknüpft.

Hierdurch werden diese Reize zu (klassisch) konditionierten Reizen, die wir in der operanten Konditionierung als sekundäre Verhaltensverstärker nutzen können. Der Vorteil liegt darin, dass auch auf einige Entfernung noch zeitpunktgenau das gewünschte Verhalten verstärkt oder gemarkert werden kann und keine Zeit verloren geht, um den Weg zum Hund zurückzulegen oder ein Stück Futter in die Hand und vor die Nase des Hundes zu bekommen.

Premack-Prinzip - Unbeliebteres Verhalten verstärkend belohnen mit beliebterem Verhalten

Bedürfnisse müssen nicht immer so existenziell sein, wie beispielsweise das nach Nahrung oder Wasser. Vielleicht benötigen Bedürfnisse in einer Lerntheorie auch gar keinen Raum. So griff David Premack auf behavioristische Techniken zurück und umging Begriffe wie Trieb und Bedürfnis. Stattdessen fokussierte er wieder auf das beobachtbare Verhalten. 

In seinen hier dargestellten Experimenten maß er zunächst die Baselineverteilung mehrerer Verhaltensweisen. Die Baseline eines Verhaltens ist die Häufigkeit eines Verhaltens ohne weitere Einflüsse wie Training oder bewusste Konditionierung. Entsprechend stellt die Baselineverteilung den Anteil der einzelnen Verhaltensweisen am Gesamtverhalten aus mehreren Verhaltensweisen dar. So lässt sich ermitteln, welche Verhaltensweise ein Lebewesen relativ häufig zeigt und welches weniger häufig. Umgangssprachlich sprechen wir von Lieblingsverhalten oder Lieblingsbeschäftigung und unbeliebteren Verhaltensweisen oder Beschäftigungen.

Auch wenn Premack hierzu nichts gesagt hat, kann davon ausgegangen werden, dass Lebewesen, die sich frei nach der Baselinverteilung verhalten können und keinerlei Einschränkungen wie Knappheit von Futter, Wasser, Ruhe, Spielmöglichkeiten etc. unterliegen, dadurch alle Bedürfnisse befriedigen. 

Premack stellte nun experimentell fest, dass ein in der Baselineverteilung selten gezeigtes, eher unbeliebtes Verhalten durch ein häufigeres und eher beliebtes belohnt werden kann. Dazu ist die Erstellung eines Verstärkerplans notwendig, der dazu führen muss, dass das

1. zu verstärkende Verhalten zur Voraussetzung für das beliebtere „Belohnungsverhalten“ wird.

2. zu verstärkende Verhalten im Verhältnis zum „Belohnungsverhalten“ häufiger gezeigt werden muss, als es das Lebewesen unter freier Entscheidung (also unter Baseline-Bedingungen) zeigen würde.

Spielt Dein Hund beispielsweise 25 Minuten mit dem Ball, um danach 5 Minuten ruhig zu sitzen, wenn er frei entscheiden darf, kannst Du nach folgendem Prinzip das Verhalten „Sitz auf Dauer“ mit dem Verhalten „Spielen“ belohnen: Du könntest das Spiel nach 10 Minuten unterbrechen, um ihn dann 5 Minuten lang ruhig sitzen zu lassen, was mit erneutem Spiel belohnt wird. Das Ergebnis wäre, dass Dein Hund nun nur noch 20 Minuten spielt und 10 Minuten sitzt. Natürlich wäre ein Leistungssprung von 5 auf 10 Minuten Sitz in der Praxis zu groß und müsste in kleineren Teilschritten trainiert werden.

Behavioral Bliss Point - Beliebtes Verhalten verstärkend belohnen mit unbeliebterem Verhalten

Premacks Ansatz zeigt jedoch keine Möglichkeit, das Lieblingsverhalten eines Lebewesens mit einem anderen Verhalten zu belohnen. Dies könnte für Dich wichtig werden, wenn Dein Hund beispielsweise am liebsten apportiert, Du dieses Verhalten aber weiter trainieren möchtest und entsprechend eine Belohnung dafür suchst. Die Lösung hierfür lieferten Willam Timberlake und James Allison mit der Hypothese von der Verhaltensdeprivation.

Für ihren Ansatz muss die Baseline von nur zwei Verhaltensweisen gemessen und in ein Verhältnis gesetzt werden. Im schon verwendeten Beispiel betrüge das Verhältnis 25 Minuten spielen zu 5 Minuten sitzen und es wäre egal, ob wir als Einheit Minuten oder Sekunden verwenden würden, was wir zur Veranschaulichung nun tun werden. Verwendet man nämlich nun einen Verstärkerplan, der nach 25 Sekunden das Spiel unterbricht, dem Hund aber nur 2,5 Sekunden statt für 5 Zeit zum sitzen lässt, erreicht er die von ihm bevorzugte Gesamtzeit, die er mit sitzen verbringt, nur dann, wenn er deutlich länger als bevorzugt seiner Lieblingsbeschäftigung nachgeht. Auf diese Weise wird die unbeliebtere Verhaltensweise auf Grund der Verknappung zur Belohnung für das Lieblingsverhalten.

Diese etwas mathematisch anmutende Theorie wird Hypothese von der Verhaltensdeprivation genannt. Sie stellt die Basis für den griffigen Begriff des Behavioral Bliss Point dar. Diese zeigt, dass für jede Paarung zweier Verhaltensweisen eines Lebewesens ein für das Lebewesen optimales Verhältnis besteht. Nun können Verstärkerpläne entwickelt werden, die das Verhältnis so umgestalten, dass eine der beiden Verhaltensweisen im Verhältnis zur anderen seltener gezeigt wird. Dann wird die verringerte Verhaltensweise als Verstärker für die andere Verhaltensweise wirken. 

Hat dir der Inhalt gefallen? Dann teile ihn doch auch mit anderen:

VGWort Zählpixel