Glossar

Kirkpatrick-Modell

Ein vierstufiges Framework zur Bewertung von Trainingswirksamkeit: Reaktion (Zufriedenheit), Lernen (Wissenszuwachs), Verhalten (Anwendung am Arbeitsplatz) und Ergebnisse (Geschäftswirkung).

Das Kirkpatrick-Modell ist das meistgenutzte Framework zur Bewertung der Wirksamkeit von Trainingsprogrammen. Es wurde von Donald Kirkpatrick in den 1950er Jahren entwickelt und 1959 offiziell veröffentlicht. Das Modell gliedert die Evaluation in vier aufeinanderfolgende Ebenen — Reaktion, Lernen, Verhalten und Ergebnisse — wobei jede Ebene einen anderen Aspekt der Trainingswirkung misst. Obwohl es mehr als sechzig Jahre alt ist, bleibt es das Standardvokabular für Trainingsmessung in den meisten Organisationen.

#Die vier Ebenen

#Ebene 1: Reaktion

Reaktion misst, wie Lernende auf das Training reagieren — ob sie es als relevant, ansprechend, nützlich und gut durchgeführt empfanden. Dies wird typischerweise durch Zufriedenheitsumfragen nach dem Training erfasst, von skeptischen Praktizierende auch als „Smile Sheets" bezeichnet.

Reaktionsdaten sind am einfachsten zu erfassen, weshalb sie am häufigsten gemessen werden. Sie sind aber auch am wenigsten aussagekräftig für tatsächliches Lernen oder Verhaltensänderung. Eine Teilnehmerin kann ein Training hochzufrieden verlassen, ohne etwas Anwendbares gelernt zu haben; umgekehrt kann anspruchsvolles Training schlechte Zufriedenheitswerte erhalten und dennoch echte Kompetenzentwicklung bewirken.

Das aktualisierte Modell von Kirkpatrick Jr. unterscheidet zwischen „Kundenzufriedenheits"-Reaktion (hat es Ihnen gefallen?) und „Relevanz"-Reaktion (wird es Ihnen bei der Arbeit helfen?), wobei argumentiert wird, dass Letztere für Lernen und Transfer einen höheren Vorhersagewert hat.

#Ebene 2: Lernen

Lernen misst, inwieweit die Teilnehmenden die Kenntnisse, Fähigkeiten oder Einstellungen erworben haben, die das Training beabsichtigte zu vermitteln — bewertet durch Tests, Demonstrationen, Simulationen oder bewertete Assessments vor und nach dem Trainingsereignis.

Vor-/Nachtests sind der rigoroseste Ansatz, da sie eine Ausgangslage schaffen und den tatsächlichen Zuwachs messen statt nur die finale Leistung. Multiple-Choice-Tests sind verbreitet, können aber nur Wiedererkennung messen; leistungsbasierte Assessments erfassen genauer, ob Lernende das Gelernte anwenden können.

#Ebene 3: Verhalten

Verhalten misst, ob die Teilnehmenden ihr Lernen tatsächlich am Arbeitsplatz anwenden — ob das Training zu echtem Transfer auf die berufliche Leistung geführt hat. Hier hört die Messung der meisten Trainingsprogramme auf, rigoros zu sein, und wird aspirational.

Die Messung von Ebene 3 erfordert die Beobachtung von Arbeitsleistung — was bedeutet: nach ausreichend Wirkungszeit zum Arbeitsplatz zurückzukehren und strukturierte Beobachtung, Vorgesetztenbeurteilungen, 360-Grad-Feedback oder unabhängig vom Training existierende Leistungsdaten zu nutzen. Es ist aufwendiger und logistisch komplexer als die Ebenen 1 und 2 — das ist der Hauptgrund, warum die meisten Organisationen es nicht tun.

Transfer hängt auch von Bedingungen außerhalb des Trainings ab: Unterstützung durch Führungskräfte, Möglichkeit, das neue Verhalten zu üben, Feedback und Organisationskultur. Ein gut gestaltetes Training kann zu echtem Lernen (Ebene 2) führen, das nie übergeht, weil die Umgebung das Verhalten nicht unterstützt — eine Erinnerung daran, warum das COM-B-Modell wichtig ist.

#Ebene 4: Ergebnisse

Ergebnisse misst die organisatorischen Outcomes, die das Training beeinflussen sollte — Produktivität, Qualität, Vertriebsleistung, Sicherheitsvorfälle, Kundenzufriedenheit, Kostensenkung. Es verbindet die Trainingsinvestition mit Geschäftszielen.

Die Messung auf Ebene 4 ist am wertvollsten und am seltensten. Die Gründe sind pragmatisch: Kausalität zwischen einem Trainingsprogramm und einem Geschäftsergebnis herzustellen ist methodisch schwierig, insbesondere in Organisationen, in denen viele Variablen gleichzeitig auf Kennzahlen einwirken. Messungen auf dieser Ebene erfordern Basisdaten vor dem Training, Kontrollgruppen oder Vergleichspopulationen wenn möglich, und ausreichend Zeit, damit das Training sich auf das Ergebnis auswirken kann.

Die meisten Organisationen messen Ebene 1 konsequent, einige messen Ebene 2, wenige messen Ebene 3 und fast keine messen Ebene 4 rigoros. Das Ergebnis: L&D-Funktionen können ihre Geschäftswirkung typischerweise nicht nachweisen — nicht weil Training nicht funktioniert, sondern weil nicht auf der Ebene gemessen wird, die die Wirkung zeigen würde.

#Das „New World Kirkpatrick Model"

2016 veröffentlichten James Kirkpatrick (Donalds Sohn) und Wendy Kirkpatrick eine aktualisierte Version des Frameworks — das „New World Kirkpatrick Model" — mit einem wesentlichen Perspektivwechsel: Statt Ebenen sequenziell von 1 bis 4 zu messen, befürworten sie, die Evaluation von Ebene 4 rückwärts zu planen.

Die Logik: Zunächst das Geschäftsergebnis (Ebene 4) identifizieren, das das Training unterstützen soll. Dann die Verhaltensweisen am Arbeitsplatz identifizieren (Ebene 3), die zu diesem Ergebnis beitragen. Dann das Training so gestalten, dass es diese Verhaltensweisen erzeugt, und messen, ob es das tut (Ebene 2). Dann Reaktionsdaten (Ebene 1) als Sekundärkennzahl erfassen.

Dieser invertierte Ansatz drängt L&D-Teams dazu, Trainingsdesign von Anfang an mit Geschäftszielen zu verbinden — statt einen Kurs zu entwickeln und auf die Ergebnisse zu hoffen. Er entspricht dem Action-Mapping-Prinzip, vom messbaren Geschäftsziel auszugehen.

#Umsetzung der Messung auf Ebene 3 und 4

Dies sind die Ebenen, auf denen Messung echten organisatorischen Wert schafft — und an denen die meisten L&D-Teams scheitern.

Für Ebene 3 umfassen praktische Ansätze:

Beobachtungschecklisten für Führungskräfte, 30–60–90 Tage nach dem Training eingesetzt
Selbsteinschätzung kombiniert mit Vorgesetztenbeurteilung
Leistungsdatenvergleiche vor und nach dem Training, wo diese Kennzahlen erhoben werden
Mystery Shopping, Gesprächsmonitoring oder Qualitätsreviews für relevante Rollen

Für Ebene 4 besteht die Herausforderung darin, Training mit Ergebnissen zu verknüpfen und gleichzeitig störende Variablen zu kontrollieren. Nützliche Ansätze:

Bestehende Geschäftskennzahlen identifizieren, die das Training beeinflussen soll, und diese vor und nach dem Training verfolgen
Kohortenvergleiche — Mitarbeitende, die das Training absolviert haben, mit vergleichbaren Mitarbeitenden vergleichen, die es nicht absolviert haben, wo machbar
Die Kausalkette dokumentieren, wie die durch Training bewirkte Verhaltensänderung mit der Geschäftskennzahl zusammenhängt

Die praktischste Verbesserung, die die meisten L&D-Funktionen vornehmen können, ist das Hinzufügen eines 60-Tage-Follow-ups zu bestehenden Trainings — selbst ein kurzes Gespräch mit der Führungskraft oder eine strukturierte Selbsteinschätzung liefert Ebene-3-Daten, die dem Programm bisher fehlen. Das erfordert kein rigoroses experimentelles Design; selbst indikative Belege, dass Menschen das Training anwenden, sind nützlicher als gar keine Belege.

#Die hauptsächliche Kritik

Das Kirkpatrick-Modell ist so weit verbreitet, dass Kritik daran manchmal untergeht. Die zentrale inhaltliche Kritik: Das Modell suggeriert, dass höhere Ebenen zwar schwieriger zu messen, aber nicht unbedingt wichtiger zu verfolgen sind — obwohl Ebene-3- und Ebene-4-Daten in Wirklichkeit die einzigen Belege sind, die für den Nachweis von Geschäftswirkung zählen. Organisationen, die Ebene 1 rigoros und Ebene 3/4 gar nicht messen, messen die falschen Dinge mit der falschen Häufigkeit — und die Struktur des Modells hält sie nicht davon ab.

Das New-World-Modell adressiert dies durch die Umkehrung der Reihenfolge, aber die Lücke in der Messpraxis bleibt in den meisten L&D-Funktionen groß.

Verwandte Begriffe

Instructional Design Action Mapping

Tiefer einsteigen

Lernerfolg messen: Das Kirkpatrick-Modell einfach erklärt

Lernen strukturiert umsetzen mit Scibly

Scibly ist das LMS für Teams, die Wissen schnell und strukturiert aufbauen wollen – ohne Corporate-Komplexität.

Scibly entdecken

Zurück zum Glossar