Neuigkeiten zur Validität von Assessment Centern

Prof. Dr. Christof Obermann

  • Sicht auf Validitäten von Test und AC sind anders geworden
  • Kognitive Testverfahren nicht mehr so weit vorne
  • Strukturiertes Interview wichtiger Bestandteil vom AC
  • Treffsicherheit in Prognose von Joberfolg bei Tests (p =.22) wie AC (p=.44) bestätigt

25 Jahre Schmidt & Hunter Metaanalyse – Bashing von Assessment Centern

Seit 25 Jahren beißen sich zwei Generationen von Psychologie-Studierenden die Zähne an der Metaanalyse von Schmidt & Hunter (1998) zum Vergleich von eignungsdiagnostischen Verfahren aus. Ergebnis: Wenig schmeichelhafte Ergebnisse zum Assessment Center (AC). Zunächst zur Methodik der Metanalyse: Hier werden Einzelstudien zum Zusammenhang von diagnostischen Verfahren und Kennwerten des Berufserfolgs gewichtet nach der Anzahl an Teilgenommenen.

Damals überraschende Ergebnisse: Kognitive Testverfahren schneiden mit einem Top-Wert von r=.51 ab, auch Integritätstests mit r=.41 sind für uns in Europa überraschend positiv und AC liegen relativ schlecht mit einer Validität von nur r=.37. Das konnte sich keiner erklären: Wie kann das Gesamtpaket AC, welches häufig ja kognitive Tests schon beinhaltet, schlechter abschneiden als nur der eine methodische Bestandteil? Wie passt der hohe Aufwand von AC zu der bescheidenen Wirksamkeit zusammen?

Die Zwischenantwort – kaum mehr als eine Ausrede – war bis dahin, dass die r=.37 nur den Durchschnitt vieler AC aus der Metaanalyse zeigen. Davon sind jedoch auch viele methodisch schlecht organisiert (mehr zu Treibern der AC-Validität) und man könnte auch hochwertigere Varianten zusammenstellen, die dann besser abschneiden. So richtig überzeugend war die Argumentation nie.

Dazu gibt es jetzt neuere Antworten.

Kognitive Testverfahren – doch nicht so weit oben

Bei Schmidt & Hunter (1998) gab es zu den Testverfahren mit den sehr guten Ergebnissen eine sehr schwerwiegende Einschränkung, um nicht von Manipulation zu schreiben: Der Top-Wert von r=.51 bezieht sich auf eigene Studien der Autoren zu einem speziellen Testverfahren, das für eine bestimmte Zielgruppe optimiert war. Zur Messung der beruflichen Leistung wurde kein übliches praktisches Außenkriterium verwendet (z. B. Vorgesetzteneinschätzung zum Joberfolg), sondern eine General Aptitude Test Battery, welche aus neun Items besteht, die sich größtenteils auf kognitive Kriterien beziehen. Hier wurde am Ende ein kognitiver Test mit einem anderen verglichen und so kamen die hohen Werte zustande.

Doch die Metaanalyse bringt noch weitere Probleme mit sich. Die kognitiven Leistungstests wurden an einer allgemeinen Bevölkerungsstichprobe durchgeführt, während die AC nur von Personen durchgeführt wurden, die sich auf eine spezielle Stelle beworben hatten. Folglich zeigt sich bei den AC-Teilnehmenden aufgrund von Selbstselektion eine geringere Varianz in der kognitiven Leistungsfähigkeit im Vergleich zu den Teilnehmenden an den kognitiven Tests. Zusätzlich zur Selbstselektion, da nur als geeignet erachtete Personen sich bewerben, werden Stellen auch oft intern ausgeschrieben, sodass sich vermehrt Personen bewerben, welche bereits ein gewisses Level an kognitiver Kompetenz bei der Einstellung bewiesen haben. Um eine Vergleichbarkeit der Studien herzustellen, sollten die Ergebnisse anhand derselben Bewerbungsstichprobe angepasst werden (Sackett, Shewach, & Keiser, 2017).

Methodische Optimierung von Zahlen

Ein weiteres Problem von Schmidt & Hunter (1998) ist die allgemeine Korrektur der Varianzeinschränkungen bei allen Studien.

Dazu muss man wissen, dass in den Validierungsstudien selten die empirisch ermittelten Korrelationen von zwischen Test- oder AC-Ergebnissen einerseits und Kennwerten des beruflichen Erfolgs andererseits veröffentlich werden. Vielmehr werden diese in verschiedenen Stufen nach oben korrigiert. Das ist grundsätzlich gerechtfertigt, wird jedoch teilweise übertrieben und von den Autoren im unterschiedlichen Ausmaß betrieben.

Eine solche Korrektur der empirisch ermittelten Validität nach oben wird aufgrund der sogenannten direkten oder indirekten Varianzeinschränkung benötigt (Details dazu bei Obermann, 2016, S. 315-362).

Dazu der Hintergrund: Für die Validierung eines Testverfahrens werden die auch die Validierungskriterien (z. B. Vorgesetzteneinschätzung) aller bewerbenden Personen benötigt, also auch die Ergebnisse der abgelehnten Personen. Diese Daten sind oft nicht verfügbar. Dies ist eine direkte Varianzeinschränkung, nur die Daten der guten Testteilnehmenden können weiterverfolgt werden. Das führt statistisch zu einer geringeren Korrelation und Validität.

Um diese Varianzeinschränkung wieder herauszurechnen, stehen verschiedene Korrekturformeln zur Verfügung. Für Metaanalysen werden in der Regel die gleiche Korrekturformel für alle Studien verwendet (wie auch bei Schmidt & Hunter, 1998). Neuere Studien konnten jedoch zeigen, dass dies oft zu einer Überkorrektur führen kann (beispielsweise Sackett, Zhang, Berry, & Lievens, 2021). Nicht alle Studien sind gleichermaßen geeignet für eine solche Korrektur oder benötigen sie überhaupt. So wurden dann einzelne Tests / Methoden mehr nach oben korrigiert als andere.

Neue Sicht auf die Dinge – Aktualisierung Sackett et al. (2021)

Die Autoren und Autorinnen (Sackett et al., 2021) haben die ursprünglichen Daten von Schmidt & Hunter (1998) noch einmal genauer unter die Lupe genommen.

Sackett et al. berücksichtigen in ihrer neuen Metaanalyse aktuellerer Befunde, passen die Minderungskorrekturen an, sodass spezifische Kriteriumsvaliditäten berücksichtigt werden und analysieren systematischer die Auswirkungen unterschiedlicher Formen der Varianzeinschränkungen. Insgesamt nehmen sie dadurch bei 13 Studien keine Korrektur der Varianzen vor, übernehmen bei sieben Studien die angewandte und nehmen bei dreien ihre eigene vor.

Die Ergebnisse: Kognitive Fähigkeitstests verlieren ihre hervorstechende Position und das strukturierte Einstellungsgespräch bleibt der alleinige Spitzenreiter. Während der kognitive Fähigkeitstest bei einer Validität von r=.31 fast auf einer Stufe mit dem AC liegt (r=.29), kann das strukturierte Einstellungsgespräch mit einer Validität von r=.42 überzeugen.

Insgesamt erreichen alle Auswahlverfahren einen zufriedenstellenden Koeffizienten und die homogeneren Daten beweisen realistischere Befunde.

Was in dieser Neugewichtung der alten Daten von Schmidt & Hunter ein AC war, geht in der Metaanalyse unter – ob etwa nur Rollenspiele & Co. oder ob das AC eben auch die anderen Methodenbestandteile Interview und kognitiver Test enthielten. Bei einer aktuellen Neukonzeption wäre auf jeden Fall das Fazit, dass strukturierte Interviews und kognitive Tests zum AC/DC dazugehören sollten. Das fordern im Übrigen auch die Qualitätsstandards des Forum AC e. V. (2016).

Tabelle Validitäten Metaanalysen
Tabelle 1: Vergleich der Validitäten beider Metaanalysen

Metaanalyse zur Ehrenrettung des Assessment Centers

Methodisch problematisch ist bei der Neuzusammenstellung von Sacket et. al. (2021) der alten Daten, dass die Tabelle fälschlicherweise suggeriert, dass im gleichen Praxiskontext unterschiedliche Methoden vergleichen wurden. Dabei sind es ganz unterschiedliche Kontexte.

In einer inhaltlich zusammengestellten Metaanalyse von Sackett, Shewach und Keiser (2017) wurden nur Studien berücksichtigt, in welchen AC und kognitive Testverfahren parallel nebeneinander eingesetzt wurden. Mit dieser Methode werden Kontexte und Stichproben konstant gehalten, sodass Zusammenhänge mit identischen Berufserfolgskriterien analysiert werden können.

Die Metaanalyse konnte zeigen, dass mit dem parallelen Design das AC die berufliche Leistung besser vorhersagt (r = .44) als der kognitive Test (r = .22). Ein Grund für diesen Befund könnten die breiter gefassten beruflichen Leistungskriterien in AC-orientierten Studien sein oder eine Varianzeinschränkung der kognitiven Werte durch die Vorselektion der Teilnehmenden. Ähnliche Ergebnisse ergeben sich ebenfalls bei Holzenkamp, Spinath und Höft (2010), wo die AC bei einer mittleren korrigierten Validität von p = .36 liegen (zitiert von Obermann, 2016).

Allgemein betrachtet steht auf jeden Fall fest: Bei einer parallelen Betrachtung von AC und kognitivem Leistungstest liefert das AC aussagekräftigere Ergebnisse und behält somit weiterhin seine Berechtigung und Ehre bei.

Tabelle Validitäten Leistungstest und AC
Tabelle 2: Vergleich der Validitäten von Leistungstests und AC

Literatur

Arbeitskreis Assessment Center e.V. (2016). Standards der Assessment Center Methode 2016. https://www.forum-assessment.de/images/standards/AkAC-Standards-2016.pdf

Holzenkamp, M.; Spinath, F.; Höft, S. (2010). Wie valide sind Assessment Center im deutschsprachigen Raum? Eine Überblicksstudie mit Empfehlungen für die AC-Praxis. Wirtschaftspsychologie. 12. 17-25.

Obermann, C. (2016). Assessment Center (6. Auflage). Wiesbaden: Gabler. https://doi.org/10.1007/978-3-658-18716-3

Sackett, P. R., Shewach, O. R., & Keiser, H. N. (2017). Assessment centers versus cognitive ability tests: Challenging the conventional wisdom on criterion-related validity. Journal of Applied Psychology, 102(10), 1435-1447. doi: 10.1037/apl0000236

Sackett, P. R., Zhang, C., Berry, C. M., & Lievens, F. (2021). Revisiting meta-analytic estimates of validity in personnel selection: Addressing systematic overcorrection for restriction of range. Journal of Applied Psychology, 107(11), 2040–2068. https://doi.org/10.1037/apl0000994

Schmidt, F., & Hunter, J. E. (1998). The Validity and Utility of Selection Methods in Personnel Psychology: Practical and Theoretical Implications of 85 Years of Research Findings. Psychological Bulletin, 124(2), 262-274. 10.1037//0033-2909.124.2.262

Cookie Consent mit Real Cookie Banner