In Situational Judgement Tests (SJT) werden Bewerbern berufliche Situationen mit der Bitte vorgelegt, sich für eine von mehreren Alternativen zur weiteren Vorgehensweise oder Lösung der Situation zu entscheiden. Neben textbezogenen Itemformaten sind in den 90er-Jahren Varianten mit Bilderszenen und seit den 2000er-Jahren Varianten mit Videostimuli entstanden. Die in der Literatur berichteten Validitäten sind sehr unterschiedlich, die Zusammenhänge der SJT-Ergebnisse zu Vorgesetzteneinschätzungen variieren zwischen r = -.05 und r = .33, sodass es darauf ankommt, wie die SJT im Detail konstruiert werden. Auch wenn gerade wieder in Mode, gibt es die SJT schon lange, erstmals in der Anwendung im Rahmen von militärischen AC der 40er Jahre und in neuerer Zeit wieder von Motowidlo, Dunnette, & Carter (1990) eingeführt.
Vorteil: Kosten- und Zeitersparnis bei großen Bewerberzahlen
Durch den höheren Einmalaufwand in der Konzeption gegenüber Interviews oder Simulationen werden die situativen Tests primär im Kontext von größeren Bewerberzahlen eingesetzt. Gründe hierfür liegen in einer effektiven Vorauswahl von Teilnehmern und in der kostengünstigeren Durchführung im Vergleich zu Live-Assessments. Eine Anwendungsform ist etwa die Auswahl von Medizinstudenten (Lievens & Sackett, 2006).
In einer zusammenfassenden Metaanalyse konnten McDaniel, Hartman, Whetzel & Grubb (2007) zeigen, dass sich situative Testverfahren insgesamt als valide erwiesen haben und gegenüber kognitiven Testverfahren über eine inkrementelle Validität verfügen, um den Berufserfolg vorherzusagen. Lievens & Sackett (2006) konnten zeigen, dass videobasiertes Stimulus-Material zu höheren Validitäten führt als reine Textstimuli. In einer neueren Übersichtsstudie gab es eine ähnlich positive Bestätigung für die situativen Tests (Christian, Edwards & Bradley, 2010). Als eine Untersuchungsfrage wurde klassisches (textorientiertes) und videobasiertes Stimulusmaterial miteinander verglichen. Videobasierte Items konnten hinsichtlich der Vorhersage von kommunikativen/ interpersonalen Fähigkeiten deutlich besser abschneiden (r = .47 zu r = .27).
Mittlerweile sind die SJT etabliert und es liegen verschiedene Validitätsstudien vor. Eine Studie mit sehr großem zeitlichem Abstand zwischen Prädiktor und Kriterium wurde von Lievens & Sackett (2011) vorgestellt. Probanden waren 723 Bewerber für ein Medizinstudium in Belgien, die über einen Zeitraum von neun Jahren bewertet wurden. Prädiktoren waren kognitive Variablen (u.a. medizinischer Test, allgemeiner kognitiver Test) und ein situativer Test mit 30 videogestützten Stimuli mit Situationen, die auf Ärzte mit Patientenkontakt zukommen. Berufserfolgskriterien waren nach sieben Jahren die Einschätzung in einem ärztlichen Praktikum und nach zwei weiteren Jahren die Einschätzung nach der Ausbildung zum Allgemeinmediziner. Der situative Test konnte jeweils mit einer Korrelation von r = .23 hochsignifikant diese Bewertungen vorhersagen, relativ stärker als die kognitiven Prädiktoren. Die kognitiven Tests stehen darüber hinaus in signifikanten Zusammenhang mit dem Videotest – obwohl es sich hier inhaltlich um ein anderes Konstrukt handelt.
Kritikpunkt: Maximale oder typische Leistung?
Eine Variante betrifft die klassische Unterscheidung, ob die situativen Tests eher die maximale oder typische Reaktion messen. Die maximale Reaktion unterliegt eher dem Effekt der sozialen Erwünschtheit („Ich schiebe normalerweise Konflikte auf, aber wenn ich weiß, was gefragt wird, kann ich auch anders“). Die maximale Reaktion wird eher mit dem Antwortformat: „Was ist das beste Vorgehen?“ abgefragt, die typische Variante mit „Wie würden Sie wahrscheinlich vorgehen?“. Bei einer experimentellen Studie mit Bewerbern für das Medizinstudium (Lievens, Sackett & Buyse, 2009) gab es keine Unterschiede zwischen beiden Formaten. Allerdings korrelierte die Variante der maximalen Reaktionsweise im Unterschied zu der typischen Reaktionsweise höher mit kognitiven Testwerten.
Kritikpunkt: Werden nicht verkappt kognitive statt sozialer Leistungen gemessen?
Dies ist generell eine Problematik der situativen Tests. Die Kandidatenleistung enthält jeweils hohe kognitive Anteile, auch wenn, wie bei Lievens & Sackett (2011) die videogestützten Items zur Vorhersage interpersoneller Fähigkeiten eingesetzt wurden. Die Ergebnisse korrelierten mit kognitiven Fähigkeiten, nur ein Teil der Kennwerte erbrachte eine inkrementelle Validität in der Vorhersage der Abschlussnoten seitens der Absolventen im Wirtschaftsbereich. Für eine Teilgruppe wurde zusätzlich ein AC mit zwei Rollenspielen durchgeführt. Hier gab es lediglich Zusammenhänge zu der Tendenz in der Simulation, Informationen persönlich (z. B. über das Ansetzen eines Meetings) abzufragen.
Der kognitive Anteil liegt möglicherweise auch an den geschlossenen Antwortformaten. Während diese für die Standardisierung und die psychometrische Auswertung vorteilhaft sind, so misst es inhaltlich etwas anderes, sich die attraktivste Antwort aus vorgegebenen Alternativen herauszusuchen, als in einem realen Setting zu reagieren. Wir haben daraus die Schlussfolgerung gezogen, möglichst mit offenen Antwortformaten im Rahmen von Kurzinterviews zu arbeiten.
Die US-Post als einer der weltweit größten Arbeitgeber setzt nunmehr eine Software ein, um Aufsätze im Rahmen der Auswahlverfahren für Hochschulabsolventen zu bewerten (Ford & Stetz, 2001). Dabei zeigten sich Korrelationen von r = .90 zwischen Auswertungen durch die E-rater-Software und trainierten Auswertungspersonen.
Obermann Projekt mit videobasierten Szenen
Obermann Consulting hat dieses Jahr ein Projekt im Einzelhandel betreut, bei dem Mitarbeitern im Rahmen einer Potenzialanalyse 24 videobasierte Szenen aus dem Führungsalltag vorgelegt werden. In einer Validierungsstudie wurden für eine Pilotzielgruppe die Ergebnisse der SJT mit den Einschätzungen der Vorgesetzten abgeglichen. Neben Hinweisen für gute und weniger geeignete Szenen konnte hier ein hoch signifikanter Zusammenhang zur Vorgesetzteneinschätzung ermittelt werden, sodass der SJT nun zur Anwendung kommt. Durch die Darstellung von praktischen Szenen aus dem Berufs- und Führungsalltag haben die SJT eine sehr hohe Akzeptanz bei Bewerbern und im Management. Neben der höheren Akzeptanz liegt der Vorteil der videobasierten Stimuli darin, dass der „kognitive Overload“ durch den visuellen Kanal geringer ist und die SJT keine verkappten Intelligenztests sind. Gute Erfahrungen wurden damit gemacht, die SJT nicht als Test mit geschlossenen Antwortformaten vorzulegen, sondern die Szenen in ein strukturiertes Interview einzubinden.
Situational Judgement Test – aufwendig, aber effektiv
Neue Forschungsergebnisse SJT
Zum Thema gibt es auch einige neue Studien. Barron et al. (2014) von der amerikanischen Air Force gingen zunächst den Weg, den Aufwand in der Erstellung der SJT zu reduzieren. Hier wurde sowohl auf Bildmaterial verzichtet, als auch auf die Darbietung von (aufwendig zu konstruierenden) Antwortalternativen. In dem Air Force SJT wurden u. a. Kriterien wie Leadership, soziale Fähigkeiten und ethisches Verhalten getestet. Zwei SJT-Formen wurden dann an der gleichen Population getestet: Text-SJT mit mehreren Antwortalternativen und mit lediglich einer Antwortmöglichkeit (Frage: „Wie wahrscheinlich ist das hier beschriebene Verhalten in der Situation?“). Die Ergebnisse sind eher ernüchternd: Durch die Vereinfachung sinkt die Reliabilität von r = .91 auf r = .72. Die höchste Validität besitzt die vereinfachte SJT-Form mit Kriterien wie „Interesse an Kunst“ bei den getesteten Soldaten. Fazit: Eine zu große Vereinfachung erscheint nicht sinnvoll.
Den umgekehrten Weg beschreiben Fix & Ablitt (2014). Für die englische Bank Barcley’s wurden SJT mit einer rein verbalen Beschreibung und inhaltlich gleichen Videostimuli verglichen. Für die videobasierten Items wurde ein substanzieller Aufwand betrieben: Professionelle Schauspieler, animierter Hintergrund, 18 Monate Entwicklungszeit, Präsentationsperson einleitend zu den Videos. Beide Varianten führten zu ähnlichen Validitäten gegenüber der Vorgesetzteneinschätzung der eingestellten Bewerber (Textversion r = .19, Videoversion r = .18, jeweils signifikant). Der erhebliche Mehraufwand für die Produktion der Videostimuli scheint sich bezogen auf die Vorhersage von Joberfolg also nicht zu lohnen – anders zu betrachten ist die höhere Attraktivität für die Teilnehmer und die Akzeptanz im Management.
Literatur:
- Barron, L. G., & Cody, B. C. (2014). Comparative Validity of Traditional (Multiple Response) and Single Response Situational Judgement Test. Honolulu: SIOP, 29th Annual Conference.
- Campion, M. A. (2014). How to Develop Interview Questions and Anchored Rating Scales. Honolulu: SIOP, 29th Annual Conference.
- Christian, M. S., Edwards, B. D., & Bradley, J. C. (2010). Situational judgement tests: constructs assessed and a meta-analysis of their criterion-related validities. Personnel Psychology, 63(1), 83-117.
- Fix, C., & Ablitt, H. (2014). Made to Measure? Comparing Psychometrics of Text & Media-Based SJT. Honolulu: SIOP, 29th Annual Conference.
- Lievens, F., & Sackett, P. R. (2006). Video-based versus written situational judgment tests: A comparison in terms of predictive validity. Journal of Applied Psychology, 91 (5), 1181-1188.
- Lievens, F., & Sackett, P.R. (2011). The validity of interpersonal skills assessment via situational judgement tests for predicting academic success and job performance. Manuscript submitted for publication.
- Lievens, F., Sackett, P. R., & Buyse, T. (2009). The effects of response instructions on situational judgment test performance and validity in a high-stakes context. Journal of Applied Psychology, 94(4), 1095.
- McDaniel, M.A., Hartmann, N.S., Whetzel, D.L., & Grubb, W.L. III (2007). Situational judgement tests, response instructions, and validity: A meta-analysis. Personnel Psychology, 60(1), 63-91.
- Motowidlo, S.J., Dunnette, M.D., & Carter, G.W. (1990). An alternative selection procedure: the low-fidelity simulation. Journal of applied Psychology, 75:640-647.