1 Problemstellung: Soziokulturelle und geschlechtsspezifische Disparitäten bei Platzierungsentscheidungen

Übergänge im Bildungswesen gelten als Orte der Entstehung und Verstärkung von soziokulturellen und geschlechtsspezifischen Ungleichheiten (Maaz et al. 2009a; Becker und Reimer 2010; Becker 2016; Diehl et al. 2016). Dafür werden neben Faktoren auf Seiten des Ausbildungsmarktes in erster Linie unterschiedliche Kompetenzen und Qualifikationen sowie ein soziokulturell und geschlechtsspezifisch unterschiedliches Wahl- und Entscheidungsverhalten von Bildungsteilnehmern verantwortlich gemacht (vgl. die Übersichten bei Breen und Jonsson 2005; Granato und Ulrich 2014; Becker 2016). Als weitere Ursache für die Genese soziokultureller und geschlechtsspezifischer Disparitäten an den Gelenkstellen individueller Bildungskarrieren gelten aber auch formalisierte Beurteilungsverfahren und Zertifizierungsentscheidungen innerhalb von Bildungseinrichtungen, die von askriptiven Merkmalen, vor allem soziokulturelle Herkunft sowie Geschlecht, beeinflusst werden können. Als Erklärung werden neben institutioneller Diskriminierung vor allem kategorienbasierte Urteilsbildungen von Lehrkräften (Gawronski und Creighton 2013) herangezogen, in denen soziale Präferenzen, Stereotype oder statistische Diskriminierung zum Ausdruck kommen können (vgl. die Zusammenfassungen bei Ditton 2010; Dumont et al. 2014; Lorenz et al. 2016; Gomolla 2017).

Besonders bedeutsam sind diese Zertifizierungs- oder Platzierungsentscheidungen in gegliederten Bildungssystemen, die Schullaufbahnen in institutionell getrennte Bildungsgänge kanalisieren, wie dies prototypisch in den Benelux-Staaten und den deutschsprachigen Ländern der Fall ist. Das Forschungsinteresse konzentrierte sich hier bislang vornehmlich auf Platzierungsentscheidungen beim Übergang von der Grundschule in die weiterführenden Schulformen. Es wird oft übersehen, dass es in früh differenzierenden Systemen mit gegliederter Sekundarstufe I eine zweite Übergangsschwelle gibt, an der Platzierungsentscheidungen im Hinblick auf den Übergang in akademische, zum Hochschulstudium führende Bildungsgänge in der Sekundarstufe II getroffen werden. In Deutschland hat diese Schwelle mit der Entkopplung von nominellem Bildungsgang und Schulabschluss und dem Ausbau alternativer Bildungswege, die neben dem Gymnasium zur Hochschulreife führen, in den letzten beiden Jahrzehnten erheblich an Bedeutung gewonnen. Diese Entwicklung scheint mit der in den meisten Bundesländern abgeschlossenen oder sich vollziehenden Umstellung des Sekundarschulsystems auf Zweigliedrigkeit neue Dynamik zu erhalten. Dies gilt insbesondere dann, wenn ein Zweisäulensystem eingerichtet wird, in dem mit der zweiten Säule ein direkter Weg zur Hochschulreife eröffnet wird (Neumann et al. 2013, 2017b; Becker et al. 2016). Ob und inwieweit Platzierungsentscheidungen an dieser zweiten Schwelle in gegliederten Bildungssystemen zu einer Verstärkung soziokultureller oder geschlechtsspezifischer Disparitäten der Bildungsbeteiligung führen, ist jedoch kaum untersucht. Gänzlich unbekannt ist, welche Folgen die Umstellung des Sekundarschulsystems auf Zweigliedrigkeit für die Selektivität dieser Platzierungsprozesse hat.

Die zum Schuljahr 2010/11 in Berlin durchgeführte Schulstrukturreform, mit der ein Zweisäulensystem flächendeckend eingeführt wurde, bietet die Möglichkeit, diese Frage exemplarisch zu untersuchen (Neumann et al. 2017b). Vor diesem Hintergrund richtet sich die leitende Fragestellung des vorliegenden Beitrags auf die soziokulturelle und geschlechtsspezifische Selektivität von Platzierungsentscheidungen beim Übergang in die gymnasiale Oberstufe an nichtgymnasialen Schulformen im mehr- und zweigliedrigen Berliner Schulsystem.

2 Konzeptueller Rahmen

Personen zu beurteilen, gehört zu den Kernaufgaben der Lehrtätigkeit. Beurteilt werden vor allem die Leistungen und Leistungsentwicklung von Schülern, aber auch deren Arbeitsverhalten, Lernmotivation, selbstregulative Fähigkeiten und ihr soziales Verhalten in der Klassen- und Schulgemeinschaft. In der Regel formieren sich personenbezogene Urteile im Fluss des Geschehens, gewissermaßen on the fly im Unterrichtsprozess und Schulalltag. Sie werden kontinuierlich, vornehmlich in leistungsthematischen Situationen validiert – etwa im Unterrichtsgespräch, bei der Kontrolle von Hausaufgaben, durch Tests oder formelle Klassen- oder Schularbeiten. Es gibt aber auch typische Haltepunkte der Bilanzierung. Dazu gehören die Vorbereitung von Elterngesprächen, die Festlegung der Zeugnisnoten und nicht zuletzt auch Platzierungen, seien es Kurs- oder Bildungsgangzuweisungen, die von einzelnen Lehrpersonen vorbreitet, aber letztlich in einem kollektiven Beratungsprozess entschieden werden. Die Urteilssituationen unterscheiden sich dabei hinsichtlich der verfügbaren und genutzten Informationsbasis, ihrer Reflexivität und der geforderten Integration unterschiedlicher Informationen.

In den einschlägigen und experimentell gut bewährten Dual-Process-Theorien zur sozialen Urteilsbildung (vgl. Gawronski und Creighton 2013) werden zwei grundsätzlich unterschiedliche Informationsquellen und dementsprechende Verarbeitungsformen unterschieden: Einerseits kategorienbasierte Urteile, bei denen aufgrund sozialer Stereotype oder eigener Vorerfahrungen mit Gruppen Gruppenmerkmale Individuen zugeschrieben werden, und andererseits personenbezogene und merkmalsorientierte Urteile, in die unterschiedliche Informationen integriert werden. Sie bilden die Pole eines Kontinuums von Verarbeitungsformen, das von vorgängigen und automatisierten kategorialen Urteilen zu kontrollierten und reflexiven merkmalsbasierten Urteilen führt (Fiske und Neubert 1990; Fiske et al. 1999; Strack und Deutsch 2004). Ein Wechsel von kategorienbasierten zu personenbezogenen und informationsintegrierenden Urteilen setzt die Verfügbarkeit von Informationen voraus, die den sozialen Kategorien widersprechen oder sie zumindest differenzieren. Bezogen auf die Urteilsbildung von Lehrkräften bedeutet dies, dass vor allem dann mit einem Rückgriff auf kategoriale Informationen und Stereotype zu rechnen ist, wenn ein Mangel an personenbezogenen Informationen vorliegt. Dies ist typischerweise bei der Übernahme einer neuen Klasse oder bei der Einschulung eines neuen Jahrgangs der Fall (Lorenz et al. 2016; Gentrup et al. 2018). Im Laufe der Schulzeit sollte diese Urteilskomponente zugunsten einer merkmalsbezogenen Urteilsbildung an Bedeutung verlieren. Platzierungsentscheidungen sind formal ein Musterbeispiel für personenbezogene, informationsintegrierende und reflexiv-kontrollierte Urteile, bei denen kategoriale Merkmale wenig Raum haben sollten und dennoch immer wieder eine Rolle zu spielen scheinen. In diesem theoretischen Rahmen stellen wir die Frage nach der Akkuratheit und soziokulturellen oder geschlechtsspezifischen Selektivität von Lehrerurteilen.

Die Akkuratheit vor allem von Leistungsurteilen ist ein Indikator für die diagnostische Kompetenz von Lehrkräften. Inwieweit Lehrkräfte die Rangfolge von Schülern hinsichtlich der Ausprägung eines Merkmals korrekt einschätzen, gilt in der Literatur als „zentraler Akkuratheitsindikator … und als Maß für die diagnostische Sensitivität im eigentlichen Sinne“ (Spinath 2005, S. 86). In dieser Hinsicht können Lehrkräfte im Mittel als gute Diagnostiker von Schülerleistungen gelten. Südkamp et al. (2012) berichten in ihrer Metaanalyse für Leistungsurteile, sofern diese auf einer guten Informationsbasis getroffen werden, trotz großer Unterschiede zwischen Lehrkräften eine mittlere Korrelation von r = 0,76 zwischen Urteil und Kriterium.

Die Frage nach der Akkuratheit von Lehrerurteilen muss theoretisch und empirisch von der Frage nach soziokulturellen oder geschlechtsspezifischen Urteilsverzerrungen getrennt werden. Urteilsverzerrungen liegen dann vor, wenn sich Urteile über Personen nach deren Zugehörigkeit zu einer durch kategoriale Merkmale wie Sozialschicht, ethnische Herkunft oder Geschlecht definierten Gruppe systematisch im Hinblick auf ein Richtigkeitskriterium unterscheiden. Urteilsverzerrungen beeinträchtigen die Akkuratheit von Urteilen. Aber inakkurate Urteile können unverzerrt sein, solange sie nicht systematisch für oder gegen unterschiedliche Personengruppen ausfallen.

Spricht man in dieser Weise von Urteilverzerrungen, setzt man normativ einen Richtigkeitsmaßstab voraus, den Ferguson (2003) in seinem Überblicksartikel zu Lehrererwartungen und Rassendiskriminierung als Neutralität gegenüber Gruppen bezeichnet. Ferguson unterscheidet drei Neutralitätskonzepte, die in der Literatur zu finden sind. (1) Unconditional neutrality verlangt gleiche mittlere Urteile oder Erwartungen bezüglich unterschiedlicher Gruppen. Sobald Gruppenunterschiede bei der Beurteilung auftreten, liegt nach diesem normativen Konzept bereits keine Neutralität mehr vor. Die Frage der Korrektheit der in den Erwartungen implizierten Urteile wird gar nicht gestellt, da das Kriterium bereits selbst durch vorgängige Erwartungen beeinflusst ist. (2) Neutrality conditioned on observables erwartet Urteilsgleichheit unter Kontrolle vorhandener und beobachtbarer urteilsrelevanter Gruppenunterschiede. Urteilsverzerrung liegt dann vor, wenn tatsächlich auftretende Gruppenunterschiede (oder die gleiche Ausprägung von Merkmalen) systematisch verschätzt werden. Die Diagnose von Urteilsverzerrungen in diesem Sinne setzt eine korrekte und vollständige Spezifikation der Urteilskriterien voraus; die Nichtberücksichtigung von Urteilsgesichtspunkten führt zu Diagnosefehlern. Dieser Richtigkeitsmaßstab kann als Standard in der Lehrerurteils- oder Lehrererwartungsforschung gelten (Jussim et al. 1996; Lorenz et al. 2016). In Bezug auf Platzierungsentscheidungen erfordert neutrality conditioned on observables die Berücksichtigung aller formal legitimen und tatsächlich berücksichtigten Urteilskriterien. (3) Neutrality conditioned on potentials verlangt gleiche Urteile (oder Erwartungen) unter Berücksichtigung des (noch) nicht beobachtbaren Potenzials von Personen. In der Migrationsforschung ist diese Konzeption anzutreffen, wenn bei Beurteilungen ein Zuwanderungsbonus mit dem Hinweis auf ein vermutetes Entwicklungspotenzial, das z. B. durch Sprachdefizite verdeckt werde, gerechtfertigt wird. Im Folgenden werden wir alle drei Konzeptionen zur Ordnung und Interpretation der Befunde heranziehen. Von Urteilsverzerrung oder Bias wollen wir im Anschluss an Jussim et al. (1996) aber nur dann sprechen, wenn beobachtbare Niveauunterschiede zwischen Gruppen – wie z. B. Leistungs- oder Motivationsunterschiede – verschätzt werden, d. h. wenn eine Verletzung von neutrality conditioned on observables vorliegt.

3 Forschungsstand

3.1 Genese von Platzierungsentscheidungen

Am besten untersucht sind Platzierungsentscheidungen am Ende der Grundschulzeit. Qualitative Studien zu Entscheidungskriterien bei Grundschulempfehlungen zeigen, dass Lehrkräfte in erster Linie Leistungsinformationen, leistungsbezogene motivationale Merkmale, das Arbeitsverhalten und selbstregulative Fähigkeiten, aber auch das Sozialverhalten von Schülern sowie die potenzielle Unterstützung in der Familie und den Elternwunsch für wichtig erachten (Pohlmann 2009; Nölle et al. 2009; Böhmer et al. 2015). Demnach beruhen Platzierungsentscheidungen in der Wahrnehmung von Lehrpersonen auf multikriterialen Urteilen.

Welche dieser von Lehrkräften für relevant gehaltenen Urteilskriterien tatsächlich die Platzierungsentscheidung bestimmen, wurde für Grundschulempfehlungen mehrfach untersucht (Bos et al. 2004; Baeriswyl et al. 2006; Driessen et al. 2008; de Boer et al. 2010; Neugebauer 2011; Schneider 2011; Stubbe et al. 2012; Dumont et al. 2013a; Klapproth et al. 2013). In diesen zumeist quantitativen Analysen erwiesen sich leistungsbezogene Informationen (Noten, Testleistungen, kognitive Grundfähigkeiten) als die wichtigsten Prädiktoren. Ergänzend hinzukamen das Arbeitsverhalten, motivationale Merkmale und schulrelevante Persönlichkeitsmerkmale der Schüler, ferner die potenzielle Unterstützung im Elternhaus und der Schulformwunsch der Eltern, aber auch der Sozial- und Bildungsstatus der Herkunftsfamilie. Ähnliche Befunde fanden sich auch in einer experimentellen Untersuchung zum Abrufverhalten von Informationen bei Grundschulempfehlungen (Böhmer et al. 2015). Zudem konnten die Autoren zeigen, dass Bildungsgangempfehlungen primär auf kontrollierten und informationsintegrierenden Prozessen der Informationsverarbeitung beruhen. Dies dürfte a fortiori für die kollegiale Abstimmung bei Platzierungsentscheidungen gelten. Daraus ergibt sich unmittelbar die Frage, ob und inwieweit bei einer kontrollierten Informationsverarbeitung kategorienbasierte Urteilskomponenten, wie etwa die Berücksichtigung der Zugehörigkeit zu einer ethnischen oder sozialen Gruppe oder einem Geschlecht, tatsächlich entscheidungsrelevant werden.

3.2 Verzerrung von Platzierungsurteilen von Lehrkräften

3.2.1 Soziale Herkunft von Schülern und Platzierungsentscheidungen von Lehrkräften

Die internationale Befundlage zur Frage soziokultureller Verzerrungen von Platzierungsentscheidungen im Sinne des zweiten Neutralitätskonzepts neutrality conditioned on observables ist nur begrenzt konsistent. Auf der Grundlage US-amerikanischer Daten aus Baltimore berichten Dauber et al. (1996) für Kurszuweisungen in der 6. Jahrgangsstufe unter Kontrolle von Vorleistungen (Noten und Test) und ethnischer Herkunft einen jeweils spezifischen Einfluss des Sozialstatus und des Bildungsniveaus der Herkunftsfamilie auf die Wahrscheinlichkeit eines advanced placement’s. Diese Effekte ließen sich jedoch am Ende der 8. Jahrgangsstufe nicht mehr nachweisen. Aus den Niederlanden liegen drei Untersuchungen vor, die übereinstimmend Sozialstatuseffekte bei der Zuweisung zu Sekundarschulformen berichten (Driessen et al. 2008; de Boer et al. 2010; Timmermans et al. 2015). Für den flämischen Teil Belgiens berichten Boone und van Houtte (2013) unter Kontrolle von Noten und ethnischer Herkunft Sozialstatus- und Bildungseffekte auf die Übergangsentscheidung. In Luxemburg konnten Klapproth et al. (2013) bei Kontrolle von Fachleistungen (Tests und Noten), Motivation, Arbeits- und Sozialverhalten sowie ethnischer Herkunft der Schüler hingegen keinen Sozialschichteinfluss auf die Grundschulempfehlung nachweisen (vgl. für Luxemburg auch Glock et al. 2012). Für die deutschsprachigen Schulen im Kanton Freiburg/Schweiz wiederum fanden Baeriswyl et al. (2006), dass sich der Sozialstatus der Eltern auch bei Kontrolle von Noten, Testleistungen und motivationalen Merkmalen auf die Übertrittsempfehlung der Lehrkräfte auswirkt.

Die Befundlage für Deutschland ist weitgehend konsistent (vgl. im Überblick Dumont et al. 2014). In nahezu allen Untersuchungen ließen sich Effekte des Sozialstatus oder des Bildungsniveaus der Herkunftsfamilie von Schülern auch bei Kontrolle einschlägiger Kovariaten auf die Erteilung der Übergangsempfehlung am Ende der Grundschulzeit nachweisen. Besondere Überzeugungskraft haben darunter die Studien, die von einer komplexen Urteilsbildung von Lehrkräften ausgehen und in ihren Modellen Noten, Testleistungen, kognitive Grundfähigkeiten sowie motivationale Variablen und Merkmale des Arbeitsverhaltens und der Selbstregulation sowie schulrelevante Persönlichkeitsmerkmale berücksichtigen (Bos et al. 2004; Arnold et al. 2007; Neugebauer 2011; Schneider 2011; Stubbe et al. 2012).

Für die Schwelle beim Übergang in die berufliche Erstausbildung oder einen vorakademischen Bildungsgang liegen Untersuchungen zur sozialen Selektivität des Übergangs in die Oberstufe vor, aber so gut wie keine Studien zur soziokulturellen Selektivität der Platzierungsentscheidung (vgl. Schnabel und Schwippert 2000; Hillmert und Jacobs 2005; Trautwein et al. 2011; Schindler 2014, 2015; Kurz und Bohner-Taute 2016; Buchholz und Pratter 2017). Allein den Untersuchungen von Trautwein et al. (2011) und jüngst von Maaz et al. (2017) zum Übergang von einer nichtgymnasialen Schule in eine gymnasiale Oberstufe ist zu entnehmen, dass unter der Perspektive des ersten Neutralitätskonzepts der unconditional neutrality die Erteilung der Übergangsberechtigung sozial selektiv ist.

3.2.2 Ethnische Herkunft von Schülern und Platzierungsentscheidungen von Lehrkräften

Die im vorangehenden Abschnitt berichteten Befunde zum Zusammenhang zwischen Sozialstatus und Bildungsniveau der Herkunftsfamilie einerseits und Bildungsgangempfehlungen andererseits lassen sich nicht ohne Weiteres auf die ethnische Herkunft übertragen (vgl. Dumont et al. 2014; Diehl und Fick 2016; Dollmann 2016), auch wenn sich robust primäre Disparitäten der ethnischen Herkunft oder Verletzungen der unconditional neutrality bei Platzierungsentscheidungen nachweisen lassen (Tenenbaum und Ruck 2007; Stanat et al. 2010; Stubbe et al. 2012). Bei konditionalen Vergleichen stellt sich die Sachlage jedoch durchaus unterschiedlich dar. Für Kurszuweisungen in den Fächern Englisch und Mathematik am Ende der 6. Jahrgangsstufe fanden Dauber et al. (1996) in Baltimore auch bei Kontrolle von Vorleistungen und Sozialstatus eine Benachteiligung von Schülern afroamerikanischer und spanischer Herkunft. In der 8. Jahrgangsstufe war diese Benachteiligung allerdings nur noch im Fach Mathematik nachweisbar. In den Niederlanden gibt es eine Reihe von Arbeiten, die übereinstimmend belegen, dass Minoritäten, darunter auch die großen Gruppen der Schüler mit türkischer und marokkanischer Herkunft, bei der Vergabe von Bildungsgangempfehlungen am Ende der Grundschulzeit bei gleichen Leistungen einen Bonus erhalten (vgl. die Zusammenstellung der Studien bei de Boer et al. 2010 sowie Driessen et al. 2008; Timmermans et al. 2015). Eine Ausnahme macht die Längsschnittuntersuchung von de Boer et al. (2010), die keinen signifikanten Effekt der ethnischen Herkunft fanden. Ein vergleichbares Ergebnis berichten Boone und van Houtte (2013) aus dem flämischen Teil Belgiens und Baeriswyl et al. (2006) aus der Schweiz. In Luxemburg dagegen fanden Klapproth et al. (2013) in einem komplex spezifizierten Entscheidungsmodell eine Benachteiligung von Schülern portugiesischer Herkunft, die zur größten Minderheit in Luxemburg gehören. Zwei experimentelle Arbeiten aus Luxemburg kommen zu widersprüchlichen Ergebnissen (Glock et al. 2012, 2013).

In Deutschland ist die Befundlage in der Grundtendenz konsistent. Bei Bildungsgangempfehlungen am Ende der Grundschulzeit sind Benachteiligungen aufgrund der ethnischen Herkunft im Sinne des zweiten Neutralitätskonzepts neutrality conditioned on observables nicht nachweisbar. Eine scheinbare Ausnahme machen nur die Ergebnisse von Lüdemann und Schwerdt (2013). Die Autoren kommen zu dem Ergebnis, dass männliche Migranten bei der Erteilung einer Gymnasialempfehlung unter Kontrolle von Testleitungen und kognitiven Grundfähigkeiten (keine Noten) benachteiligt seien. Dieser Effekt ist jedoch bei Kontrolle des Sozialstatus nicht mehr nachweisbar und verkehrt sich nach den Befunden von Bos et al. (2004) bei zusätzlicher Kontrolle der Noten in einen Migrationsbonus, ein Muster, das sich auch in einer Reihe weiterer Untersuchungen zeigt (Lehmann et al. 1997; Bos et al. 2004; Caro et al. 2009; Schulze et al. 2009; Schneider 2011; Stubbe et al. 2012). Andere Ergebnisse sprechen für Gleichbehandlung (Ditton et al. 2005; Kristen 2006; Tiedemann und Billmann-Mahecha 2007; Wagner et al. 2009; Neugebauer 2011; Gresch 2012; Dumont et al. 2013a).

3.2.3 Geschlecht von Schülern und Platzierungsentscheidungen von Lehrkräften

Im Hinblick auf eine unterschiedliche Behandlung von Jungen und Mädchen bei Platzierungsentscheidungen ist die internationale und nationale Befundlage insofern eindeutig, als es, mit zwei Ausnahmen (Neugebauer 2011; Stubbe et al. 2012), keine empirischen Belege für eine Benachteiligung von Mädchen gibt. Strittig ist allenfalls, ob Mädchen einen Beurteilungsbonus erhalten und worauf dieser gegebenenfalls zurückzuführen ist. In einer Reihe von Untersuchungen wurde dieser Effekt unter Kontrolle von Testleistungen, teilweise auch unter Kontrolle von Testleistungen und motivationalen Merkmalen gefunden (Dauber et al. 1996; Arnold et al. 2007; Driessen et al. 2008; Caro et al. 2009; Martínez et al. 2009; Milek et al. 2009; de Boer et al. 2010; Ready und Wright 2011; Timmermans et al. 2015; Lorenz et al. 2016; Meissel et al. 2017). Möglicherweise werden Mädchen für angepasstes Unterrichts- und Schulverhalten honoriert (Kaiser et al. 2013). Keine Unterschiede berichten bei angemessener Kontrolle von Kovariaten Ditton et al. (2005), Baeriswyl et al. (2006), Schneider (2011) und Boone und van Houtte (2013).

3.2.4 Soziale Kontexte und die Verzerrung der Leistungsurteile von Lehrkräften

Leistungsurteile von Lehrkräften sind auch von sozialen Kontexten abhängig. Dies gilt gleichermaßen für Notenvergabe und Platzierungsentscheidungen. Untersucht wurde bislang vor allem, inwieweit die leistungsmäßige, soziale und ethnische Zusammensetzung von Schulklassen oder Schulen das Niveau der Leistungsurteile von Lehrkräften beeinflusst. Übersichten über die Forschung zu Niveaueffekten sind bei Dumont et al. (2013b) und Westphal et al. (2016) zu finden. Dagegen gibt es nur sehr wenige Arbeiten, die die Auswirkungen von Kompositionsmerkmalen auf die Verzerrung der Urteile von Lehrkräften, also den Zusammenhang zwischen soziokulturellen Merkmalen und Urteilsfindung untersuchen – eine Frage, die für den vorliegenden Beitrag bedeutsam ist.

Martínez et al. (2009) können für Dritt- und Fünftklässler der US-amerikanischen Early Childhood Longitudinal Study (ECLS-K) zeigen, dass mit steigendem Anteil von Schülern mit geringen Englischkenntnissen die Akkuratheit der Leistungsbeurteilungen zurückgeht. Ebenfalls auf Grundlage der ECLS-K-Studie berichten Ready und Wright (2011) für die Kindergartenkohorte, dass sowohl mit steigender Sozialschicht als auch mit steigendem Leistungsniveau einer Lerngruppe die Beurteilung der Schüler insgesamt wohlwollender und der Bias zuungunsten von Schülern aus sozial schwächer gestellten Familien kleiner wird. Sie finden also einen Generalisierungseffekt, der ein Bewusstsein für institutionelle Unterschiede voraussetzt, und eine Cross-level-Interaktion, die den Zusammenhang zwischen sozialer Herkunft und Beurteilung moderiert. Umgekehrt heißt dies, dass sozial benachteiligte Schüler in sozial und leistungsmäßig schwachen Klassen besonders ungünstig beurteilt werden. Die einzige in Deutschland zu diesem Thema vorliegende Untersuchung von Hochweber et al. (2014) berichtet einen nichtlinearen Zusammenhang zwischen der leistungsmäßigen Komposition einer Schulklasse und der Akkuratheit der Notenvergabe. Einen Zusammenhang zwischen Merkmalen der Klassenkomposition und Urteils-Bias konnten sie nicht finden. Insgesamt weisen diese wenigen Befunde darauf hin, dass bei ungünstiger Lerngruppenzusammensetzung die Akkuratheit der Leistungsurteile von Lehrkräften zurückzugehen und ein herkunftsbedingter Urteils-Bias tendenziell zu wachsen scheint.

3.3 Schulkontext der vorliegenden Studie

Die quasi-experimentelle Begleituntersuchung zur Berliner Schulstrukturreform (BERLIN-Studie: vgl. Neumann et al. 2017a), mit der im Schuljahr 2010/11 das Sekundarschulsystem des Landes flächendeckend auf Zweigliedrigkeit umgestellt wurde, bietet eine exemplarische Gelegenheit, Fragen der soziokulturellen und geschlechtsspezifischen Selektivität von Platzierungsentscheidungen am Übergang zur Sekundarstufe II zu untersuchen. Erklärtes Doppelziel der Berliner Schulstrukturreform ist die langfristige Erhöhung der Abiturientenquote, verbunden mit der Reduzierung soziokultureller Disparitäten in der Bildungsbeteiligung (Abgeordnetenhaus 2009). Der Übergang in die gymnasiale Oberstufe ist an die Erteilung einer Übergangsberechtigung am Ende der 10. Klasse gebunden, deren Leistungsvoraussetzungen nach einem KMK-Beschluss (KMK 1993) länderübergreifend abgestimmt sind. In Berlin ist die Erteilung der Berechtigung zum Übergang in die gymnasiale Oberstufe durch Rechtsverordnung geregelt (Sek-I-VO vom 31.03.2010 i.d.F. vom 25.01.2011). Am Gymnasium wird die Übergangsberechtigung mit der Versetzung in die nächst höhere Jahrgangsstufe ausgesprochen, die fast alle Schüler erwarten. An nichtgymnasialen Schulen bedarf es dagegen eines qualifizierten Mittleren Abschlusses (MSA), dessen Vergabe keineswegs selbstverständlich ist. Der Übergang in die gymnasiale Oberstufe an nichtgymnasialen Schulen stellt eine leistungsbewehrte Selektionsschwelle dar. Die Übergangsvoraussetzungen sind bei Neumann et al. (2017) detailliert dargestellt.

4 Differenzierung der Fragestellungen

Im Anschluss an die Befunde zur ersten Selektionsschwelle im deutschen Bildungssystem, dem Übergang von der Grundschule in die Sekundarstufe I, untersucht der vorliegende Beitrag die soziokulturelle und geschlechtsspezifische Selektivität von Platzierungsentscheidungen beim Übergang in die gymnasiale Oberstufe an nichtgymnasialen Schulen im mehr- und zweigliedrigen Schulsystem.

4.1 Berechtigungschancen nach soziokultureller Herkunft und Geschlecht

Unter Rückgriff auf die Neutralitätskonzepte unconditional neutrality und neutrality conditioned on observables nach Ferguson (2003) untersuchen wir, ob sich die Chancen auf eine Übergangsberechtigung in die gymnasiale Oberstufe zwischen Schülern unterschiedlicher soziokultureller Herkunft sowie zwischen Mädchen und Jungen unterscheiden. Entsprechend der existierenden deskriptiven Befunde zu den Übergangsberechtigungen an nichtgymnasialen Schulen in Berlin (Maaz et al. 2017) vermuten wir im Sinne des ersten Neutralitätskonzepts unconditional neutrality, dass sich sowohl soziokulturelle Disparitäten (Hypothese H 1a) als auch geschlechtsspezifische Disparitäten (Hypothese H 1b) auch bei wechselseitiger Kontrolle von Sozial- und Migrationsstatus und Geschlecht nachweisen lassen. Unter Perspektive des zweiten Neutralitätskonzepts neutrality conditioned on observables vermuten wir, dass sich bereits unter Kontrolle des objektiven Leistungsstatus, der Lernmotivation und des allgemeinen Schulverhaltens der Schüler, also ohne Kontrolle der schulinternen Notenvergabe, soziale und ethnische Disparitäten nicht mehr nachweisen lassen (Hypothese H 2a). Ferner erwarten wir im Hinblick auf geschlechtsspezifische Disparitäten, dass Schülerinnen im Vergleich zu Schülern bei gleichen, objektiv erfassten Fachleistungen einen Beurteilungsbonus erhalten, der auf höhere Lernmotivation und besser angepasstes Schulverhalten zurückzuführen ist, jedoch vollständig über die schulinterne Notenvergabe vermittelt sein sollte (Hypothese H 2b). Darüber hinaus, gehen wir davon aus, dass die Urteile von Lehrkräften oder mögliche Verzerrungen dieser Urteile vom jeweiligen sozialen Kontext, d. h. dem spezifischen Schulkontext, abhängig sind, da dieser den Referenzrahmen für Vergleiche bildet. So nehmen wir an, dass aufgrund eines Generalisierungseffekts mögliche Urteilsverzerrungen in leistungsmäßig und sozial/ethnisch günstigen Schulkontexten geringer ausfallen. In diesen Fällen wären Cross-level-Interaktionen zwischen Komposition der Schülerschaft einer Schule und dem Zusammenhang zwischen Herkunftsmerkmalen und Übergangsberechtigung zu erwarten (Hypothese H 3).

4.2 Veränderung von Berechtigungschancen an nichtgymnasialen Schulen durch die Schulstrukturreform

Im Anschluss an die Untersuchung möglicher soziokultureller und geschlechtsspezifischer Disparitäten in den Berechtigungschancen beim Übergang in die gymnasiale Oberstufe soll in einem zweiten Schritt analysiert werden, inwiefern die institutionellen Veränderungen in den nichtgymnasialen Schulformen, die im Zuge der Berliner Schulstrukturreform erfolgten, in Zusammenhang mit Disparitäten in den Berechtigungschancen stehen. So soll nach den politischen Zielsetzungen der Berliner Schulstrukturreform mit der Öffnung des Zugangs zur gymnasialen Oberstufe und zum Abitur nicht zuletzt auch eine Verminderung soziokultureller Disparitäten verbunden sein (Abgeordnetenhaus 2009). Es sind mehrere Szenarien denkbar, in denen dieses Ziel realisiert werden könnte.

Im ersten Szenario gelingt es, durch gezielte Förderung von Schülern aus sozial schwächeren oder zugewanderten Familien den Anteil derjenigen, die die kritische Leistungsgrenze für die Berechtigung zum Übergang in die gymnasiale Oberstufe überschreiten, signifikant zu erhöhen. Dadurch würden soziokulturelle Disparitäten im Sinne des ersten Neutralitätskonzepts unconditional neutrality reduziert. Möglicherweise vorhandene soziokulturelle Verzerrungen der Platzierungsentscheidung im Sinne des zweiten Neutralitätskonzepts neutrality conditioned on observables bleiben dabei unberührt.

Im zweiten Szenario werden mit der Öffnung des Zugangs zur gymnasialen Oberstufe Ausschöpfungsgrenzen im Kreis der herkunftsmäßig privilegierten Schüler erreicht und überschritten, sodass Schüler aus sozial schwachen oder zugewanderten Familien stärker zum Zuge kommen. Für das Auftreten dieses Disparitäten vermindernden Sättigungseffekts ist ausschließlich eine hinreichende Expansionsdynamik erforderlich, die auch durch das Absenken von Leistungsanforderungen erreicht werden kann. Auch in diesem Szenario werden unter der Perspektive von unconditional neutrality Disparitäten vermindert, ohne dass mögliche Urteilverzerrungen im Sinne der Verletzung des zweiten Neutralitätskonzepts neutrality conditioned on observables tangiert würden.

Im dritten Szenario ändert sich der Zusammenhang zwischen Herkunftsmerkmal und Platzierungsentscheidung durch die Modifikation des herkunftsbezogenen Entscheidungsverhaltens. In einem Fall werden möglicherweise vorhandene soziokulturelle Urteilverzerrungen im Sinne der Verletzung bedingter Neutralität mit der Strukturreform korrigiert, indem objektive Leistungsmaße bei der Erteilung von Übergangsberechtigungen stärker zur Geltung gebracht werden. Eine höhere Gewichtung der Ergebnisse der zentralen Tests, die Berlin für den Erwerb des Mittleren Abschlusses (MSA) durchführt, wären ein Regulationsinstrument. Im zweiten Fall, für den es in Berlin allerdings keine Anhaltspunkte gibt, müsste im Sinne einer affirmative action ein systematischer Berechtigungsbonus für benachteiligte Gruppen vergeben werden. In dieser Variante nimmt man eine Verletzung der neutrality conditioned on observables zu Gunsten einer neutrality conditioned on potentials in Kauf, um eine Verringerung der Disparitäten im Sinne von unconditional neutrality zu erreichen.

In einem vierten Szenario verringert sich mit der Schulstrukturreform die institutionelle Stratifizierung des Schulsystems vor allem durch die Schließung oder Transformation von Schulen mit einer besonders ungünstig zusammengesetzten Schülerschaft (vgl. Baumert et al. 2017). In diesem Fall könnten potenzielle negative Kontexteffekte reduziert werden (vgl. Hypothese H 3).

Alle vier Szenarien schließen sich nicht wechselseitig aus. Auf der Basis bisheriger empirischer Befunde sind jedoch einige Szenarien wahrscheinlicher als andere. So haben Becker et al. (2017b) gezeigt, dass die Berliner Schulstrukturreform zu keiner Verbesserung des Leistungsniveaus von Neuntklässlern geführt hat. Dennoch fanden Neumann et al. (2017c) einen starken Anstieg der Übergangsberechtigungen an Integrierten Sekundarschulen (ISS), der fast zu einer Verdoppelung der Berechtigungsquoten an nichtgymnasialen Schulen führte. Diese formale Öffnung des Zugangs zur Hochschulreife war mit einer bedeutenden Absenkung der kritischen Leistungsschwelle und einem Rückgang im mittleren Leistungsniveau der übergangsberechtigten Schülerschaft (Baumert et al. im Druck; Neumann et al. 2017a) verbunden. Diese Befunde sprechen gegen das Eintreten der im ersten Szenario skizzierten Fördereffekte.

Vielmehr legen die Befunde die Vermutung nahe, dass alle sozialen und ethnischen Gruppen vom Anstieg der Berechtigungsquoten und dem Absenken der Leistungsanforderungen profitieren. Ob in der Gruppe der nach sozialer und ethnischer Herkunft privilegierten Schüler mit der Schulstrukturreform und der Öffnung des Zugangs zur gymnasialen Oberstufe an den nichtgymnasialen Schulen generell oder an einzelnen Schulen ein Sättigungseffekt auftritt, der benachteiligte Schülergruppen beim Erwerb der Übergangsberechtigung begünstigt und damit Ungleichheit im Sinne der Verletzung des ersten Neutralitätsprinzips verringert, ist kaum zu prognostizieren.

Das dritte Szenario ist durchaus denkbar, sofern sich eine soziokulturelle Urteilsverzerrung im Sinne der Verletzung konditionaler Neutralität in der Kontrollkohorte überhaupt nachweisen lässt oder mit der Reform eine positive Diskriminierung benachteiligter Gruppen angestrebt würde. Die Absenkung der Leistungsvoraussetzungen für den Zugang zur gymnasialen Oberstufe (Neumann et al. 2017b) spricht allerdings gegen leistungsstabilisierende Maßnahmen, und in der Expansionspolitik des Landes spielt positive Diskriminierung keine Rolle.

Für das vierte Szenario gibt es in der Literatur nur wenige Belege. Die starke Stratifizierung des Berliner Schulsystems vor der Schulstrukturreform könnte jedoch die Entstehung institutioneller Milieus begünstigen, in denen unter dem Gesichtspunkt des zweiten Neutralitätskonzepts neutrality conditioned on observables Verzerrungen der Platzierungsentscheidungen zuungunsten benachteiligter Gruppen auftreten oder verstärkt werden. Ob dies der Fall ist und die Schulstrukturreform gegebenenfalls daran etwas geändert hat, ist eine offene Frage.

Die vier Szenarien und die Diskussion ihrer Realisierungschancen zeigen, wie schwierig es ist, gerichtete Hypothesen zur Veränderung der soziokulturellen und geschlechtsspezifischen Unterschiede bei der Erteilung der Oberstufenzugangsberechtigung infolge der Schulstrukturreform zu formulieren. Plausibel ist die Erwartung, dass es zu keiner Verringerung der bestehenden unkonditionalen Disparitäten infolge von Leistungsverbesserungen kommt. Die übrigen Veränderungsmöglichkeiten bedürfen der explorativen Prüfung.

5 Methode

5.1 Datengrundlage

Die Datengrundlage des vorliegenden Beitrags liefert die BERLIN-Studie, mit der Implementation und Auswirkungen der Umstellung des Sekundarschulsystems von Fünf- auf Zweigliedrigkeit in Berlin untersucht werden (Neumann et al. 2017b). Die BERLIN-Studie ist in einem quasi-experimentellen Kontrollgruppendesign längsschnittlich angelegt. Zum Ende des Schuljahres 2010/11 wurden an öffentlichen Schulen Berlins 15-jährige Schüler, die eine 9. Klasse besuchten, untersucht. Die Schüler gehören zu dem Jahrgang, der als letzte Kohorte das fünfgliedrige Schulsystem in Berlin vollständig durchlaufen hatte. Diese Kohorte bildet die Kontrollgruppe der BERLIN-Studie. Zum Ende des Schuljahres 2013/14 wurde die Untersuchung an einer nach Alter und Klassenstufe parallelisierten Stichprobe wiederholt. Diese Schüler gehören dem Jahrgang an, der als 2. Kohorte das reformierte zweigliedrige Sekundarschulsystem absolviert hatte. Diese Schüler bilden als Reformkohorte die Experimentalgruppe der BERLIN-Studie.

Die Stichprobenziehungen folgen einem mehrstufigen, stratifizierten Stichprobenplan. In einem ersten Schritt wurden nach Schulform stratifizierte Zufallsstichproben von Schulen gezogen. In einem zweiten Schritt wurden innerhalb der einzelnen Schulen Zufallsstichproben von Schülern gezogen. Die Stichprobe umfasste in der Kontrollkohorte N = 2783 Schüler der 9. Jahrgangsstufe und N = 2868 15-Jährige. In der Reformkohorte beläuft sich die Stichprobe auf N = 2109 Neuntklässler und N = 2384 15-Jährige. Die Ausschöpfungsquoten, d. h. die Anteile der Schüler, die mindestens an einem Testtag an der Untersuchung teilgenommen hatten, lagen zwischen 85 und 92 %. Die Stichproben der Neuntklässler werden in beiden Kohorten längsschnittlich verfolgt. Für die Analysen dieses Beitrags werden gewichtete Stichproben der Neuntklässler an nichtgymnasialen Schulen genutzt. Diese Teilstichproben umfassen in der Kontrollkohorte N = 2155 und in der Reformkohorte N = 1578 Schüler. Die verwendeten Gewichte, die auf der amtlichen Statistik basieren, bilden die Populationsverhältnisse im nichtgymnasialen Teil des Schulsystems sowohl in der Kontroll- als auch in der Reformkohorte korrekt ab. Untersuchungsplan und Stichprobenziehung werden von Becker et al. (2017a) detailliert beschrieben.

5.2 Untersuchungsinstrumente

5.2.1 Personenmerkmale, familialer Hintergrund und Schulbiografie

Angaben zum Geschlecht der an der Untersuchung teilnehmenden Schüler wurden aus den Schulakten übernommen. Der Sozialstatus der Familie der Untersuchungsteilnehmer wird durch den International Socio-economic Index of Occupational Status (ISEI) bestimmt. Dabei wird jeweils der höhere Wert der beiden Elternteile zugrunde gelegt (HISEI). Die dafür verwendeten Berufsangaben beruhen auf Auskünften im Schülerfragebogen. Die Berufe wurden mit zwei Fragen erfasst. Zum einen wurde die Angabe der Berufsbezeichnung und zum anderen eine kurze Beschreibung der tatsächlichen beruflichen Tätigkeiten erbeten. Beide Informationen wurden zur Bestimmung des zugewiesenen ISCO-Codes anhand des „Berufstätigkeitslexikons“ des Data Processing and Research Centers der IEA (DPC), in dem Schüler- und Elternangaben zum elterlichen Beruf und zur Berufstätigkeit aus fast allen deutschen Large-Scale-Assessment-Untersuchungen zusammengefasst sind, verwendet. Das Verfahren führt zu reliablen automatischen und in Zweifelsfällen doppelt manuellen Kodierungen der Berufsangaben von Jugendlichen (Maaz et al. 2009; Paulus und Matthes 2013). Das Bildungsniveau der Familien wird über den höchsten Schulabschluss der Eltern definiert. Die Angaben zu den Schulabschlüssen der Eltern beruhen auf Auskünften der befragten Schüler. Der Migrationshintergrund der Befragten wurde in drei Ausprägungen operationalisiert (0 = beide Eltern in Deutschland geboren, 1 = ein Elternteil in Deutschland geboren, 2 = beide Eltern im Ausland geboren). Auch diese Angaben beruhen auf Auskünften im Schülerfragebogen. Als schulbiografische Merkmale werden die Schulformzugehörigkeit und die am Ende der 10. Jahrgangsstufe erteilte Berechtigung zum Übergang in die gymnasiale Oberstufe berücksichtigt. Die Berechtigung zum Übergang in die gymnasiale Oberstufe wurde dem Jahreszeugnis am Ende der 10. Jahrgangsstufe entnommen.

5.2.2 Leistungsmerkmale

Schulleistungen wurden in der BERLIN-Studie in beiden Kohorten über die Testleistungen in den Domänen Deutsch (Leseverstehen), Mathematik, Naturwissenschaften im Anschluss an das Program for International Student Assessment der OECD (PISA) (Prenzel et al. 2008) und Englisch (Leseverstehen) im Anschluss an die Länder vergleichende Überprüfung der Bildungsstandards der KMK (BISTA) (Köller et al. 2010) erhoben. Die Testitems wurden im Rahmen des Partial Credit Model in beiden Kohorten konkurrent einparametrisch skaliert. Die Personen-Parameter wurden auf der Basis sog. Plausible Values (PVs) geschätzt und in der Kontrollkohorte auf einen Mittelwert von 100 und eine Standardabweichung von 30 standardisiert. Die Reliabilitäten der Tests liegen je nach Domäne und Kohorte zwischen rEAP = 0,88 und rEAP = 0,93 (zur Testkonstruktion vgl. ausführlich Becker et al. 2017a). Im vorliegenden Beitrag werden die Ergebnisse der Leistungstests faktorenanalytisch zu einem einzigen Gesamtwert zusammengefasst, der ebenfalls in der Kontrollkohorte auf einen Mittelwert von 100 und eine Standardabweichung von 30 standardisiert wurde.

Als weiteres Leistungsmerkmal wird die am Ende der 9. Jahrgangsstufe erreichte Durchschnittsnote in den Fächern Deutsch, Mathematik und Englisch herangezogen. Die Noten wurden den Jahrgangszeugnissen entnommen.

5.2.3 Motivationale Orientierung, Schulverhalten und Persönlichkeit

Schulmotivation wurde durch Lernfreude (4 Items; α = 0,82; Beispielitem: „Lernen macht mir Spaß“) und die schulische Anpassung durch Schulversäumnisse (4 Items; α = 0,83; Beispielitem: „… ohne Erlaubnis während des Unterrichts die Schule verlassen?“) erhoben. Persönlichkeitsmerkmale (Big Five) wurden mit einer deutschsprachigen Kurzfassung des Big-Five-Inventory erfasst (Gewissenhaftigkeit: 4 Items; α = 0,65; Beispielitem: „Ich bin jemand, der gründlich arbeitet“) (BFI-S; Gerlitz und Schupp 2005).

5.2.4 Institutionelle Merkmale und Merkmale der Zusammensetzung der Schülerschaft

Als institutionelle Merkmale werden die Schulform und die Verfügbarkeit einer eigenen gymnasialen Oberstufe berücksichtigt. Zur Kennzeichnung der Zusammensetzung der Schülerschaft einer Schule werden die mittleren Schulleistungen, der auf Schulebene gemittelte Sozialschichtindex (HISEI) und der Anteil der Schüler mit beidseitigem Migrationsstatus herangezogen.

5.3 Fehlende Werte und Mehrebenenstruktur

Feldstudien sind in der Regel mit dem Problem eines partiellen Datenausfalls durch Nichtteilnahme oder Antwortverweigerung konfrontiert. Dies gilt auch für beide Kohorten der BERLIN-Studie. Fehlende Werte traten bei Angaben, die Schulakten entnommen wurden (Geschlecht, Alter, Schulstufe, Schulform), entweder gar nicht oder kaum auf und sind praktisch zu vernachlässigen. Für die den Zeugnissen entnommenen Angaben hinsichtlich der Berechtigung zum Übergang in eine gymnasiale Oberstufe liegt der Anteil fehlender Werte bei 25,1 % in der Kontrollkohorte und bei 9,2 % in der Reformkohorte. Bei Leistungsdaten beträgt der Anteil fehlender Werte je nach Kohorte bis zu 25,2 % und bei Fragebogenangaben zu Motivation und Schulanpassung auf Ebene der gebildeten Skalen bis zu 23,1 bzw. 23,9 %. In der BERLIN-Studie wurden fehlende Werte auf der Grundlage eines breiten Hintergrundmodells multipel imputiert. Die Imputation wurde mit dem Verfahren Multivariate Imputation by Chained Equations (MICE), das in R implementiert ist, durchgeführt (Van Buuren und Groothuis-Oudshoorn 2011). Es wurden fünf PV-Datensätze erzeugt, die die PVs sowohl aus der Skalierung der Leistungsdaten als auch die zugehörigen Imputationen des Hintergrundmodells enthalten (vgl. dazu ausführlich Becker et al. 2017a). Analyseergebnisse werden nach den Formeln von Rubin (1987) integriert, wodurch sowohl die Imputationsvarianz innerhalb als auch zwischen den einzelnen PVs für die Schätzung der Standardfehler berücksichtigt wird. Dies kann in Mplus (Muthén und Muthén 1998–2013) mit der Analyseoption type=imputation automatisiert in den statistischen Analysen implementiert werden.

In der BERLIN-Studie wurde ein zweistufiger Stichprobenplan realisiert, indem Abhängigkeit der Personen innerhalb von Schulen vorliegt. Dies führt abhängig von der Intraklassenkorrelation (ICC) zu einer Unterschätzung der Standardfehler. Diesem Problem kann man durch eine explizite Modellierung der Mehrebenenstruktur oder durch die Schätzung robuster Standardfehler begegnen. Im vorliegenden Beitrag verwenden wir beide Vorgehensweisen.

5.4 Analytisches Vorgehen

Im Ergebnisteil werden zunächst deskriptive Befunde berichtet, die einen Populationsvergleich der untersuchten Kohorten erlauben. Im anschließenden multivariaten Teil beruhen die Auswertungen im Wesentlichen auf Regressionsanalysen im linearen Wahrscheinlichkeitsmodell (linear probability model [LPM]) mit der Oberstufenzugangsberechtigung als dichotomer abhängiger Variablen.

Bei dichotomen abhängigen Variablen ist die Nutzung logistischer Regressionen die naheliegende Analyseentscheidung. Unsere Fragestellung verlangt den Vergleich von geschachtelten Modellen innerhalb einer Stichprobe/Kohorte und vor allem den Vergleich von Modellen über Gruppen/Kohorten vor und nach einer institutionellen Intervention. Gerade dies ist jedoch bei nichtlinearen Regressionen aufgrund von Voraussetzungen der Modellidentifikation nicht oder nicht direkt möglich (Winship und Mare 1984; Karlson et al. 2010; Mood 2010; Best und Wolf 2012). Um Koeffizienten in nichtlinearen Modellen vergleichbar zu machen, gibt es verschiedene Vorschläge, die bei Kern und Stein (2015) diskutiert werden.

Solange sich, wie in unserem Fall, das Hauptinteresse der Analysen primär auf die Richtung von Effekten und ihre zufallskritische Absicherung sowie die Schätzung durchschnittlicher Effektstärken richtet und der nichtlineare Zusammenhang von nachgeordneter Bedeutung ist, bieten sich zwei unterschiedliche Lösungswege an. In logistischen Regressionsanalysen lassen sich durchschnittliche marginale Effekte schätzen (average marginal effects [AMEs]), die den Durchschnittseffekt eines Prädiktors als Mittelwert aller marginalen Effekte über alle Beobachtungen hinweg wiedergeben. AMEs approximieren im Wesentlichen den linearen Trend und sind über Modelle und Gruppen hinweg weitgehend vergleichbar (Mood 2010; Best und Wolf 2012). Sie sind unmittelbar einleuchtend als Veränderungen der Wahrscheinlichkeit zu interpretieren, dass die abhängige Variable die Ausprägung 1 annimmt.

Ein zweiter Weg ist die Schätzung von LPMs, für die die Einschränkungen der logistischen Regression nicht gelten. LPMs liefern erwartungstreue und konsistente Schätzungen des Effekts einer Variablen auf P(y = 1) (vgl. Wooldridge 2010). Standardfehler (SE) lassen sich über Sandwichschätzer (Huber-White-Schätzer) korrekt ermitteln. LPM-Koeffizienten stimmen mit AMEs praktisch überein, solange die Prädiktoren nicht grob von der Normalverteilung abweichen. Bei Verletzung der Normalitätsannahme können Verschätzungen auftreten, die mit steigender Interkorrelation der Prädiktoren zunehmen (Best und Wolf 2012). LPMs haben gegenüber AMEs den Vorteil, dass nicht nur die Regressionskoeffizienten, sondern auch die Intercepts direkt über Modelle und Gruppen hinweg vergleichbar sind.

Aufgrund dieser Überlegungen und des Umstands, dass die in unseren Analysen verwendeten Prädiktoren mit drei Ausnahmen (Schulversäumnisse, Bildungsniveau der Herkunftsfamilie und Migrationsstatus) annähernd normalverteilt sind, berichten wir im Ergebnisteil die Resultate von LPMs mit robusten Standardfehlern. Um die Belastbarkeit der Befunde abzusichern, haben wir als Sensitivitätsanalyse mit logistischen Regressionsanalysen AMEs unter Anwendung der KHB-Korrektur (Karlson et al. 2010) geschätzt, die im Online-Anhang ausgewiesen sind. Treten relevante Abweichungen auf, werden diese diskutiert.

Zur Überprüfung potenzieller Reformeffekte werden Zweigruppenvergleiche zwischen Kontroll- und Reformkohorte durchgeführt. Interaktionen zwischen Kohortenzugehörigkeit und den als Prädiktoren spezifizierten Variablen werden mit dem Wald-Test geprüft. Für die Schätzung von schulischen Kontexteffekten werden hierarchisch-lineare Regressionsmodelle spezifiziert. Metrische Prädiktoren auf individueller Ebene werden dabei am grandmean zentriert. Kontextmerkmale werden durch Aggregation manifest gebildet. Bei der Spezifikation von Random-intercept/random-slope-Modellen ist ein Zweigruppenvergleich mit zwischen den Gruppen variierenden Steigungen nicht möglich. In diesen Fällen werden für die beiden Kohorten getrennte Modelle geschätzt; Parameterunterschiede werden hier mit Hilfe der Konfidenzintervalle geprüft.

6 Ergebnisse

6.1 Deskriptive Ergebnisse

Die BERLIN-Studie vergleicht zwei Schülerjahrgänge, die im Abstand von drei Jahren, vor und nach der Schulstrukturreform, untersucht wurden. Ob und inwieweit sich in dieser Zeit wichtige Populationsparameter verändert haben, wird in Tab. 1 für Schüler, die eine nichtgymnasiale Schule besuchen, geprüft.

Tab. 1 Stichprobenbeschreibung für die Neuntklässler/-innen an nichtgymnasialen Schulen in der Kontroll- und Reformkohorte, gewichtete Daten (Angaben in Prozent- bzw. Mittelwerten [M], robuste Standardfehler [SE] in Klammern, Differenz der Prozent- bzw. Mittelwerte [∆], t‑Werte [t] und Irrtumswahrscheinlichkeit [p])

Die in Tab. 1 zusammengefassten Ergebnisse zeigen eine weitgehende Stabilität der Populationsparameter im nichtgymnasialen Bereich. Deutliche Unterschiede werden im mittleren Alter der Neuntklässler sichtbar. In der Reformkohorte sind die Schüler, die die 9. Jahrgangsstufe besuchen, im Mittel um vier Monate jünger. Dies ist teilweise auf eine Umstellung der Einschulung von einer Stichtags- auf eine Geburtsjahresregelung im Jahr 2004 zurückzuführen und teilweise Folge einer Abschaffung der Klassenwiederholung an ISS (vgl. Neumann et al. 2017c). Nennenswerte Unterschiede treten auch im Bildungsniveau der Herkunftsfamilie – höherer Anteil mit Hochschulreife in der Reformkohorte – und im Migrationsstatus – niedrigerer Anteil von Jugendlichen mit beidseitigem und höherer Anteil mit einseitigem Migrationshintergrund in der Reformkohorte – auf. Während die Unterschiede hinsichtlich des Migrationsstatus durchaus Populationsveränderungen abbilden können, weist die Zunahme der Abiturientenquote bei stabilem Sozialschichtniveau möglicherweise auf eingeschränkte Reliabilität der Bildungsangabe hin. Dies ist bei den Analysen im Auge zu behalten.

Tabelle 2 gibt einen Überblick über die Verteilung der an nichtgymnasialen Schulen erworbenen Oberstufenzugangsberechtigungen in der Kontroll- und Reformkohorte differenziert nach Bildungsniveau der Herkunftsfamilie, Migrationsstatus, Geschlecht und Organisationsform der besuchten Schule (ohne/mit Oberstufe). Die Tabelle weist in der jeweils unteren Randspalte einen großen Anstieg der Berechtigungsquoten aus. An nichtgymnasialen Schulen insgesamt stieg die Quote der Übergangsberechtigten von der Kontroll- zur Reformkohorte um rund 18 Prozentpunkte von 23,5 auf 41,1 %, an Schulen ohne Oberstufe von 18,4 auf 33,7 % und an Schulen mit eigener Oberstufe von 32,1 auf 52,6 %. Betrachtet man die Verteilung der Berechtigungen nach dem Bildungsniveau der Herkunftsfamilie oder nach dem Migrationsstatus der Schüler, zeigen sich die aus den Untersuchungen zu den Grundschulempfehlungen bekannten und für die Platzierungsentscheidungen am Ende der Sekundarstufe I unter der Perspektive von unconditional neutrality erwarteten sozialen und ethnischen Disparitäten. Das Gefälle ist, allerdings auf unterschiedlichem Niveau, sowohl in Schulen mit als auch in Schulen ohne eigene Oberstufe in ähnlicher Form zu finden.

Tab. 2 Schüler mit der Berechtigung zum Übergang in die gymnasiale Oberstufe an nichtgymnasialen Schulen nach Kohortenzugehörigkeit und Organisationsform der besuchten Schule sowie den askriptiven Merkmalen Bildungsniveau der Herkunftsfamilie, Migrationsstatus (MGH) und Geschlecht (Angaben in Prozent der jeweiligen Herkunftsgruppe, robuste Standardfehler in Klammern)

Tabelle 2 zeigt ferner, dass Mädchen erwartungsgemäß eine höhere Wahrscheinlichkeit besitzen, eine Übergangsberechtigung für die gymnasiale Oberstufe zu erhalten.

6.2 Multivariate Analysen auf individueller Ebene

Im Folgenden werden die Ergebnisse der multivariaten Analysen auf individueller Ebene in zwei Schritten berichtet. Im ersten Schritt sollen die Zusammenhänge zwischen der Vergabe einer Übergangsberechtigung für die gymnasiale Oberstufe und den Personen- oder Herkunftsmerkmalen Geschlecht, Migrationsstatus sowie Sozialschicht und Bildungsniveau der Eltern simultan untersucht werden, um ihre spezifischen Beiträge für die Platzierungsentscheidung zu klären. Mit diesen Analysen nehmen wir die Perspektive der unconditional neutrality ein. Dabei kontrollieren wir wechselseitig für Einflüsse der askriptiven Merkmale, um die spezifischen Zusammenhänge zwischen dem jeweiligen Merkmal und der Platzierungsentscheidung zu erfassen, jedoch nicht für entscheidungsrelevante Gruppenunterschiede. Im zweiten Schritt kontrollieren wir unter der zweiten Perspektive von neutrality conditioned on observables zusätzlich für die aus der Übergangsforschung bekannten Kriterien von Platzierungsentscheidungen. Dafür nutzen wir das mit objektiven Tests erfasste Gesamtleistungsniveau der Schüler, die mit dem KFT erhobenen kognitiven Grundfähigkeiten, die Durchschnittsnote in den Kernfächern, Lernmotivation und Absentismus als Indikatoren für Arbeits- und (unangepasstes) Schulverhalten sowie Gewissenhaftigkeit als schulrelevantes Persönlichkeitsmerkmal.

Tabelle 3 fasst die Ergebnisse des ersten Analyseschritts zusammen. Im Modell 1 werden als Prädiktoren der Oberstufenzugangsberechtigung Geschlecht sowie Sozial- und Migrationsstatus der Herkunftsfamilie verwendet. Vergleicht man die Ordinatenabschnitte der Analysen der beiden Kohorten, werden wiederum die schon in der Tab. 2 ausgewiesenen generell erhöhten Berechtigungsquoten nach der Schulstrukturreform sichtbar (Chi2 = 21,6; df = 1; p < 0,001). Der Anstieg beträgt für männliche, deutschstämmige Jugendliche aus Familien mit mittlerem Sozialstatus 19,7 Prozentpunkte. Dies kommt einer Verdoppelung der Quote der Berechtigten nahe. Die weiteren Ergebnisse zeigen erwartungsgemäß (Hypothese H 1b), dass Mädchen bei Kontrolle von sozialer und ethnischer Herkunft einen Berechtigungsvorsprung von 4,2 in der Kontroll- und 7,2 Prozentpunkten in der Reformkohorte besitzen. Der Vorteil ist in beiden Kohorten statistisch und praktisch bedeutsam, wobei sich die Interaktion mit der Kohortenzugehörigkeit nicht zufallskritisch absichern lässt (Chi2 = 0,79; df = 1; p = 0,28). Ebenso lässt sich ein deutlicher Sozialschichteffekt (HISEI) nachweisen (Hypothese H 1a). Mit der Verschiebung des Sozialstatus-Index um eine Standardabweichung nimmt, bei Kontrolle von Geschlecht und Migrationsstatus, die Wahrscheinlichkeit, eine Übergangsberechtigung zu erhalten, um 7,2 Prozentpunkte in der Kontroll- und 7,9 Prozentpunkte in der Reformkohorte zu. Der Unterschied zwischen den Kohorten ist nicht signifikant (Chi2 = 0,11; df = 1; p = 0,74). Erwartungsgemäß lässt sich auch unter Kontrolle von Geschlecht und Sozialstatus eine geringere Berechtigungsquote von Schülern mit Migrationshintergrund zeigen (Hypothese H 1a). Die Wahrscheinlichkeit, eine Übergangsberechtigung zu erhalten, liegt in der Kontrollkohorte bei Jugendlichen aus Zuwandererfamilien um knapp 7 Prozentpunkte unter der von deutschstämmigen Schülern – und zwar gleichermaßen für Jugendliche mit einseitigem und beidseitigem Migrationshintergrund. Statistisch signifikant wird dieser Unterschied nur für Personen mit beidseitigem Migrationshintergrund. In diesem Fall steigt der Rückstand in der Reformkohorte statistisch und praktisch bedeutsam auf 17 Prozentpunkte (Chi2 = 4,53; df = 1; p = 0,03).

Tab. 3 Ergebnisse der Regression von der an nichtgymnasialen Schulen erworbenen Oberstufenzugangsberechtigung (nein/ja) auf Geschlecht, Sozialstatus und Bildungsniveau der Herkunftsfamilie und Migrationsstatus (MGH) (Lineare Wahrscheinlichkeitsmodelle [LPMs], Zweigruppenvergleiche, nicht standardisierte Regressionskoeffizienten [B], robuste Standardfehler in Klammern [SE], Wald-Test auf Kohortenunterschiede in Anmerkungen)

Im Modell 2 wird die Analyse mit dem Bildungsniveau der Herkunftsfamilie anstelle des Sozialstatus wiederholt. Die Ergebnisse für das Geschlecht und den Migrationsstatus bleiben praktisch unverändert. Für das Bildungsniveau ergibt sich die erwartete Abstufung zwischen den Niveaustufen. Im Vergleich zu Jugendlichen aus Familien, in denen die Eltern maximal einen Hauptschulabschluss erreicht haben, liegen auch unter Kontrolle von Geschlecht und Migrationsstatus die Berechtigungsquoten von Jugendlichen aus Familien mit Realschulabschluss, Fachhochschulreife oder Abitur jeweils deutlich zwischen 5,8 und 25,3 Prozentpunkte höher. Kohortenunterschiede sind – wie auch zuvor in Modell 1 beim Sozialstatus – nicht nachweisbar (Chi2 = 4,51; df = 3; p = 0,21).

Modell 3 berücksichtigt die Sozialschicht und das Bildungsniveau der Herkunftsfamilie der Schüler gleichzeitig, um die spezifische Bedeutung beider Prädiktoren zu klären. Die Ergebnisse der Regressionsanalyse zeigen, dass beide Prädiktoren konfundiert sind, aber dennoch jeweils einen spezifischen Beitrag zur Vorhersage des Erhalts einer Übergangsberechtigung für die gymnasiale Oberstufe leisten. Die spezifischen Beiträge sind sowohl in der Kontroll- als auch in der Reformkohorte statistisch und praktisch signifikant. Kohortenunterschiede lassen sich nicht nachweisen (Chi2 = 0,04; df = 1; p = 0,85 bzw. Chi2 = 4,53; df = 3; p = 0,21). Die in Tab. 3 berichteten LPM-Koeffizienten unterscheiden sich nicht bedeutsam von denen in Tab. A-1 im Online-Anhang ausgewiesenen AMEs.

Im zweiten Schritt wurden die beiden Basismodelle der Tab. 3, jetzt dem zweiten Konzept der neutrality conditioned on observables folgend, um die aus der Übergangsforschung bekannten entscheidungsrelevanten Urteilgesichtspunkte schrittweise erweitert. Tabelle 4 fasst die Ergebnisse der linearen Regressionsanalysen (LPM) zusammen. In den Modellen 1 und 2 wird zunächst anhand eines Leistungsindex, in den die Testleistungen in 4 Unterrichtsfächern gewichtet eingehen, für das Schulleistungsniveau der Schüler kontrolliert. Im Modell 3 werden zusätzlich Fähigkeits‑, Motivations- und Persönlichkeitsmerkmale berücksichtigt, und Modell 4 prüft mit der Einführung der Durchschnittsnote, ob mögliche geschlechtsspezifische oder soziokulturelle Verzerrungen der Platzierungsentscheidung über die schulinterne Notenvergabe vermittelt sind.

Tab. 4 Ergebnisse der Regression von der an nichtgymnasialen Schulen erworbenen Oberstufenzugangsberechtigung (nein/ja) auf Geschlecht, Sozialstatus und Bildungsniveau der Herkunftsfamilie, Migrationsstatus (MGH), Schulleistung, kognitive Grundfähigkeiten (KFT) sowie Motivations- und Persönlichkeitsmerkmale (Lineare Wahrscheinlichkeitsmodelle [LPMs], Zweigruppenvergleiche, nicht standardisierte Regressionskoeffizienten (B), robuste Standardfehler in Klammern [SE], Wald-Test auf Kohortenunterschiede in Anmerkungen)

In Modell 1 gehen als Prädiktoren Geschlecht, Sozial- und Migrationsstatus sowie als Kontrollvariable der Index für das Leistungsniveau ein. Die Ergebnisse dieser Erweiterung des Modells sind im Vergleich zum Basismodell 1 der Tab. 3 bemerkenswert. Zunächst wird unter Kontrolle der Fachleistung die Differenz zwischen den Ordinatenabschnitten der beiden Kohorten nicht kleiner, sondern eher größer (20,7 versus 19,7 Prozentpunkte). Dies bedeutet, dass der Anstieg der Berechtigungsquoten in der Reformkohorte ausschließlich auf ein Absenken der Leistungsanforderungen zurückzuführen ist. Im Vergleich zum Modell 1 der Tab. 3 verringert sich der Geschlechtseffekt geringfügig, bleibt aber in beiden Kohorten statistisch und auch praktisch bedeutsam. Der kleine Kohortenunterschied wird nicht signifikant (Chi2 = 0,82; df = 1; p = 0,37). Mädchen erhalten bei gleicher objektiver Schulleistung vor und nach der Strukturreform einen Berechtigungsbonus. Die übrigen Koeffizienten verändern sich teilweise erheblich. Der Effekt des Sozialstatus (HISEI) halbiert sich bei Leistungskontrolle, bleibt aber ebenfalls in beiden Kohorten in gleicher Größenordnung signifikant (Chi2 = 0,02; df = 1; p = 0,90). Auch bei gleichen Schulleistungen haben Jugendliche aus sozial privilegierten Familien in beiden Kohorten erhöhte Chancen, eine Übergangsberechtigung für die Oberstufe zu erhalten. Deutlich abweichende Ergebnisse zeigen sich für den Migrationsstatus. Jugendliche mit einseitigem Migrationshintergrund werden bei gleichem Leistungsniveau wie deutschstämmige Schüler platziert. Bei Jugendlichen mit beidseitigem Migrationshintergrund, die, wie Tab. 3 zeigt, im Sinne von unconditional neutrality deutlich benachteiligt sind, kehrt sich bei Leistungskontrolle das Vorzeichen der Koeffizienten um. Sie erhalten in der Kontrollkohorte bei gleichem Leistungsniveau einen Platzierungsbonus, der 8,4 Prozentpunkte beträgt. Dieses Resultat könnte man im Sinne von neutrality conditioned on potentials als positive Diskriminierung interpretieren. In der Reformkohorte deutet sich ein ähnliches Ergebnis abgeschwächt an, das jedoch nicht mehr zufallskritisch abzusichern ist. Die Differenz zwischen den Kohorten wird auf dem 10 %-Niveau signifikant (Chi2 = 3,08; df = 1; p = 0,08). Bei simultaner Modellierung des Sozial- und Migrationsstatus werden unter der Kontrolle von Schulleistung also zwei gegenläufige Verzerrungen der Urteilsfindung sichtbar, die sich bei getrennten Analysen beider Herkunftsmerkmale wechselseitig maskieren können.

Im Modell 2 wird die Analyse mit dem Bildungsniveau der Herkunftsfamilie als alternativem Index für soziale Herkunft wiederholt. Das Ergebnis fällt für Geschlecht und Migrationsstatus praktisch gleich aus, wohingegen der Zusammenhang zwischen Bildungsniveau und Platzierungsentscheidung bei Kontrolle des Leistungsniveaus sich zwar andeutet, aber nicht mehr zufallskritisch abzusichern ist. Dies trifft auch zu, wenn man die Kategorien der Fachhochschul- und allgemeinen Hochschulreife zusammenfasst, um die Fallzahlen zu erhöhen. Bereits unter alleiniger Kontrolle der Schulleistungen kann also eine Verzerrung der Platzierungsentscheidung aufgrund der Bildungsherkunft nicht mehr nachgewiesen werden. Wir werden deshalb in den folgenden Analysen das Bildungsniveau der Eltern als Herkunftsmerkmal nicht weiter berücksichtigen.

Im Modell 3 werden als weitere entscheidungsrelevante Urteilgesichtspunkte die kognitiven Grundfähigkeiten, Lernmotivation, Schulversäumnisse als Indikator für deviantes Verhalten und Gewissenhaftigkeit zusätzlich herangezogen. Mit Ausnahme der Lernmotivation, die mit Schulversäumnissen konfundiert ist, erweisen sich alle Prädiktoren in jeweils spezifischer Weise als entscheidungsrelevant. Wichtigster Prädiktor bleibt auch in diesem Modell das objektiv erfasste Leistungsniveau. Auch in diesem umfangreicheren Modell zeigt sich für Mädchen sowie für Jugendliche aus sozial privilegierten Familien in beiden Kohorten in ähnlicher Weise entgegen unseren Erwartungen (Hypothesen H 2a und H 2b) ein Platzierungsvorteil. Jugendliche mit beidseitigem Migrationshintergrund behalten in der Kontrollkohorte ihren Beurteilungsbonus, verlieren ihn jedoch mit der Schulstrukturreform (Chi2 = 5,64; df = 1; p = 0,02).

In Modell 4 wird schließlich überprüft, ob die Urteilsverzerrungen auf einem Bias der schulinternen Notenvergabe beruhen. Die Ergebnisse der Regressionsanalyse zeigen, dass dies für den Geschlechtseffekt zutrifft – er ist vollständig auf einen Bonus bei der Notenvergabe zurückzuführen (vgl. Hypothese H 2b). Für den Sozial- und Migrationsstatus ist dies jedoch nur in der Reformkohorte der Fall, während die Effekte in der Kontrollkohorte weiterhin nachweisbar bleiben.

Ein Vergleich der LPM-Koeffizienten mit den in Tab. A-1 im Online-Anhang ausgewiesenen AMEs mit KHB-Korrektur belegt substanzielle Übereinstimmung. Die Abweichungen sind marginal – auch im Fall schief verteilter kontinuierlicher Variablen.

6.3 Multivariate Analysen im Mehrebenenmodell: Institutionelle Kontexte und soziokulturelle Verzerrung von Platzierungsentscheidungen

Tabelle 5 fasst die Ergebnisse der hierarchisch-linearen Regressionsanalysen, mit denen Kontexteffekte überprüft wurden, zusammen. Im Modell 1 wird die Analyse des komplexen Modells 4 der Tab. 4 in hierarchisch-linearer Modellierung wiederholt. In den Analysen auf individueller Ebene der Tab. 4 werden in den Koeffizienten die Gesamteffekte der jeweiligen Prädiktoren (innerhalb und zwischen den Schulen) abgebildet. Im Modell 1 der Tab. 5 werden ausschließlich die Effekte innerhalb von Schulen geschätzt. Dementsprechend fallen alle Koeffizienten etwas niedriger aus. An der Struktur ändert sich jedoch nichts.

Tab. 5 Ergebnisse der hierarchisch-linearen Regression von der an nichtgymnasialen Schulen erworbenen Oberstufenzugangsberechtigung (BERGO) (nein = 0, ja = 1) auf Herkunfts‑, Leistungs‑, Motivations- und Persönlichkeitsmerkmale und Merkmale der Schülerschaft der besuchten Schule (Nicht standardisierte Regressionskoeffizienten [B], robuste Standardfehler [SE] in Klammern)

Im Modell 2 wird unter Kontrolle des mittleren Leistungsniveaus die Cross-level-Interaktion zwischen dem mittleren Sozialstatus der Schülerschaft einer Schule und dem Zusammenhang zwischen Sozialstatus und dem Erhalt einer Oberstufenzugangsberechtigung auf individueller Ebene sowohl in der Kontroll- als auch in der Reformkohorte geschätzt. In der Kontrollkohorte werden beide Kontexteffekte signifikant. Mit dem Anstieg des mittleren Leistungsniveaus um eine Standardabweichung erhöht sich, auch unter Kontrolle aller entscheidungsrelevanten individuellen Merkmale, die Berechtigungsquote um 5,8 Prozentpunkte. Gleichzeitig moderiert die soziale Zusammensetzung der Schülerschaft einer Schule den Zusammenhang zwischen sozialer Herkunft und Übergangsberechtigung (Hypothese H 3): Mit steigender mittlerer Sozialschicht wird der Zusammenhang erwartungswidrig enger und damit die soziale Verzerrung der Platzierungsentscheidung zugunsten privilegierter Schüler erwartungswidrig größer. Mit dem Anstieg um eine Standardabweichung (das sind etwa 5 Punkte auf der ISEI-Metrik) wächst die Verzerrung um 1,7 Prozentpunkte. Bei durchschnittlichem Sozialschichtniveau auf Schulebene unterscheidet sich der Sozialstatuskoeffizient mit 1,3 Prozentpunkten (intercept) nicht signifikant von Null. In der Reformkohorte sind keine Kontexteffekte mehr nachweisbar. Die Kohortenunterschiede lassen sich jedoch nicht zufallskritisch absichern; die Konfidenzintervalle der Koeffizienten überlappen sich leicht.

Im Modell 3 wird die Analyse für den Anteil von Schülern mit beidseitigem Migrationshintergrund als Kontextmerkmal wiederholt (Hypothese H 3). Aufgrund der Kollinearität beider Kontextmerkmale (r = −0,64) werden die Analysen getrennt durchgeführt. Auch in diesem Fall wird die Cross-level-Interaktion unter Kontrolle des mittleren Leistungsniveaus in der Kontrollkohorte signifikant. Mit dem Anstieg des Zuwandereranteils in einer Schule um eine Standardabweichung (das sind etwa 3 Prozentpunkte) nimmt der Berechtigungsbonus auf individueller Ebene um 3,5 Prozentpunkte entgegen unserer Ausgangsvermutung zu. Bei mittlerem Zuwandereranteil auf Schulebene (das sind 43 %) beträgt die signifikante Verzerrung der Platzierungsentscheidung zugunsten von Schülern mit beidseitigem Migrationshintergrund 5,3 Prozentpunkte. In der Reformkohorte lassen sich keine Kontexteffekte finden. Auch in diesem Fall ist die Kohortendifferenz nicht statistisch abzusichern.

7 Zusammenfassung und Diskussion

Der vorliegende Beitrag untersucht die soziokulturelle und geschlechtsspezifische Selektivität von Platzierungsentscheidungen beim Übergang in die gymnasiale Oberstufe an nichtgymnasialen Schulen im mehr- und zweigliedrigen Schulsystem in Berlin. Damit ist er einer der wenigen Beiträge, die die Selektivität von Platzierungsentscheidungen an dieser zweiten Übergangsschwelle in gegliederten Bildungssystemen behandeln, und der bislang einzige Beitrag zu den diesbezüglichen Auswirkungen der Umstellung des Sekundarschulsystems von Mehr- auf Zweigliedrigkeit. Die Analysen, in deren Zentrum die Vergabe der Übergangsberechtigung für die Oberstufe an nichtgymnasialen Schulen steht, zeigen folgende Ergebnisse.

Auch an der zweiten Schwelle, an der sich am Ende der Sekundarstufe I die Wege in die berufliche Erstausbildung und zur Hochschulreife trennen, lassen sich substanzielle soziokulturelle und geschlechtsspezifische Disparitäten nachweisen. Im Sinne des Neutralitätskonzepts unconditional neutrality nach Ferguson (2003) haben Schüler aus sozial schwächeren und bildungsfernen Familien sowie Jugendliche mit Migrationshintergrund eine deutlich geringere Wahrscheinlichkeit, eine Berechtigung zum Übergang in die gymnasiale Oberstufe zu erhalten (Hypothese H 1a). Mädchen haben gegenüber Jungen eine höhere Berechtigungschance (Hypothese H 1b). Diese Zusammenhänge finden sich auch dann, wenn man unter wechselseitiger Kontrolle der askriptiven Merkmale nur die jeweils spezifischen Zusammenhänge betrachtet. Des Weiteren zeigt sich, dass sich diese Disparitäten, entgegen den politischen Zielsetzungen, mit der Schulstrukturreform nicht verringert, sondern im Fall von Schülern mit beidseitigem Migrationshintergrund sogar verstärkt haben.

Die Frage, inwieweit Urteilverzerrungen im Sinne von neutrality conditioned on observables auftreten, erfordert eine differenzierte Antwort, die je nach askriptivem Merkmal unterschiedlich ausfällt. Bereits bei Kontrolle des Fachleistungsniveaus lässt sich der Zusammenhang zwischen Bildungsniveau des Elternhauses und dem Erwerb der Übergangsberechtigung – Hypothese H 2a entsprechend – sowohl in der Kontroll- als auch in der Reformkohorte nicht mehr nachweisen. Dies gilt jedoch weder für den Sozial- noch den Migrationsstatus. Auch unter Konstanthaltung von Schulleistungen, kognitiven Grundfähigkeiten, Lernmotivation, Schulverhalten und Gewissenhaftigkeit tritt in beiden Kohorten erwartungswidrig (Hypothese H 2a) ein sozial privilegierter Schüler begünstigender Sozialschichteffekt auf, der erst nach Kontrolle der Durchschnittsnote und dann auch nur in der Reformkohorte nicht mehr nachweisbar ist. Jugendliche mit beidseitigem Migrationsstatus erhalten vor der Schulstrukturreform bei gleichen Schulleistungen wider Erwarten (Hypothese H 2a) einen beträchtlichen Platzierungsbonus, an dem sich auch bei Kontrolle weiterer urteilsrelevanter Merkmale nichts ändert. Mit der Strukturreform entfällt diese Begünstigung. Bei simultaner Modellierung des Sozial- und Migrationsstatus werden in der Kontrollkohorte also zwei gegenläufige Verzerrungen der Urteilfindung sichtbar, die sich bei getrennten Analysen beider Herkunftsmerkmale wechselseitig maskieren können. Mädchen erhalten erwartungsgemäß (Hypothese H 2b) auch unter Konstanthaltung der Fachleistungen und der kognitiven Grundfähigkeiten einen Beurteilungsbonus, der über angepasstes Schulverhalten und zusätzlich auch über die Notenvergabe vermittelt wird. Dies gilt vor und nach der Schulstrukturreform. Ob die Notenvergabe einen für Mädchen positiven Bias aufweist, lässt sich nicht entscheiden, da unsere Modelle im Hinblick auf die Benotung unterspezifiziert sind. Es fehlt z. B. ein Indikator für mündliche Leistungen, die in die Benotung eingehen.

Zusammenfassend lässt sich also im Einklang mit den Befunden zu Lehrerurteilen beim Übergang von der Grundschule in die Sekundarstufe I festhalten, dass auch die Platzierungsentscheidungen beim Übergang von der Sekundarstufe I in die gymnasiale Oberstufe auf multikriterialen Urteilen basieren. In die Urteilsbildung gehen Fachleistungen, die durch objektive Tests erfassbar sind, kognitive Grundfähigkeiten, die Noten in den Kernfächern, Lernmotivation, Schulverhalten sowie schulrelevante Persönlichkeitsmerkmale ein. Als stärkste Prädiktoren für die Erteilung einer Übergangsberechtigung erwiesen sich das Fachleistungsniveau und die mittleren Fachnoten in den Fächern Deutsch, Mathematik und Englisch. Dennoch lassen sich auch bei Platzierungsentscheidungen an der zweiten Schwelle in gegliederten Bildungssystemen soziokulturelle und geschlechtsspezifische Disparitäten auch unter Kontrolle der bereits genannten Merkmale von Schülern feststellen.

Schließlich ergab die Frage nach dem Einfluss des sozialen Kontextes auf die Platzierungsentscheidungen von Lehrkräften ein differenziertes Bild. In der Kohorte vor der Sekundarschulreform zeigte sich, dass sich bei steigendem Leistungsniveau – unabhängig von allen individuellen Merkmalen – die Berechtigungsquote erhöht. Erwartungswidrig zu Hypothese H 3 wird dagegen mit steigendem Sozialschichtniveau oder steigendem Anteil von Schülern mit beidseitigem Migrationshintergrund der Zusammenhang zwischen sozialer bzw. ethnischer Herkunft auf der individuellen Ebene enger: Sowohl die Privilegierung sozial begünstigter Schüler als auch die positive Diskriminierung von Schülern aus Zuwandererfamilien nehmen zu. In der Reformkohorte sind Kontexteffekte jedoch nicht mehr nachweisbar.

Betrachtet man noch einmal zusammenfassend die Frage nach Unterschieden in soziokulturellen und geschlechtsspezifischen Disparitäten vor und nach der Berliner Schulstrukturreform, der wir im vorliegenden Beitrag explorativ nachgegangen sind, zeigt sich folgendes Bild. Mit der Schulstrukturreform stiegen die Quoten der Übergangsberechtigten sprunghaft an. Trotz dieser Liberalisierung des Zugangs zur Hochschulreife wurde keine Verminderung soziokultureller Disparitäten im Sinne von unconditional neutrality erreicht. Für Jugendliche mit beidseitigem Migrationshintergrund vergrößerten sich die Rückstände sogar. Gleichzeitig blieben unter der Perspektive von neutrality conditioned on observables Urteilverzerrungen konstant (Geschlecht) oder verringerten sich (soziale und ethnische Herkunft). Daraus folgt, dass weder Leistungsverbesserungen in benachteiligten Gruppen erzielt wurden, die deren Chancen, eine Übergangsberechtigung zu erhalten, erhöhten, noch Sättigungseffekte unter den soziokulturell privilegierten Schülern auftraten, die benachteiligte Gruppen begünstigten. Jugendliche unterschiedlicher sozialer und ethnischer Herkunft und beiderlei Geschlechts haben in ähnlicher Weise von einer Absenkung der Leistungsanforderungen für den Übergang in die gymnasiale Oberstufe profitiert. Damit treffen die ersten beiden in Abschn. 5.2 skizzierten Szenarien für die Veränderung soziokultureller und geschlechtsspezifischer Disparitäten durch die Schulstrukturreform nicht zu. Auch das in Abschn. 5.2 beschriebene dritte Veränderungsszenario, in dem das Entscheidungsverhalten durch eine verstärkte Berücksichtigung objektiver Leistungsmaße, die mit den zentralen Abschlussprüfungen zur Verfügung stehen, direkt modifiziert wird, scheint nicht vorzuliegen. Besondere Aufmerksamkeit verdienen jedoch die in der Kohorte vor der Sekundarschulreform zu findenden Kontexteffekte, die in Abschn. 5.2 im vierten Veränderungsszenario beschrieben wurden. Der nachzuweisende positive Einfluss des mittleren Leistungsniveaus einer Schule auf die Berechtigungsquote lässt sich als Generalisierungseffekt interpretieren, bei dem die Leistungsstärke der Gruppe allen Schülern zugeschrieben wird. Dies setzt ein Bewusstsein für die institutionelle Stratifizierung des Systems und die Position der eigenen Schule voraus. Dies ist im stark gegliederten Berliner Schulsystem vor der Strukturreform nicht überraschend. Dieser Kontexteffekt tritt nach der Reform nicht mehr auf. Wir vermuten, dass die mit der Strukturreform erreichte Verringerung der institutionellen Stratifizierung des Systems – jenseits des Gymnasiums gibt es formal nur noch eine Integrierte Sekundarschule (ISS) und die Leistungsunterschiede zwischen den Schulen sind etwas kleiner geworden (Baumert et al. 2017) – ausreichte, um diesen Effekt nicht mehr wirksam werden lassen.

Im Unterschied zu dem Befund in US-amerikanischen Grundschulen (Ready und Wright 2011) geht in der Kohorte vor der Sekundarschulreform die Urteilsverzerrung zuungunsten sozial schwächerer Schüler mit steigendem Sozialschichtniveau einer Schule nicht zurück, sondern verstärkt sich vielmehr. Dieser Befund ist nicht einfach zu interpretieren. Eine Erklärung könnte darin liegen, dass mit zunehmender Dominanz privilegierter Schüler in einer Schule deren Habitus über das auf individueller Ebene kontrollierte leistungsrelevante Schulverhalten hinaus bei der Platzierungsentscheidung besonders honoriert wird (vgl. Helsper et al. 2009). Gleichzeitig besagt dieser Befund, dass die Verzerrung der Platzierungsentscheidung aufgrund sozialer Herkunft, soweit sie nicht über die Notenvergabe vermittelt ist, kontextabhängig ist. Der zweite Interaktionseffekt in der Kontrollkohorte scheint in paralleler Weise zu wirken. Mit steigender Präsenz von Schülern aus Zuwandererfamilien in einer Schule verstärkt sich der dieser Gruppe gewährte Beurteilungsbonus und damit auch die (positive) Verzerrung der Platzierungsentscheidung. Beide Effekte sind nach der Schulstrukturform nicht mehr zu finden. Auch hier liegt die Vermutung nahe, dass die institutionelle Neuordnung des Systems dem Auftreten solcher Kontexteffekte entgegenwirkt. Dieser Befund kann auch das überraschende Ergebnis, nach dem mit der Strukturreform die unkonditionale Benachteiligung von Jugendlichen mit Migrationshintergrund zunimmt, erklären: Die positive Diskriminierung, die in der Kontrollkohorte insbesondere in Schulen mit hohem Zuwandereranteil den Rückstand mindert, entfällt nach der Strukturreform.

Eine Schulstrukturreform, die den Zugang zur Hochschulreife durch Absenken von Leistungsanforderungen, nicht aber durch differenzielle Förderung ebnet, hat offensichtlich, wenn überhaupt, nur institutionell vermittelte Auswirkungen auf soziokulturelle Disparitäten der Platzierungsentscheidung. Alle Herkunftsgruppen und beide Geschlechter haben an einer Liberalisierung des Übergangs in ähnlicher Weise Anteil. Damit trägt die Berliner Schulstrukturreform zur Generalisierung einer Optionslogik der Bildungsbeteiligung bei, nach der alle Wahl- und Entscheidungsmöglichkeiten so lang wie möglich offengehalten werden.

Mit der BERLIN-Studie, die die Datengrundlage für den vorliegenden Beitrag liefert, wurde in Deutschland zum ersten Mal eine flächendeckende Schulstrukturreform quasi-experimentell evaluiert. Gleichwohl ist auch auf Einschränkungen und Grenzen dieser Untersuchung hinzuweisen. So ist fraglich, wie belastbar die Befunde zum Bildungsniveau der Herkunftsfamilie tatsächlich sind. Möglicherweise trägt eine eingeschränkte Reliabilität der Erfassung des Schulabschlusses der Eltern zu dem Ergebnis, dass bereits bei Kontrolle von Schulleistungen kein Zusammenhang zwischen Bildungsniveau der Familie und Erwerb der Übergangsberechtigung nachweisbar ist, bei. Auf eingeschränkte Reliabilität könnte auch die unterschiedliche Verteilung der Bildungsabschlüsse der Eltern in den beiden untersuchten Kohorten hinweisen (vgl. Tab. 1). Als Defizit in der Instrumentierung stellte sich auch der Verzicht auf die Erhebung der mündlichen Beteiligung im Unterricht heraus, deren Kenntnis für die Interpretation möglicher Verzerrungen in der Benotung erforderlich ist. Schließlich ist auch an den Zeitpunkt der Durchführung der BERLIN-Studie zu erinnern. Untersucht wurde die zweite Kohorte, die das neu strukturierte System vollständig durchlaufen hatte. Die Untersuchung fand also zu einem relativ frühen Zeitpunkt statt, der noch kein abschließendes Urteil erlaubt. Insbesondere ist offen, inwieweit das Land Berlin den Übergangsprozess neu justiert, um eine Balance zwischen Öffnung von Bildungswegen und Standardsicherung zu erreichen. Der vorliegende Beitrag ist insofern eine Zwischenbilanz.