1 Problemstellung

Für die Entwicklung des Sekundarschulsystems in Deutschland sind zwei langfristige Trends kennzeichnend. Dies ist einmal die Entkopplung von nominellem Bildungsgang und Schulabschluss, die maßgeblich zur Öffnung des gegliederten Schulsystems beigetragen hat (Baumert et al. 2003a; Schuchart 2006; Trautwein et al. 2008), und zum anderen die Einrichtung bzw. der Ausbau alternativer Zugangswege zur Hochschulreife außerhalb des Gymnasiums, die den Prozess der Entkopplung von Schulform und Abschluss unterstützen (Köller et al. 2004). Beide Entwicklungen haben den Anstieg der Quote der Hochschulzugangsberechtigten in Deutschland befördert (Autorengruppe Bildungsberichterstattung 2016). In der letzten Dekade scheint dieser Prozess infolge der in den meisten Bundesländern erfolgten oder sich vollziehenden Umstellung des Sekundarschulsystems auf Zweigliedrigkeit zusätzliche Dynamik zu erhalten, und zwar insbesondere dann, wenn neben dem Gymnasium ein zweiter, direkter Weg in eine gymnasiale Oberstufe und zur Hochschulreife angeboten wird (Holtappels 2017; Tillmann 2017).

In Deutschland erfüllen Schulabschlüsse eine doppelte Funktion: sie bescheinigen schulisch erworbene Qualifikationen und berechtigen gleichzeitig zum Besuch sich anschließender Bildungs- bzw. Ausbildungsgänge. Dies gilt sowohl für die allgemeine Hochschulreife als auch für den Mittleren Schulabschluss (inkl. des Erwerbs der Berechtigung zum Übergang in die gymnasiale Oberstufe) oder den Hauptschulabschluss bzw. die Berufsbildungsreife. Diese Verbindung von Abschlussqualifikation und Zugangsberechtigung geht von der stillschweigenden und in gewissem Maße kontrafaktischen Voraussetzung aus, dass die Vergabe von Abschlüssen nach vergleichbaren Kriterien erfolgt und die Vergabeinstitution die Gleichwertigkeit von Abschlüssen sowohl im Hinblick auf die Einhaltung von Standards als auch hinsichtlich der Äquivalenz der erteilten Noten garantiert (Baumert et al. 2003b, S. 322). Mit der Öffnung des Bildungssystems stellt sich demnach in meritokratischer Hinsicht verstärkt die Frage nach der Sicherung gemeinsamer Standards.

Die zum Schuljahr 2010/11 in Berlin durchgeführte flächendeckende Schulstrukturreform bietet eine Gelegenheit, diese Frage unter den Bedingungen der schulischen Infrastruktur einer Großstadt zu untersuchen. Die Berliner Schulstrukturreform schuf mit der Einführung der Zweigliedrigkeit ein Zweisäulensystem, in dem zwei parallele Sekundarschulformen – das Gymnasium und die Integrierte Sekundarschule (ISS) – mit unterschiedlichen curricularen Akzentsetzungen, unterschiedlicher Unterrichtsorganisation und in unterschiedlicher Zeittaktung zu allen Abschlüssen einschließlich der allgemeinen Hochschulreife führen. Mit dieser Reform verfolgte das Land Berlin unter anderem das Ziel, langfristig eine Erhöhung der Abiturientenquote zu erreichen (Abgeordnetenhaus Berlin 2009). Um den Übergang in die gymnasiale Oberstufe nach der 10. Jahrgangsstufe zu erleichtern und den Weg zur Hochschulreife auch in der zweiten Säule als einheitlichen Bildungsgang erkennbar zu machen, führen die ISS entweder eine eigene Oberstufe oder haben eine verpflichtende Kooperation mit einer gymnasialen Oberstufe im beruflichen oder allgemeinbildenden Schulsystem einzugehen.

Vor dem Übergang in die gymnasiale Oberstufe liegt jedoch am Ende der 10. Klasse eine formale Schwelle: Es muss eine Übergangsberechtigung erteilt werden, deren Leistungsvoraussetzungen länderübergreifend abgestimmt sind (KMK 1993). Das deutsche Schulsystem kennt also nach dem Übergang von der Grundschule auf die weiterführenden Schulen am Ende der Sekundarstufe I eine weitere leistungsbewehrte Hürde, die mit der Einführung eines Zweisäulensystems zusätzliche Bedeutung erhält.

Bemerkenswerterweise ist dieser zweite Übergang zwar verschiedentlich im Hinblick auf soziale Disparitäten der Bildungsbeteiligung (Maaz et al. 2004, 2017; Hillmert und Jacob 2005, 2010; Trautwein et al. 2011; Combet 2013), aber kaum hinsichtlich der Struktur der Entscheidungsfindung und der Einhaltung von Leistungsanforderungen untersucht worden (Trautwein et al. 2008; Neumann et al. 2017a). Die jüngste Untersuchung von Neumann et al. (2017a), die im folgenden Literaturüberblick genauer dargestellt wird, analysiert auf der Grundlage einer quasi-experimentellen Begleitstudie zur Berliner Schulstrukturreform (Maaz et al. 2013; Neumann et al. 2017b) den mit der Systemumstellung verbundenen Anstieg der Quote der Übergangberechtigungen und das erreichte Leistungsniveau der Übergangsberechtigten. An die deskriptiven Befunde dieser Untersuchung schließt der vorliegende Beitrag unter Nutzung desselben Datensatzes an. Im Folgenden sollen die mit der Schulstrukturreform verbundenen Veränderungen der Leistungsvoraussetzungen für den Zugang zur gymnasialen Oberstufe und potentielle Veränderungen der Struktur der Platzierungsentscheidungen bei Öffnung des Zugangs zur Hochschulreife multivariat untersucht werden. Im Zentrum der Untersuchung steht einerseits die Frage, welche Leistungen an nichtgymnasialen Schulen vor und nach der Schulstrukturreform sowie im Vergleich zum Gymnasium für den Erhalt der Berechtigung zum Übergang in die Oberstufe erbracht werden. Zum anderen wird in Anlehnung an vorhandene Untersuchungen zum Grundschulübergang danach gefragt, welche leistungsbezogenen, motivationalen und schulkontextuellen Merkmale sich als empirisch bedeutsam für die Übergangsberechtigung erweisen und inwieweit sich diesbezüglich Veränderungen in Folge der Schulstrukturreform ergeben haben.

2 Forschungslage

2.1 Öffnung von Bildungswegen zur Hochschulreife und die Sicherung von vergleichbaren Maßstäben bei Platzierungsentscheidungen

Im deutschen Berechtigungswesen ist mit einer Öffnung von Bildungswegen, die zur Hochschulreife führen, die Frage der Standardsicherung und der Äquivalenz der Notenvergabe verbunden. Für die allgemeine Hochschulreife liegt mittlerweile eine Reihe von Untersuchungen aus verschiedenen Bundesländern vor, die zeigen, dass beide Anforderungen nur eingeschränkt erfüllt werden. Köller et al. (1999) haben zum ersten Mal eklatante Leistungs- und Benotungsunterschiede an Oberstufen von Gymnasien und Gesamtschulen in Nordrhein-Westfalen nachgewiesen. Es folgten dann ähnliche Befunde aus Baden-Württemberg, Hamburg und Schleswig-Holstein (Köller et al. 2004; Trautwein et al. 2007b; Leucht et al. 2016). So lag etwa das mittlere mathematische Leistungsniveau der in der TOSCA-Studie (Köller et al. 2004) untersuchten Abiturienten/-innen in Baden-Württemberg an beruflichen Gymnasien mit sozialpädagogischer Ausrichtung rund d = 1,3 Standardabweichungen unter dem Leistungsniveau allgemeinbildender Gymnasien (Watermann et al. 2004). Auch an den anderen beruflichen Gymnasialzweigen (agrar-, ernährungs- und wirtschaftswissenschaftlich) fielen die Leistungen deutlich niedriger aus. Lediglich an den technischen Gymnasien wurde in Mathematik ein vergleichbares Leistungsniveau wie an den allgemeinbildenden Gymnasien erzielt. Dabei spiegelten sich die Leistungsunterschiede zwischen den Gymnasialzweigen kaum in entsprechenden Notenunterschieden wider (Watermann et al. 2004). In ähnlicher Weise konnten auch für Oberstufenschüler/-innen an Gesamtschulen in Hamburg Leistungsrückstände im Vergleich zu den allgemeinbildenden Gymnasien nachgewiesen werden (Trautwein et al. 2007b). Dieses Bild wiederholte sich auch in Schleswig-Holstein beim Vergleich der Abiturleistungen an allgemeinbildenden und beruflichen Gymnasien (Leucht et al. 2016). Die großen Leistungsunterschiede sind im Wesentlichen Folge der unterschiedlichen Eingangsselektivität beim Übergang in die Oberstufe. Sie verdeutlichen jedoch die Spannung zwischen der Öffnung von Bildungswegen einerseits und der Sicherung von gemeinsamen Leistungsstandards und einer auf meritokratischen Prinzipien beruhenden Verteilung von Zertifikaten andererseits.

Dies gilt nicht erst für den Erwerb des Abiturs, sondern in vergleichbarer Weise bereits für die Erteilung der Berechtigung zum Übergang in die gymnasiale Oberstufe. Trautwein et al. (2008) untersuchten an deutschsprachigen Schulen des Kantons Freiburg (Schweiz) den Übergang von Sekundarschulen einerseits und dem Progymnasium andererseits auf die gymnasiale Oberstufe. Anhand des Vergleichs von Testleistungen, die allerdings bereits am Ende der Grundschule und damit mehrere Schuljahre vor dem Übergang in die Oberstufe erhoben wurden, kommen sie zu der Vermutung, dass sich das Leistungsniveau von Übergängern aus beiden Schulformen systematisch unterscheidet und mit der Öffnung der Bildungswege unterschiedliche Leistungsstandards zur Anwendung kommen könnten. Einen ähnlichen Befund berichten Trautwein et al. (2011) in ihrer Untersuchung zur Öffnung des Sekundarschulsystems in Baden-Württemberg. Sie fanden, dass das mittlere Niveau der kognitiven Grundfähigkeiten von Schülern/-innen mit einer Übergangsberechtigung für die gymnasiale Oberstufe an Realschulen um ungefähr eine halbe Standardabweichung unter dem entsprechenden Wert übergangsberechtigter Gymnasiasten/-innen lag (Tab. 2). In jüngster Zeit haben Neumann et al. (2017a) auf der Basis des auch der vorliegenden Arbeit zugrunde liegenden Datensatzes die Vergabe der Übergangsberechtigungen für die gymnasiale Oberstufe an nichtgymnasialen Schulformen vor und nach der Schulstrukturreform in Berlin untersucht. Sie belegten einen abrupten Anstieg der Berechtigungsquoten um 17,6 Prozentpunkte nach der Strukturreform und ein Absinken der mittleren Leistungen der Übergangsberechtigten je nach Fach um d = −0,13 (Englisch), d = −0,17 (Mathematik) und d = −0,27 (Lesekompetenz Deutsch) Standardabweichungen. An Schulen ohne gymnasiale Oberstufe schien der Leistungsrückgang besonders ausgeprägt zu sein. Ergänzend berichten sie auf der Basis explorativer Analysen die Anteile der Übergangsberechtigten, die an ISS in allen untersuchten Kernfächern unter dem Leistungsniveau des 8. Perzentils an Gymnasien blieben. Dieses Leistungsniveau betrachteten sie als gymnasiale Mindesterwartung. Die Ergebnisse zeigten, dass die angesetzten Leistungserwartungen von erheblichen Anteilen (je nach Modellierung zwischen 27 und 43 %) der übergangberechtigten Schülerinnen und Schülern an den ISS nicht erreicht wurden. Zudem wurde deutlich, dass die Notenvergabe in den Erweiterungskursen der ISS liberaler als an Gymnasien erfolgte. Der Zusammenhang zwischen Testleistung und der Wahrscheinlichkeit, eine Übergangsberechtigung zu erhalten, und die Lokalisation der für die Erteilung der Übergangsberechtigung kritischen Leistungsschwelle wurden ebenso wie die Urteilskomponenten der Platzierungsentscheidung nicht untersucht.

2.2 Leistungsurteile und Platzierungsentscheidungen von Lehrkräften

Die Erteilung einer Berechtigung für den Übergang in die gymnasiale Oberstufe beruht – wie auch die Schulformempfehlung am Ende der Grundschule – formal auf kollegial abgestimmten Urteilen von Lehrerinnen und Lehrern. Die endgültige Entscheidung fällt in der Klassen- oder Jahrgangskonferenz. In beiden Fällen beeinflussen oder entscheiden die Platzierungsurteile Schulkarrieren. Am besten untersucht sind Platzierungsentscheidungen beim Übergang von der Grundschule in die Sekundarschule in gegliederten Schulsystemen. Überraschenderweise sind vergleichbare Untersuchungen zum Übergang in die Sekundarstufe II selten. Wir vermuten, dass Platzierungsurteile von Lehrkräften an beiden Übergangsschwellen eine ähnliche Struktur aufweisen, auch wenn sich die diagnostische Kompetenz von Lehrkräften unterschiedlicher Schulformen möglicherweise unterscheidet (Karing 2009). Deshalb berichten wir zunächst die Befundlage für Übergangsempfehlungen am Ende der Grundschulzeit.

Mittlerweile liegen verschiedene qualitative Studien vor, die über die Entscheidungskriterien, die Lehrkräfte beim Übergang von der Grundschule in weiterführende Schulen nach eigenen Angaben anwenden, Auskunft geben (Nölle et al. 2009; Pohlmann 2009; Böhmer et al. 2015). Diese Untersuchungen belegen, dass Lehrkräfte in erster Linie Leistungsinformationen (aktueller Leistungsstatus, Leistungsentwicklung, aber auch die Einschätzung der kognitiven Fähigkeiten), leistungsbezogene motivationale Merkmale (Lernmotivation, Interesse, Anstrengungsbereitschaft), das Arbeitsverhalten und selbstregulative Fähigkeiten (Aufmerksamkeit, Konzentrationsfähigkeit, Verlässlichkeit, emotionale Stabilität), das Sozialverhalten (Hilfsbereitschaft, Kooperationsfähigkeit, allgemeines Schulverhalten) sowie potenzielle Unterstützung in der Familie und den Elternwunsch berücksichtigen. Böhmer et al. (2015) konnten in einer experimentellen Studie zum Abrufverhalten von Informationen zeigen, dass leistungsbezogene Informationen einschließlich der Informationen zum Arbeitsverhalten zuerst und am häufigsten abgerufen werden, gefolgt von Informationen zum Sozialverhalten und zur elterlichen Unterstützung. Direkte Informationen zur sozialen und ethnischen Herkunft wurden an letzter Stelle herangezogen.

Welche dieser von Lehrkräften für relevant gehaltenen Urteilskriterien die Platzierungsentscheidung bestimmen, wurde in verschiedenen quantitativen Untersuchungen zum Übergang nach der Grundschule überprüft (vgl. zusammenfassend Dumont et al. 2014; Klapproth et al. 2013). In diesen Analysen erwiesen sich leistungsbezogene Informationen (Noten, Testleistungen, kognitive Grundfähigkeiten) als die wichtigsten Prädiktoren (Bos et al. 2004; Baeriswyl et al. 2006; Arnold et al. 2007; Driessen et al. 2008; de Boer et al. 2010; Neugebauer 2011; Schneider 2011; Stubbe et al. 2012; Dumont et al. 2013a; Klapproth et al. 2013). Es ist bemerkenswert, dass Testleistungen und kognitive Grundfähigkeiten – also Informationen, die den Lehrkräften in der Regel nicht direkt zur Verfügung stehen – über die Schulnoten hinaus bedeutsame spezifische Erklärungsbeiträge für Platzierungsurteile leisten. Für die kognitiven Grundfähigkeiten gilt dies auch bei Kontrolle von Noten und Testleistungen (Bos et al. 2004; Arnold et al. 2007; Driessen et al. 2008; de Boer et al. 2010; Stubbe et al. 2012). Die Effektstärken sind allerdings klein. Diese Befunde weisen darauf hin, dass in die Urteilsfindung von Lehrkräften durchaus klassen- und schulübergreifende Leistungsgesichtspunkte und Einschätzungen der allgemeinen kognitiven Befähigung von Schülerinnen und Schülern eingehen, die nicht schon in den Noten zum Ausdruck kommen. Ergänzend hinzu treten das Arbeitsverhalten, motivationale Orientierungen und schulrelevante Persönlichkeitsmerkmale der Schüler/-innen sowie die potenzielle Unterstützung im Elternhaus und der Schulwunsch der Eltern. Soziales Verhalten, das in zwei Untersuchungen Berücksichtigung fand, erwies sich als nicht prädiktiv.

2.3 Akkuratheit von Leistungsurteilen und Platzierungsentscheidungen

Platzierungsentscheidungen beruhen primär, aber nicht ausschließlich auf leistungsbezogenen Urteilen. Die Genauigkeit vor allem von Leistungsurteilen gilt als Indikator für die diagnostische Kompetenz von Lehrkräften (Spinath 2005; Artelt und Rausch 2014). Schrader und Helmke (1987) haben diesbezüglich drei Urteilskomponenten unterschieden: Die Niveaukomponente, die sich auf die Tendenz zur systematischen Über- oder Unterschätzung von Schülermerkmalen bezieht, die Differenzierungskomponente, die die korrekte Einschätzung von Merkmalsstreuungen betrifft, und die Rangkomponente, mit der erfasst wird, inwieweit Lehrkräfte die Rangfolge von Schülerinnen und Schülern hinsichtlich der Ausprägung eines Merkmals korrekt einschätzen. Die Rangkomponente gilt in der Literatur als „zentraler Akkuratheitsindikator […] und als Maß für die diagnostische Sensitivität im eigentlichen Sinne“ (Spinath 2005, S. 86). Wenn im Folgenden im Anschluss an die übliche Begriffsverwendung ohne weitere Spezifikation von Akkuratheit gesprochen wird, ist diese Urteilskomponente gemeint.

Nimmt man die Korrelation zwischen Lehrerurteil und objektiv gemessenen Testleistungen als Maß für Urteilsakkuratheit, kommt die Mehrzahl der einschlägigen Untersuchungen zu dem Ergebnis, dass Lehrkräfte im Mittel gute Diagnostiker von Schülerleistungen sind. Südkamp et al. (2012) berichten in ihrer Metaanalyse eine mittlere Korrelation von r = 0,63. Die Befunde einer früheren Metaanalyse von Hoge und Coladarci (1989) liegen in ähnlicher Größenordnung. Wie Südkamp et al. (2012) weiterhin zeigen, fällt die Akkuratheit bei informierten Urteilen mit einer mittleren Korrelation von r = 0,76 höher aus als bei Urteilen mit schwacher Informationsbasis (r = 0,61). Diese Befunde sind für die vorliegende Untersuchung bedeutungsvoll. Denn Entscheidungen über Laufbahnempfehlungen oder die Vergabe von Zugangszertifikaten beruhen auf informierten und reflektierten Entscheidungen, die unter Einbeziehung eines breiten Kranzes von Leistungsinformationen getroffen werden.

Spezielle Untersuchungen zur Akkuratheit von Platzierungsentscheidungen im Sinne der Rangkomponente der Urteilgenauigkeit von Lehrkräften (Korrelation zwischen vorgängig gemessener Testleistung und Entscheidung) liegen mit Ausnahme der neuen Arbeit von Steinmayr et al. (2017), die für die kognitiven Grundfähigkeiten eine Korrelation von r = 0,43 und für die Lese- bzw. Mathematikleistung Korrelationen von r = 0,51 bzw. r = 0,48 berichten, unseres Wissens nicht vor. Die Frage spielt jedoch bei allen Untersuchungen zu den Determinanten von Platzierungsurteilen, über die in Abschn. 2.2 berichtet wurde, eine Rolle. Hier gehören objektive Testleistungen zu den stärksten Prädiktoren von Platzierungsentscheidungen. Im Rahmen der Untersuchung der prognostischen Validität von Grundschulempfehlungen sind drei Arbeiten zu finden, die den Zusammenhang zwischen Empfehlung und später erreichten Testleistungen thematisieren.Footnote 1 Für Hamburg (KESS-Studie) berichten Ivanov und Nikolova (2010) Leistungsunterschiede in Orthografie und Mathematik zwischen Gymnasiasten/-innen mit und ohne entsprechender Empfehlung von d = 0,87 in der 7. Jahrgangsstufe. Dies entspricht einer punktbiserialen Korrelation zwischen Übergangsempfehlung und Testleistung von ungefähr r = 0,40. In Bayern und Hessen (BIKS-Längsschnitt) fanden Pfost et al. (2017) in einer vergleichbaren Untersuchung in Mathematik Leistungsunterschiede von d = 0,57 und im Lesen von d = 0,37. Die entsprechenden Korrelationen betragen r = 0,27 bzw. r = 0,18. Einen engeren Zusammenhang berichten Klapproth et al. (2013) für Luxemburg. Sie teilten Schüler/-innen aufgrund von Testwerten, die in der 9. Jahrgangsstufe in den Fächern Deutsch, Französisch und Mathematik erhoben wurden, am Schnittpunkt der Leistungsverteilungen der akademisch bzw. beruflich orientierten Schulformen in zwei Gruppen (dies entspricht etwa einem Mediansplit) und verglichen die Zuordnung mit den Übertrittsempfehlungen der Grundschullehrkräfte am Ende der 6. Jahrgangsstufe. Dabei kommen sie auf Fehlklassifikationen von 21 %. Nach dem von Rosenthal und Rubin (1982) vorgeschlagenen binomialen Effektstärkenmaß entspricht dies einer punktbiserialen Korrelation von r = 0,58. Mit Ausnahme der Luxemburger Untersuchung gilt für diese Arbeiten jedoch die Einschränkung, dass falsch-negative Entscheidungen nicht berücksichtigt werden konnten und sich die Angaben damit nur auf eine Schulform beziehen.

2.4 Soziale Kontexte, Leistungsurteile und Platzierungsentscheidungen von Lehrkräften

Leistungsurteile von Lehrkräften sind auch von sozialen Kontexten abhängig. Dies gilt gleichermaßen für Notenvergabe und Platzierungsentscheidungen. Untersucht wurde vor allem, inwieweit die leistungsmäßige, soziale und ethnische Zusammensetzung von Schulklassen oder Schulen das Niveau der Leistungsurteile von Lehrkräften beeinflusst. Dagegen gibt es kaum Arbeiten, die die Auswirkungen von Kompositionsmerkmalen auf die Akkuratheit der Urteile von Lehrkräften im Sinne der Rangkomponente untersuchen – eine Frage, die für den vorliegenden Beitrag besonders relevant ist.

Übersichten über die Forschung zu Niveaueffekten sind bei Neumann et al. (2010), Dumont et al. (2013b) und Westphal et al. (2016) zu finden. Die Befundlage ist im Hinblick auf die leistungsmäßige Komposition von Referenzgruppen international und national relativ eindeutig: Es lässt sich regelmäßig ein Referenzgruppeneffekt nachweisen, bei dem die Anwendung eines gruppeninternen Maßstabs dazu führt, dass bei variierenden mittleren Leistungen von Gruppen die individuellen Urteile mit steigendem Leistungsniveau einer Gruppe im Vergleich zu gleichen Leistungen in schwächeren Gruppen strenger ausfallen. Der Referenzgruppeneffekt lässt sich sowohl bei der Notenvergabe als auch bei Bildungsgangsempfehlungen konsistent nachweisen (schon Marsh 1987, S. 288; Dompnier et al. 2006; Trautwein et al. 2007a; Tiedemann und Billmann-Mahecha 2007; Maaz et al. 2008; Caro et al. 2009; Gröhlich und Guill 2009; Wagner et al. 2009; Hochweber et al. 2014; Westphal et al. 2016; Meissel et al. 2017). Südkamp und Möller (2009) konnten diesen Effekt auch experimentell in ihrem simulierten Klassenzimmer zeigen.

Abweichende Befunde fanden Ready und Wright (2011) in der Kindergartenkohorte der Early Childhood Longitudinal Study-K (ECLS-K). Ihre Auswertungen ergaben, dass mit steigendem Leistungsniveau einer Lerngruppe die Sprachentwicklung der Kinder überschätzt und bei sinkendem Leistungsniveau dementsprechend unterschätzt wird. Sie schließen auf einen Generalisierungseffekt.

Im Hinblick auf die soziale und ethnische Komposition sind die Befunde gemischt. In einer Reihe von Untersuchungen trat im Hinblick auf die soziale Zusammensetzung der jeweiligen Referenzgruppe ein Generalisierungseffekt auf: Mit steigendem mittleren Sozialstatus der Bezugsgruppe fielen die Leistungsurteile der Lehrkräfte positiver aus. Dies gilt sowohl für die Vergabe von Einzelnoten als auch für Platzierungsentscheidungen (Maaz et al. 2008; Gröhlich und Guill 2009; Schulze et al. 2009; Ready und Wright 2011; Hochweber et al. 2014; Westphal et al. 2016). Keinen Effekt der auf Klassenebene aggregierten Bildungsorientierung der Eltern bzw. ihres kulturellen Besitzes fanden Tiedemann und Billmann-Mahecha (2007) sowie Wagner et al. (2009).

Im Hinblick auf die ethnische Komposition von Schulklassen liegen widersprüchliche Ergebnisse vor. Tiedemann und Billmann-Mahecha (2007), Schulze et al. (2009), Ready und Wright (2011) fanden keinen ethnischen Kompositionseffekt, während Caro et al. (2009) bei einer Reanalyse der ELEMENT-Daten einen positiven Effekt feststellen konnten. Martínez et al. (2009) berichten inkonsistente Befunde.

Von besonderem Interesse sind die wenigen Untersuchungen, die den Zusammenhang zwischen Komposition der Lerngruppe und der Akkuratheit von Leistungsurteilen analysieren. Martínez et al. (2009) konnten für Dritt- und Fünftklässler der ECLS-K-Untersuchung zeigen, dass mit steigendem Anteil von Schülerinnen und Schülern mit geringen Englischkenntnissen (LEP), die Akkuratheit der Leistungsbeurteilungen zurückging. Die einzige in Deutschland zu diesem Thema vorliegende Untersuchung von Hochweber et al. (2014) berichtet einen nichtlinearen positiven Zusammenhang zwischen der leistungsmäßigen Komposition einer Schulklasse und der Akkuratheit der Notenvergabe im Fach Mathematik. Das mittlere Bildungsniveau der Eltern einer Schulklasse veränderte die Akkuratheit der Noten dagegen nicht.

3 Entwicklung und Differenzierung der Fragestellungen

Im Anschluss an die deskriptiven Befunde von Neumann et al. (2017a) sollen im vorliegenden Beitrag die mit der Berliner Schulstrukturreform verbundenen systematischen Verschiebungen der kritischen Leistungsschwelle für den Übertritt in die gymnasiale Oberstufe und die Struktur der Platzierungsentscheidungen und ihre Veränderungen multivariat untersucht werden. Im Folgenden werden die Fragestellungen konkretisiert.

3.1 Komponenten der Entscheidung über die Übergangsberechtigung für die gymnasiale Oberstufe

Die Erteilung der Übergangsberechtigung für die gymnasiale Oberstufe beruht formal auf einer kollektiven Entscheidung der Klassen- oder Jahrgangskonferenz. Im Unterschied zur Übergangsempfehlung am Ende der Grundschulzeit, mit der die Passung zwischen individuellem Entwicklungsstand und den Anforderungen der weiterführenden Schulen optimiert werden soll, hat die Übergangsberechtigung für die gymnasiale Oberstufe in erster Linie qualitätssichernde Funktionen. Notwendige Voraussetzung für die Erteilung einer Übergangsberechtigung ist der Mittlere Schulabschluss (MSA). Qualifizierende Bedingungen sind am Gymnasium die Versetzung in die 11. Jahrgangsstufe und an Schulen mit mehreren Bildungsgängen bestimmte Kombinationen von Kursen mit erhöhtem Anspruchsniveau und an allen Schulformen die Erfüllung von Mindestvoraussetzungen in den Fachnoten. Die detaillierten und komplizierten Übertrittsregelungen vor und nach der Schulstrukturreform sind im Anhang ausgewiesen (vgl. ausführlich auch Neumann et al. 2017a).

Die Ermessensspielräume der Lehrkräfte sind am Ende der Sekundarstufe I im Vergleich zur Grundschulempfehlung äußerst begrenzt. Werden die formalen Voraussetzungen erfüllt, muss die Übergangsberechtigung erteilt werden. Ein Ermessen spielt zu diesem Zeitpunkt nur noch in Grenzfällen eine Rolle. Die eigentliche pädagogische Entscheidung über den Übertritt zur gymnasialen Oberstufe wird an Schulen mit mehreren Bildungsgängen und damit an allen ISS in Berlin bereits am Ende der 9. Jahrgangsstufe vorbereitet, wenn über die Zuweisung zu den für die Abschlüsse notwendigen Kursen bzw. Kursniveaus der 10. Jahrgangsstufe und damit auch über die ungefähr zu erwartenden Noten entschieden wird. Wenn man also nach den Selektionsmechanismen an der Schwelle zur gymnasialen Oberstufe an nichtgymnasialen Schulen fragen will, empfiehlt es sich, bereits die Situation beim Übergang in die 10. Jahrgangsstufe in den Blick zu nehmen. Bei der Vergabe von Übergangsberechtigungen in die gymnasiale Oberstufe handelt sich um einen Entscheidungsprozess, der sich über ein Schuljahr erstreckt und in der formalen Entscheidung seinen Abschluss findet. Wir erwarten, dass in diesem Entscheidungsprozess weitgehend dieselben expliziten und impliziten Urteilskriterien zur Anwendung kommen, die bei der Vergabe der Grundschulempfehlung identifiziert werden konnten (vgl. Abschn. 2.2). Vor diesem Hintergrund untersuchen wir im vorliegenden Beitrag, inwiefern sich der Erhalt der Übergangsberechtigung für die gymnasiale Oberstufe durch folgende Faktoren vorhersagen lässt:

  1. 1.

    Schulübergreifende Leistungsstandards, die sich über den Zusammenhang zwischen objektiven Leistungs- und Fähigkeitstests und Berechtigungsvergabe beschreiben lassen,

  2. 2.

    schulinterne, auf den Jahrgang bezogene Leistungsgesichtspunkte, die in der Rangordnung der Noten zum Ausdruck kommen, sowie

  3. 3.

    motivationale Merkmale und das Arbeits- und Schulverhalten der Schüler/-innen.

3.2 Erteilung von Übergangsberechtigungen am Gymnasium und an nichtgymnasialen Schulen: Zusammenhang zwischen Leistung und Platzierungsentscheidung

Der Idee nach ist das Gymnasium ein einheitlicher, akademisch orientierter Bildungsgang, der vom Abschluss der Grundschule bis zum Abitur führt, auch wenn im Gymnasium alle anderen Schulabschlüsse erreicht werden können. Die Übergangsauslese am Ende der Grundschulzeit soll sicherstellen, dass dieses Ziel auch von der großen Mehrheit der Gymnasiasten/-innen erreicht werden kann. In diesem Rahmen ist die Erteilung der Übergangsberechtigung für die gymnasiale Oberstufe eine formale Hürde, deren Überwindung keine besonderen Probleme bereiten sollte. In einer ganz anderen Situation befinden sich Schülerinnen und Schüler an nichtgymnasialen Schulen, deren modales Schulziel nicht das Abitur, sondern der MSA ist. Hier ist die Erteilung der Übergangsberechtigung eine Selektionsschwelle, die nur eine Minderheit überwinden will und kann. Dementsprechend lagen die Basisraten der Übergangsberechtigungen in Berlin im untersuchten Jahrgang vor der Schulstrukturreform im Schuljahr 2011/12 im Gymnasium bei rund 96 % und an nichtgymnasialen Schulen bei 24 % (vgl. Neumann et al. 2017d).

Die Ergebnisse von Neumann et al. (2017a, 2017d) zeigen nach der Schulstrukturreform weitgehende Stabilität am Gymnasium und einen Anstieg der Quote der Übergangsberechtigten an nichtgymnasialen Schulen auf 41 %, der an Schulen mit eigener Oberstufe besonders ausgeprägt zu sein scheint. Gleichzeitig sinken die mittleren Leistungen der Übergangsberechtigten je nach Fach zwischen gut einer zehntel und knapp einer drittel Standardabweichung. Dies spricht für eine mit der Öffnung der Oberstufe verbundene Absenkung von Leistungsanforderungen, ohne dass der Nachweis explizit geführt würde. Im Anschluss an diese deskriptiven Befunde soll im vorliegenden Beitrag der Zusammenhang zwischen Fachleistungen und Platzierungsentscheidung systematisch analysiert werden.

Aufgrund des höheren Leistungsniveaus und der größeren Leistungshomogenität sind die Übergangsberechtigungen an Gymnasien extrem schief verteilt: In der Regel wird die kritische Hürde übersprungen. Daraus folgt notwendigerweise, dass die Fachleistungen in den Kernfächern an Gymnasien am Ende der 9. Jahrgangsstufe weit weniger entscheidungsprädiktiv sind als im nichtgymnasialen Bereich. Bei sich überlappenden Leistungsverteilungen zwischen den Schulformen heißt dies allerdings auch, dass leistungsschwächere Gymnasiasten/-innen, deren Gesamtleistung im Leistungsbereich von Schülern/-innen an nichtgymnasialen Schulen liegt, eine höhere Wahrscheinlichkeit besitzen sollten, eine Übergangsberechtigung für die Oberstufe zu erhalten, als Schüler/-innen gleicher Leistungsstärke an nichtgymnasialen Schulen.

Die Befunde von Neumann et al. (2017a) sprechen für sinkende Leistungsanforderungen bei Öffnung des Zugangs zur gymnasialen Oberstufe. Um dies explizit zu überprüfen und das Ausmaß der Absenkung der Zugangsvoraussetzungen zu quantifizieren, sollen kritische Leistungsschwellen vor und nach der Strukturreform verglichen werden. Als kritische Leistungsschwelle für die Erteilung der Übergangsberechtigung zur Oberstufe betrachten wir das Gesamtleistungsniveau in den übergangsrelevanten Kernfächern, bei dem die Wahrscheinlichkeit, eine Übergangsberechtigung zu erhalten, 50 % überschreitet. Die Differenz zwischen den Leistungsniveaus ist ein Maß für die Verschiebung von Zugangsanforderungen vor und nach Schulstrukturreform und im Vergleich zum Gymnasium.

3.3 Auswirkungen der Schulstrukturreform auf die Struktur der Platzierungsentscheidungen im nichtgymnasialen Bereich

Die Umstellung auf Zweigliedrigkeit des Schulsystems erfolgte in Berlin durch die Umgründung von Schulen der nichtgymnasialen Schulformen in Verbindung mit Schulschließungen, Schulfusionen und gelegentlichen Neugründungen (vgl. Baumert et al. 2017). Dies bedeutet, dass in den neuen, formal äquivalenten ISS die mehrgliedrige Schulstruktur bedingt durch die unterschiedliche Umgründungsgeschichte deutlich erkennbar bleibt. Wir vermuten, dass die formale Äquivalenz aller ISS und der damit verbundene Anspruch, einen alternativen Weg zur Hochschulreife anzubieten, nicht nur zu einer Annäherung der Übergangsquoten, sondern bei weiterbestehenden Leistungsunterschieden zwischen den nichtgymnasialen Schulen auch zu einer Verringerung der Bedeutung standortübergreifender Leistungsmaßstäbe und damit auch zu einer verminderten Akkuratheit der in den Übergangsberechtigungen implizierten Leistungsurteilen führen. Dies sollte sich in einem Rückgang des Zusammenhanges von standardisierten Leistungsmaßen und der Vergabe der Übergangsberechtigung an den nichtgymnasialen Schulen äußern. Die Bedeutung schulinterner Bewertungsmaßstäbe sollte gleichzeitig zunehmen, was in einem Anstieg des Zusammenhangs von Noten und Berechtigungsvergabe resultieren sollte. Welche Rolle die Einschätzung allgemeiner kognitiver Fähigkeiten, die bei der Vergabe von Grundschulempfehlungen über Noten und Testleistungen hinaus entscheidungsrelevant ist (vgl. Abschn. 2.2), bei der Erteilung von Übergangsberechtigungen spielt, ist unklar. Soweit in die Erteilung der Übergangsberechtigung Urteile über die Lernmotivation und Schulanpassung der Schülerinnen und Schüler eingehen, dürfte sich daran durch die Schulstrukturreform nichts ändern.

Bei Kurszuweisungen und einer jahrgangsbezogenen Notenvergabe stellt die jeweilige Jahrgangsstufe einer Schule die primäre Referenzgruppe dar. Wir erwarten deshalb bei steigendem mittleren Leistungsniveau eines Jahrgangs einen Referenzgruppeneffekt, der dazu führt, dass die Zuweisung zu Kursen mit erhöhtem Anspruchsniveau selektiver gehandhabt und Noten entsprechend strenger vergeben werden. Daraus folgt bei Kontrolle der individuellen Leistungsvoraussetzungen ein negativer Zusammenhang zwischen dem mittleren Leistungsniveau einer Schule und der Wahrscheinlichkeit, an ISS eine Berechtigung zum Übergang in die gymnasiale Oberstufe zu erhalten.

Im Hinblick auf die soziale Zusammensetzung der Schülerschaft einer Schule rechnen wir an ISS mit keinem schulinternen Bezugsgruppeneffekt. Ob mit steigender Sozialschicht der Schülerschaft und damit größerer Bildungsnähe der Eltern die Bereitschaft der Lehrkräfte zunimmt, den Weg in die gymnasiale Oberstufe zu öffnen, ist unklar. Sofern dies zutreffen sollte, müsste ein positiver Kontexteffekt des mittleren sozialen Milieus einer Schule auftreten, der auch dann nachweisbar ist, wenn Leistungsvoraussetzungen und Merkmale der soziokulturellen Herkunft auf individueller Ebene konstant gehalten werden.

Im Hinblick auf die ethnische Zusammensetzung der Schülerschaft erlaubt die Forschungslage keine schlüssigen Annahmen. Auch im Hinblick auf die Frage, ob soziale Kontexte die Akkuratheit der Leistungsurteile von Lehrkräften beeinflussen, legen die vorliegenden Befunde keine gerichtete Hypothese nahe (vgl. aber Martínez et al. 2009; Hochweber et al. 2014).

4 Methode

4.1 Datengrundlage

Die Datengrundlage des vorliegenden Beitrags bildet die BERLIN-Studie, mit der Implementation und Auswirkungen der Umstellung des Sekundarschulsystems von Fünf- auf Zweigliedrigkeit in Berlin untersucht werden (Maaz et al. 2013; Neumann et al. 2017b). Die BERLIN-Studie ist längsschnittlich in einem quasi-experimentellen Kontrollgruppendesign angelegt. Zum Ende des Schuljahres 2010/11 wurden an öffentlichen Schulen Berlins 15-jährige Schüler/-innen der Jahrgangsstufen 7–12 und nicht 15-jährige Schüler/-innen, die eine 9. Klasse besuchten, untersucht. Die Schüler/-innen gehörten zu dem Jahrgang, der als letzte Kohorte das fünfgliedrige Schulsystem in Berlin vollständig durchlaufen hatte. Diese Kohorte bildet die Kontrollgruppe der BERLIN-Studie. Zum Ende des Schuljahres 2013/14 wurde die Untersuchung an einer nach Alter und Klassenstufe parallelisierten Stichprobe wiederholt. Diese Schüler/-innen gehörten dem Jahrgang an, der als 2. Kohorte das reformierte Sekundarschulsystem absolviert hatte. Diese Schüler/-innen bilden als Reformkohorte die Experimentalgruppe der BERLIN-Studie. Alle Schüler/-innen der 9. Jahrgangstufe werden in beiden Kohorten bis zum Ende der beruflichen Erstausbildung bzw. bis zum Abitur längsschnittlich verfolgt. Anlage, Instrumentierung und Durchführung der Studie wurden von Becker et al. (2017) ausführlich beschrieben. Im vorliegenden Beitrag greifen wir auf diese Beschreibung zurück, beschränken uns jedoch auf die Informationen, die zum Verständnis des vorliegenden Beitrags notwendig sind.

Die Stichprobenziehungen wurden jeweils im Rahmen der ersten Erhebungswelle beider Kohorten durchgeführt. Sie folgen dabei einem mehrstufigen, stratifizierten Stichprobenplan. In einem ersten Schritt wurden nach Schulform stratifizierte Zufallsstichproben von Schulen gezogen. Die Schulstichprobe der Kontrollkohorte umfasst 29 Gymnasien, 29 Hauptschulen, 35 Gesamtschulen und 23 Realschulen. Zur Stichprobe der Reformkohorte gehören 29 Gymnasien und 70 ISS. In einem zweiten Schritt wurden innerhalb der einzelnen Schulen Zufallsstichproben von Schüler/-innen gezogen, und zwar jeweils 25 15-Jährige aus den Jahrgängen 7–12 und 10 nicht 15-jährige Neuntklässler/-innen. Die realisierte Stichprobe umfasste in der Kontrollkohorte N = 2359 Schüler/-innen der 9. Jahrgangsstufe und N = 2377 15-Jährige. In der Reformkohorte beläuft sich die realisierte Stichprobe auf N = 1925 Neuntklässler/-innen und N = 2119 15-Jährige. Die Ausschöpfungsquoten lagen je nach Schulform und Kohorte zwischen 82,9 und 91,3 % (zur Prüfung der Selektivität und zu weiteren detaillierten Stichprobenangaben vgl. Becker et al. 2017). Für die Analysen dieses Beitrags werden gewichtete Stichproben der Neuntklässler/-innen benutzt. Die Gewichte bilden die Populationsverhältnisse korrekt ab.

4.2 Untersuchungsinstrumente

Personenmerkmale, familialer Hintergrund und Schulbiografie

Angaben zum Geschlecht der an der Untersuchung teilnehmenden Schüler/-innen wurden aus den Schulakten übernommen. Der Sozialstatus der Familie der Untersuchungsteilnehmerinnen und -teilnehmer wird durch den International Socio-Economic Index of Occupational Status (ISEI) bestimmt. Dabei wird jeweils der höhere Wert der beiden Elternteile zugrunde gelegt (HISEI). Die dafür verwendeten Berufsangaben beruhen auf Auskünften im Schülerinnen- und Schülerfragebogen. Der Migrationshintergrund der Befragten wurde in drei Ausprägungen operationalisiert (0 = beide Eltern in Deutschland geboren, 1 = ein Elternteil in Deutschland geboren, 2 = beide Eltern im Ausland geboren). Auch diese Angaben beruhen auf Auskünften im Fragebogen der Schülerinnen und Schüler. Als schulbiografische Merkmale werden die Schulformzugehörigkeit und die am Ende der 10. Jahrgangsstufe erteilte Berechtigung zum Übergang in die gymnasiale Oberstufe berücksichtigt. Die Berechtigung zum Übergang in die gymnasiale Oberstufe wurde dem Jahreszeugnis am Ende der 10. Jahrgangsstufe entnommen.

Leistungsmerkmale

Schulleistungen wurden in der BERLIN-Studie in beiden Kohorten über die Testleistungen in den Domänen Deutsch (Leseverstehen), Mathematik, Naturwissenschaften und Englisch (Leseverstehen) erhoben. Die Testitems wurden im Rahmen des Partial Credit Models in beiden Kohorten konkurrent einparametrisch skaliert. Die Personen-Parameter wurden als Plausible Values (PVs) geschätzt und in der Kontrollkohorte auf einen Mittelwert von 100 und eine Standardabweichung von 30 standardisiert. Die Reliabilitäten der Tests liegen je nach Domäne und Kohorte zwischen rEAP = 0,88 und rEAP = 0,93. Um Kollinearität zu vermeiden und den Leistungsstatus sparsam zu modellieren, werden im vorliegenden Beitrag die Ergebnisse der Leistungstests faktorenanalytisch zu einem einzigen Gesamtwert zusammengefasst, der ebenfalls in der Kontrollkohorte auf einen Mittelwert von 100 und eine Standardabweichung von 30 standardisiert wurde. Die Bildung eines Index für das Gesamtleistungsniveau lässt sich rechtfertigen, da in einer Hauptkomponentenanalyse das Kaiser-Kriterium und der Scree-Test für eine einfaktorielle Lösung sprechen. Mit der ersten unrotierten Hauptkomponente werden 88 % der Gesamtvarianz erklärt.

Kognitive Grundfähigkeiten wurden mit dem Kognitiven Fähigkeitstest (KFT) erhoben (Heller und Perleth 2000). In den folgenden Analysen wird ein Gesamtwert verwendet, in den die beiden Untertests, die mit 20 Items verbales und 25 Items figurales Schlussfolgern erfassen, mit gleichem Gewicht eingehen. Die Reliabilitäten der beiden Testteile des KFT liegen bei rKR20 = 0,75 (Kontrollkohorte) bzw. rKR20 = 0,76 (Reformkohorte) für den verbalen und bei rKR20 = 0,91 (beide Kohorten) für den figuralen Subtest. Die Reliabilität des Gesamtwertes beträgt in beiden Kohorten rKR20 = 0,91.

Als weiteres Leistungsmerkmal wird die am Ende der 9. Jahrgangsstufe erreichte Durchschnittsnote in den Fächern Deutsch, Englisch und Mathematik herangezogen. Die Noten wurden den Jahrgangszeugnissen entnommen. Um den schulspezifischen Leistungsstatus von Schülern/-innen zu erfassen, wird im vorliegenden Beitrag die mittlere Jahrgangsnote der besuchten Schule von der individuellen Durchschnittsnote abgezogen.

Motivationale Orientierung und Schulverhalten

Die Schulmotivation und schulische Anpassung wurden in der BERLIN-Studie in mehreren Dimensionen erhoben. Für den vorliegenden Beitrag wird aus Gründen sparsamer Modellierung und um Kollinearität zu vermeiden, für die Motivation nur die Lernfreude, die mit 4 Items erfasst wurde, herangezogen (Beispielitem: „Lernen macht mir Spaß“) (Gresch et al. 2010). Die interne Konsistenz dieser Skala beträgt in der Kontroll- und Reformkohorte α = 0,82. Als Indikator für (unzureichende) schulische Anpassung werden im vorliegenden Beitrag Schulversäumnisse, die mit vier Fragen erfasst wurden, verwendet (Beispielitems „… die Schule geschwänzt“) (Trautwein et al. 2010; Gresch et al. 2010). Die interne Konsistenz dieser Skala liegt in der Kontrollkohorte bei α = 0,85 und in der Reformkohorte bei α = 0,83.

Institutionelle Merkmale und Merkmale der Zusammensetzung der Schülerschaft

Als institutionelles Merkmal wird sowohl in der Kontroll- als auch in der Reformkohorte neben der Schulform die Verfügbarkeit einer eigenen gymnasialen Oberstufe berücksichtigt. Zur Kennzeichnung der Zusammensetzung der Schülerschaft werden Schulleistungen, soziale Herkunft und Migrationsstatus in aggregierter Form auf Schulebene herangezogen.

4.3 Fehlende Werte und Mehrebenenstruktur

Große Feldstudien sind in der Regel mit dem Problem eines partiellen Datenausfalls durch Nichtteilnahme oder Antwortverweigerung konfrontiert. Dies gilt auch für beide Kohorten der BERLIN-Studie (vgl. Becker et al. 2017). Fehlende Werte treten bei Angaben, die in den Schulakten enthalten sind (Geschlecht, Alter), kaum auf und sind praktisch zu vernachlässigen. Dies gilt auch für die Noten, die den Zeugnissen entnommen wurden. Für die in den Zeugnissen verzeichneten Angaben hinsichtlich der Berechtigung zum Übergang in eine gymnasiale Oberstufe liegt der Anteil fehlender Werte bei 25,1 % in der Kontrollkohorte und bei 9,2 % in der Reformkohorte. Bei Leistungsdaten beträgt der Anteil fehlender Werte je nach Kohorte bis zu 25,2 % und bei Fragebogenangaben zu Motivation und Schulanpassung auf Ebene der gebildeten Skalen bis zu 23,1 bzw. 23,9 %. Der Datenausfall ist nicht zufällig. Die fehlenden Werte hängen systematisch mit Leistungs- und Herkunftsmerkmalen zusammen. Insofern wurden in der BERLIN-Studie fehlende Werte bei Antwortverweigerung bzw. Nichtteilnahme unter Nutzung eines breiten Hintergrundmodells multipel imputiert. Multiple Imputation setzt lediglich ein bedingt zufälliges Fehlen von Daten voraus (Lüdtke und Robitsch 2011). Das breite Hintergrundmodell und die Tatsache, dass wichtige Personen- und Leistungsinformationen, die den Schulakten und Zeugnissen entnommen wurden, praktisch vollständig vorliegen, sprechen für die Erfüllung dieser Voraussetzung. Das verwendete Imputationsverfahren – Multivariate Imputation by Chained Equations (MICE) – ist darüber hinaus relativ robust gegenüber Verletzungen dieser Annahme (Schafer und Graham 2002; Van Buuren und Groothuis-Oudshoorn 2011). Es wurden fünf Datensätze erzeugt. Analyseergebnisse werden im vorliegenden Beitrag nach dem Vorschlag von Rubin (1987) integriert. In dem hierarchischen Untersuchungsdesign der BERLIN-Studie liegt Abhängigkeit der Personen innerhalb von Schulen vor. Dies führt abhängig von der Intraklassenkorrelation (ICC) zu einer Unterschätzung der Standardfehler. Diesem Problem kann man durch eine explizite Modellierung der Mehrebenenstruktur oder durch die Schätzung robuster Standardfehler (Huber-White- oder Sandwich-Schätzer) begegnen. Im vorliegenden Beitrag verwenden wir beide Vorgehensweisen.

4.4 Analytisches Vorgehen

Im Ergebnisteil werden zunächst deskriptive Befunde berichtet, die einen Populationsvergleich der untersuchten Kohorten erlauben und Auskunft über die Verteilung der Berechtigungen zum Übergang in die gymnasiale Oberstufe differenziert nach Schulform, Kohortenzugehörigkeit und Organisationsform der besuchten Schule geben. Im anschließenden analytischen Teil beruhen die Auswertungen im Wesentlichen auf Regressionsanalysen im linearen Wahrscheinlichkeitsmodell (linear probability model [LPM]) mit der Oberstufenzugangsberechtigung als abhängiger Variable.

Bei dichotomen abhängigen Variablen ist die Nutzung logistischer Regressionen die übliche Analyseentscheidung. Unsere Fragestellungen verlangen den Vergleich von geschachtelten Modellen innerhalb einer Stichprobe/Kohorte und vor allem den Vergleich von Modellen über Stichproben/Kohorten hinweg. Gerade dies ist jedoch bei nichtlinearen Regressionen aufgrund von Voraussetzungen der Modellidentifikation nicht oder nicht direkt möglich (Winship und Mare 1984; Karlson et al. 2010; Mood 2010; Best und Wolf 2012; Kern und Stein 2015). Um Koeffizienten in nichtlinearen Modellen vergleichbar zu machen, gibt es verschiedene Vorschläge, die bei Kern und Stein (2015) diskutiert werden.

Solange sich – wie in unserem Fall – das Hauptinteresse der Analysen primär auf die Richtung von Effekten und ihre zufallskritische Absicherung sowie die Schätzung durchschnittlicher Effekte richtet und die Berücksichtigung des nichtlinearen Zusammenhangs von nachgeordneter Bedeutung ist, bieten sich zwei unterschiedliche Wege zur Lösung der beschriebenen Probleme an. Im Rahmen der logistischen Regressionsanalysen lassen sich durchschnittliche marginale Effekte berechnen (average marginal effects [AMEs]), die den Durchschnittseffekt eines Prädiktors als Mittelwert aller marginalen Effekte über alle Beobachtungen hinweg wiedergeben. AMEs approximieren im Wesentlichen den linearen Trend und sind über Modelle hinweg vergleichbar (Mood 2010; Best und Wolf 2012). Sie sind – intuitiv unmittelbar einleuchtend – als Veränderungen der Wahrscheinlichkeit zu interpretieren, dass die abhängige Variable die Ausprägung 1 annimmt.

Der zweite Weg ist die Schätzung von LPMs, für die die Einschränkungen der logistischen Regression nicht gelten. Da LPMs erwartungstreue und konsistente Schätzungen des Effekts einer Variablen auf P(y = 1) liefern, werden sie in der Ökonomik häufig verwendet (Wooldridge 2010). Korrekte Standardfehler lassen sich über Sandwichschätzer ermitteln. LPM-Koeffizienten stimmen mit AMEs praktisch überein, solange die Prädiktoren nicht grob von der Normalverteilung abweichen (Mood 2010). Bei Verletzung der Normalitätsannahme können Verschätzungen auftreten, die mit steigender Interkorrelation der Prädiktoren zunehmen (Best und Wolf 2012). LPMs haben gegenüber AMEs den Vorteil, dass nicht nur die Regressionskoeffizienten, sondern auch die Intercepts direkt über Modelle und Gruppen hinweg vergleichbar sind.

Aufgrund dieser Überlegungen und des Umstandes, dass die in unseren Analysen verwendeten Prädiktoren mit einer Ausnahme (Schulversäumnisse) annähernd normalverteilt sind, berichten wir im Ergebnisteil die Resultate von linearen Wahrscheinlichkeitsmodellen mit robusten Standardfehlern. Um die Belastbarkeit der Befunde abzusichern, haben wir als Sensitivitätsanalyse in logistischen Regressionen AMEs bei gleichzeitiger KHB-Korrektur (Karlson et al. 2010) geschätzt, die im Anhang ausgewiesen sind. Wenn für die Beantwortung von theoretischen Fragestellungen der nichtlineare Zusammenhang von Bedeutung ist, werden logistische Regressionen genutzt.

Wir spezifizieren vornehmlich Zweigruppenvergleiche entweder zwischen Gymnasien und nichtgymnasialen Schulen oder zwischen Kontroll- und Reformkohorte. Für die Schätzung von schulischen Kontexteffekten werden hierarchisch-lineare Regressionsmodelle, bei denen die individuelle und die schulische Ebene unterschieden werden, jeweils in Zweigruppenvergleichen spezifiziert. Die Kontextanalysen werden doppelt manifest durchgeführt, da Mplus bei Gruppenvergleichen (mixture models) keine doppelt latente Effektschätzung erlaubt (Marsh et al. 2009, 2012). Dabei werden sowohl random-intercept- als auch random-intercept-/random-slope-Modelle angepasst. Interaktionen zwischen Schulform- bzw. Kohortenzugehörigkeit und den als Prädiktoren spezifizierten Variablen werden mit dem Wald-Test geprüft. Die linearen Wahrscheinlichkeitsmodelle wurden in Mplus (Version 7.4) spezifiziert. Die Berechnung der AMEs erfolgte im Programmpaket STATA (Version 13). Für die übrigen Analysen wurden SPSS (Version 24), R und Conquest 4 benutzt. Die Korrelationen auf individueller Ebene der in den Analysen verwendeten Variablen sind in Tab. A.1 im Anhang A ausgewiesen.

5 Ergebnisse

5.1 Deskriptive Ergebnisse

Wenn man zwei Schülerjahrgänge, die im Abstand von drei Jahren – vor und nach der Schulstrukturreform – untersucht wurden, vergleichen will, ist es vordringlich zu prüfen, ob und inwieweit sich wichtige Populationsparameter verändert haben. Tab. 1 stellt zentrale Merkmale aufgebrochen nach Schulform und Kohortenzugehörigkeit vergleichend zusammen.

Tab. 1 Stichprobenbeschreibung für die Neuntklässler/-innen in der Kontroll- und Reformkohorte

Die Ergebnisse zeigen eine hohe Stabilität der basalen Populationsparameter. Die feststellbaren Veränderungen der motivationalen Orientierungen sind nicht konsistent. So sind mit der Schulstrukturreform sowohl die Lernfreude als auch die Schulversäumnisse leicht zurückgegangen. Deutliche Unterschiede werden im mittleren Alter der Neuntklässler/-innen und bei den erteilten Oberstufenzugangsberechtigungen sichtbar. In der Reformkohorte sind die Schüler/-innen, die die 9. Jahrgangsstufe besuchen, im Mittel um vier Monate jünger. Dies ist teilweise auf eine Umstellung der Einschulung von einer Stichtags- auf eine Geburtsjahresregelung im Jahr 2004 zurückzuführen und teilweise Folge einer Abschaffung der Klassenwiederholung an ISS.

Tab. 1 gibt auch – differenziert nach Schulform – einen Überblick über die Verteilung der Oberstufenzugangsberechtigungen in der Kontroll- und Reformkohorte. Die Daten weisen einen leichten Rückgang der Berechtigungsquote an Gymnasien und einen starken Anstieg der Zulassungsquoten an ISS aus. Wie Neumann et al. (2017a, 2017c) bereits gezeigt haben, stieg an ISS die Quote der Übergangsberechtigten von der Kontroll- zur Reformkohorte insgesamt um rund 18 Prozentpunkte von 23,5 auf 41,1 %, an ISS ohne Oberstufe von 18,4 auf 33,7 % und an ISS mit eigener Oberstufe – alle umgegründete IGS – von 32,1 auf 52,6 %.

5.2 Multivariate Ergebnisse

Die Untersuchung der in Abschn. 3 entwickelten Fragestellungen erfolgt in zwei Schritten. In Abschn. 5.2.1 werden der Zusammenhang zwischen Fachleistungen und der Erteilung einer Übergangsberechtigung an Gymnasien und nichtgymnasialen Schulen und dabei insbesondere die Lokalisation der kritischen Übergangsschwelle und ihre Veränderung durch die Schulstrukturreform untersucht. Diese Fragestellung wurde in Abschn. 3.2 theoretisch begründet. Darauf folgt in Abschn. 5.2.2 die Untersuchung der strukturellen Komponenten der Platzierungsentscheidungen im nichtgymnasialen Bereich und ihrer mit der Systemumstellung verbundenen Veränderungen. Diese Fragestellungen wurden in den Abschn. 3.1 und 3.3 entwickelt.

5.2.1 Vergleich der Erteilung von Übergangsberechtigungen am Gymnasium und im nichtgymnasialen Bereich vor und nach der Schulstrukturreform: Zusammenhang zwischen Fachleistungen und Übergangsberechtigung

Der Zusammenhang zwischen Fachleistungen und Erteilung der Übergangsberechtigung an Gymnasien und nichtgymnasialen Schulen wurde regressionsanalytisch untersucht. Tab. 2 fasst die Ergebnisse der linearen Regressionen (LPM) von der Oberstufenzugangsberechtigung (nein/ja) auf Kohortenzugehörigkeit bzw. Kohortenzugehörigkeit und Schulleistungen zusammen. Es wurden zwei Modelle mit und ohne Kontrolle von Schulleistungen spezifiziert. Für beide Modelle wurde ein Zweigruppenvergleich (Gymnasium vs. Nichtgymnasium) durchgeführt. Ergänzend wurde für beide Modelle eine separate Analyse nur mit Schüler/-innen an nichtgymnasialen Schulen vorgenommen.

Tab. 2 Ergebnisse der Regressionen von der Oberstufenzugangsberechtigung (nein = 0/ja = 1) auf Kohortenzugehörigkeit und Schulleistungen (lineare Wahrscheinlichkeitsmodelle (LPM), Zweigruppenvergleiche (Gymnasium vs. Nichtgymnasium), nicht standardisierte Regressionskoeffizienten (B))

Im Modell 1 wird in der Differenz der Intercepts die vor der Schulreform an Gymnasien und nichtgymnasialen Schulen extrem unterschiedliche Wahrscheinlichkeit, eine Berechtigung für den Übergang in die gymnasiale Oberstufe zu erhalten, sichtbar. Die Übergangsquoten betrugen am Gymnasium 95,8 % und an den nichtgymnasialen Schulen 23,5 % (vgl. auch Tab. 1). Die Differenz betrug also 72,3 Prozentpunkte. Dass dieser Unterschied statistisch signifikant wird, ist trivial. Modell 1 zeigt ferner, dass der Rückgang der Berechtigungsquoten am Gymnasium von der Kontroll- zur Reformkohorte um 4,1 Prozentpunkte von rund 96 auf 92 % angesichts der Schiefe der Verteilung nicht zufallskritisch abzusichern ist, während der Anstieg der Berechtigungsquoten an den ISS um 17,5 Prozentpunkte signifikant wird (b = 0,175**). Modell 1a bestätigt darüber hinaus inferenzstatistisch die unabhängig von der Kohortenzugehörigkeit erheblich höheren Berechtigungschancen an nichtgymnasialen Schulen mit eigener Oberstufe (Haupteffekt der Organisationsform (b = 0,137**)) bei nicht signifikanter Interaktion mit der Kohortenzugehörigkeit (b = 0,052). Der Öffnungsprozess hat also in ähnlicher Weise an ISS mit und ohne gymnasiale Oberstufe stattgefunden.

Im Modell 2 wird anhand des in Abschn. 4 beschriebenen Leistungsfaktors das Leistungsniveau in vier Kernfächern kontrolliert. Der Faktorwert ist ein Indikator für das Gesamtleistungsniveau in den übergangsrelevanten Fächern (Deutsch, Mathematik, Englisch und Naturwissenschaften). Das Gesamtleistungsniveau ist ein guter Prädiktor für die Erteilung der Übergangsberechtigung im nichtgymnasialen Bereich. Mit dem Anstieg des Leistungsniveaus um eine Standardabweichung in der Gesamtstichprobe der Neuntklässler/-innen erhöht sich die Wahrscheinlichkeit, eine Übergangsberechtigung zu erhalten, um b = 0,265** – also um 26,5 Prozentpunkte. Im Gymnasium hat die Gesamtleistung dagegen keinen signifikanten Vorhersagewert (b = 0,026): Fast alle Schüler/-innen schaffen es. Die Differenz ist statistisch signifikant. Modell 2a zeigt ergänzend, dass bei Kontrolle des Leistungsniveaus die erhöhten Berechtigungsquoten an nichtgymnasialen Schulen mit Oberstufe (Modell 1a) nicht mehr nachweisbar sind. An Gesamtschulen bzw. ISS mit eigener Oberstufe gibt es also keinen leistungsunabhängigen Übergangsbonus. Die LPM-Koeffizienten unterscheiden sich von in logistischen Regressionsanalysen geschätzten AMEs in ihrer praktischen Bedeutung nicht (vgl. Tab. A.2 im Anhang A).

Besondere Aufmerksamkeit verdient die unterschiedliche Vorhersagekraft des Leistungsniveaus in den Kernfächern für die Erteilung einer Übergangsberechtigung im Gymnasium und im nichtgymnasialen Bereich. Um dies anschaulich zu machen, soll der Zusammenhang zwischen Leistungsniveau und Übergangsberechtigung über die gesamte Leistungsverteilung hinweg betrachtet werden. Für diesen Zweck ist das lineare Wahrscheinlichkeitsmodell nicht geeignet (vgl. Abschn. 4.4). Um einen nichtlinearen Zusammenhang abbilden zu können, haben wir logistische Regressionen von der Übergangsberechtigung auf das Fachleistungsniveau getrennt nach Schulform und Kohorte durchgeführt und die leistungsabhängige Wahrscheinlichkeit des Erhalts einer Oberstufenzugangsberechtigung für das Gymnasium und den nichtgymnasialen Bereich nach Kohorte differenziert geschätzt und grafisch dargestellt (vgl. Abb. 1).

Abb. 1
figure 1

Wahrscheinlichkeit der Erteilung einer Übergangsberechtigung für die gymnasiale Oberstufe in Abhängigkeit von der Schulleistung nach Schulform und Kohortenzugehörigkeit

Als kritische Übergangsschwelle definieren wir den jeweiligen Wendepunkt der Ogiven, an dem mit dem erreichten Leistungsniveau eine 50-prozentige Wahrscheinlichkeit, eine Übergangsberechtigung zu erhalten, verbunden ist. Die Gesamtleistung wurde in der gewichteten Gesamtstichprobe der Neuntklässler/-innen in der Kontrollkohorte auf einen Mittelwert von x̅ = 100 und eine Standardabweichung von SD = 30 standardisiert.

Vergleicht man zunächst für den nichtgymnasialen Bereich die Lage der Wendepunkte in der Kontroll- und Reformkohorte, wird ersichtlich, dass die kritische Zugangsschwelle von einem Leistungswert von 109 Punkten in der Kontroll- auf einen Wert von 92 Punkten in der Reformkohorte gesunken ist. Dies bedeutet, dass mit der Schulstrukturreform der kritische Schwellenwert an den ISS mit d = 0,57 um mehr als eine halbe Standardabweichung abgesenkt wurde. Ein Blick auf die Grafen des Gymnasiums zeigt dagegen Stabilität. Gleichzeitig wird aber auch erkennbar, wie wenig das Gesamtleistungsniveau in den Kernfächern den Erhalt bzw. den Nichterhalt der Übergangsberechtigung am Gymnasium vorhersagt. Der Verlauf der Kurven ist extrem flach. Wenn Schüler/-innen am Gymnasium am Ende der 10. Jahrgangsstufe keine Übergangsberechtigung erhalten, ist dies eher eine Folge von Teilleistungsversagen als die Konsequenz eines insgesamt niedrigen Leistungsniveaus. Die Grafen illustrieren aber auch den in Tab. 2, Modell 2 nachgewiesenen Befund extrem unterschiedlicher Regressionssteigungen in beiden Schulbereichen: Wenn Schüler/-innen am Gymnasium ein Gesamtleistungsniveau aufweisen, das in den typischen Leistungsbereich nichtgymnasialer Schulen fällt, haben sie bessere Chancen auf eine Übergangsberechtigung als Schüler/-innen mit gleichen Leistungen im nichtgymnasialen Bereich. Der kritische Schwellenwert, mit mehr als 50-prozentiger Wahrscheinlichkeit eine Übergangsberechtigung zu erhalten, liegt im nichtgymnasialen Bereich bei 109 Leistungspunkten in der Kontroll- und bei 92 Leistungspunkten in der Reformkohorte. Die entsprechenden Wahrscheinlichkeiten für eine Übergangsberechtigung betragen bei diesen Leistungen im Gymnasium hingegen rund 95 bzw. 92 %. Gesamtleistungen von 109 Punkten oder weniger weisen vor und nach der Reform nur rund 28 % der Gymnasiasten/-innen auf. Bei einem Schwellenwert von 92 Punkten liegt der entsprechende Anteil von Gymnasiasten/-innen nur noch bei knapp 8 %. Diese Schüler/-innen werden im Vergleich zu Schülern/-innen an nichtgymnasialen Schulen nachsichtiger beurteilt. Ihr Anteil hat sich mit der Reform infolge der Absenkung der kritischen Übergangsschwelle im nichtgymnasialen Bereich deutlich verringert.

5.2.2 Erteilung der Berechtigung zum Übergang in die gymnasiale Oberstufe im nichtgymnasialen Bereich: Struktur der Platzierungsentscheidungen

Im Folgenden soll zunächst die Vergabe der Berechtigungen zum Übergang in die gymnasiale Oberstufe im nichtgymnasialen Bereich in Abhängigkeit von Leistung, Lernmotivation und Schulverhalten der Schüler/-innen untersucht werden. Dabei steht die Akkuratheit der Leistungsurteile im Mittelpunkt. Daran anschließend wird die Abhängigkeit der Platzierungsentscheidungen von Kontextmerkmalen geprüft.

Leistung, kognitive Grundfähigkeiten und Motivation als Komponenten von Platzierungsentscheidungen im nichtgymnasialen Bereich

Tab. 3 fasst die Ergebnisse der im Zweigruppenvergleich (Kontroll- vs. Reformkohorte) durchgeführten linearen Regressionen von der an nichtgymnasialen Schulen erworbenen Oberstufenzugangsberechtigung auf Schulleistungen, kognitive Grundfähigkeiten und motivationale Merkmale zusammen. Im leeren Modell 0 werden noch einmal die Mittelwerte der dichotom kodierten Oberstufenzugangsberechtigung in der Kontroll- und Reformkohorte für nichtgymnasiale Schulen gegenübergestellt. In Modell 1 wird als Prädiktor das Fachleistungsniveau in die Regressionsgleichung aufgenommen. Auch unter Kontrolle des Fachleistungsniveaus ändert sich der Unterschied zwischen den Kohorten, eine Übergangsberechtigung zu erhalten, praktisch nicht. Dies bedeutet, dass die stark erhöhten Berechtigungsquoten in der Reformkohorte ausschließlich auf gesunkene Leistungsanforderungen bei der Erteilung einer Zugangsberechtigung zurückzuführen sind (vgl. die Illustration in Abb. 1). Dennoch ist das mit objektiven Tests erfasste Gesamtleistungsniveau ein guter Prädiktor für den Erhalt einer Übergangsberechtigung. In der Kontrollkohorte steigt die Wahrscheinlichkeit, eine Übergangsberechtigung zu erhalten, mit dem Anstieg des Leistungsniveaus um eine Standardabweichung (in der Leistungsverteilung der nichtgymnasialen Schüler/-innen) um b = 0,216**. In der Reformkohorte ist der Effekt mit b = 0,248** tendenziell noch etwas größer. Der Unterschied lässt sich jedoch über alle Schulen hinweg nicht zufallskritisch absichern (vgl. aber die hierarchisch-linearen Analysen in Tab. 4). Die Analysen wurden mit den einzelnen Fachleistungen getrennt und gemeinsam wiederholt. Die in Tab. A.3 im Anhang A zusammengefassten Ergebnisse rechtfertigen noch einmal die Bildung eines Gesamtwertes. Der Zusammenhang zwischen Fachleistung und Übergangsberechtigung (r = 0,47 in der Kontroll- und r = 0,55 in der Reformkohorte) ist ein Indikator für die Akkuratheit der Urteile der Lehrkräfte, die mit der Reform und der Liberalisierung des Oberstufenzugangs entgegen unserer Ausgangsvermutung nicht geringer geworden ist. In der Tendenz deutet sich sogar eine leichte Zunahme der Urteilsakkuratheit an.

Tab. 3 Ergebnisse der Regression von der an nichtgymnasialen Schulen erworbenen Oberstufenzugangsberechtigung (0 = nein/1 = ja) auf Schulleistung, kognitive Fähigkeiten und motivationale Merkmale (lineare Wahrscheinlichkeitsmodelle (LPM), Zweigruppenvergleiche, Mittelwerte (M), nicht standardisierte Regressionskoeffizienten (B))
Tab. 4 Ergebnisse der hierarchisch-linearen Regression von der an nichtgymnasialen Schulen erworbenen Oberstufenzugangsberechtigung (nein = 0/ja = 1), auf Schulleistung, kognitive Fähigkeiten, Herkunftsmerkmale, Motivation, Schulverhalten und Merkmale der Schülerschaft der besuchten Schule (lineare Wahrscheinlichkeitsmodelle (LPM), Zweigruppenvergleiche (Kontroll- vs. Reformkohorte), nicht standardisierte Regressionskoeffizienten (B), robuste Standardfehler (SE) in Klammern)

Um einen angemessenen Eindruck von der komplexen Struktur der Urteile der Lehrkräfte zu erhalten, wurden die Modelle 2–4 spezifiziert, in denen vier weitere aus der Grundschulforschung bekannte Urteilskomponenten in die Regressionsgleichung aufgenommen wurden. Dem Modell 2 sind die spezifischen Effekte des Testleistungsniveaus, der kognitiven Grundfähigkeiten und der schulinternen Notenvergabe zu entnehmen. Alle drei Urteilkomponenten sind je für sich bedeutsam. Dabei bleibt die Akkuratheit der Platzierungsentscheidung entgegen unserer Vermutung über die Kohorten stabil, während der schulinterne Notenmaßstab mit der Schulstrukturreform erwartungsgemäß an Entscheidungsrelevanz gewinnt. Die Einschätzung der allgemeinen kognitiven Fähigkeiten spielt offensichtlich bei der Erteilung der Übergangsberechtigung – wie auch bei der Vergabe der Grundschulempfehlung – eine eigene Rolle, die sich mit der Schulstrukturreform nicht ändert.

In Modell 3 werden neben der Testleistung und den kognitiven Grundfähigkeiten zwei motivationale Variablen in die Regressionsgleichung eingeführt. Die motivationalen Merkmale sind erwartungsgemäß in beiden Kohorten für die Erteilung einer Übergangsberechtigung in spezifischer Weise prädiktiv. Die Effektstärke ist jeweils klein (b = 0,03** bzw. b = 0,04**), aber in der Kumulation durchaus bemerkenswert.

Eine gewisse Modifizierung ergibt sich im Gesamtmodell 4, in dem zusätzlich die Benotung in den Kernfächern Deutsch, Mathematik und Englisch berücksichtigt wird. Von den fünf Prädiktoren – drei Leistungs- und zwei Motivationsmerkmale – leisten in beiden Kohorten nur die drei Leistungsindikatoren jeweils einen spezifischen, statistisch und praktisch signifikanten Erklärungsbeitrag. Beide Motivationsmerkmale sind dagegen – mit Ausnahme des devianten Verhaltens in der Kontrollkohorte – mit der Notenvergabe konfundiert.

Bei diesen Analysen ist herauszuheben, dass sich die im linearen Wahrscheinlichkeitsmodell gefundenen Koeffizienten in ihrer Größenordnung nicht substanziell von den in einer logistischen Regressionsanalyse geschätzten AMEs mit KHB-Korrektur unterscheiden, und zwar auch dann nicht, wenn ein Prädiktor von der Normalverteilung (wie im Fall der Schulversäumnisse) deutlich abweicht oder die Prädiktoren stark interkorreliert sind (wie im Fall Schulleistung und kognitive Grundfähigkeiten) (vgl. die Tab. A.4 im Anhang A).

Soziale Kontexte und die Erteilung von Übergangsberechtigungen im nichtgymnasialen Bereich

Um abschließend zu überprüfen, ob die Urteile, mit denen Lehrkräfte an nichtgymnasialen Schulen über die Vergabe einer Übergangsberechtigung für die gymnasiale Oberstufe entscheiden, von der Schülerzusammensetzung des betroffenen Jahrgangs einer Schule – also von sozialen Kontexten – abhängen, wurden vier hierarchisch-lineare Regressionsanalysen durchgeführt, die Effekte innerhalb und zwischen Schulen trennen. Auf der Ebene innerhalb von Schulen werden alle Prädiktoren des Gesamtmodells in Tab. 3 berücksichtigt. In Modellen, in denen die ethnische oder soziale Zusammensetzung der Schulen als Kontextvariablen analysiert werden, wird auf individueller Ebene ebenfalls für ethnische und soziale Herkunft kontrolliert. Um die Kontexteffekte korrekt zu schätzen, werden Gesamtleistung sowie ethnische und soziale Herkunft auf individueller Ebene am Gesamtmittelwert zentriert (Raudenbush und Bryk 2002, S. 140). Die Ergebnisse der Analysen sind in Tab. 4 zusammengefasst.

In Modell 1 werden als Kontextmerkmale die Organisationsform der Schule (eigene Oberstufe nein/ja) und die in der nichtgymnasialen Stichprobe auf Schulebene schulübergreifend z‑standardisierte mittlere Fachleistung herangezogen. Erwartet wurde ein Referenzgruppeneffekt, nach dem mit steigendem Leistungsniveau der Bezugsgruppe strenger geurteilt wird (vgl. Abschn. 3.3). Im Hinblick auf die Auswirkungen der Organisationsform wurden keine gerichteten Hypothesen formuliert. Es ist unklar, ob eine eigene Oberstufe die Erteilung von Übergangsberechtigungen bei Berücksichtigung der individuellen Schülermerkmale fördert oder unter dem Gesichtspunkt der Standardsicherung eher bremst. Die Ergebnisse zeigen, dass das Vorhandensein einer gymnasialen Oberstufe nach Kontrolle der Beurteilungskomponenten auf individueller Ebene keine Bedeutung für die Bereitschaft hat, Übergangsberechtigungen zu vergeben. Nichtgymnasiale Schulen mit und ohne Oberstufe legen bei der Erteilung der Berechtigungen vergleichbare Maßstäbe an. Im Hinblick auf den Bezugsgruppeneffekt widersprechen die Befunde den Erwartungen, obwohl die Leistungsvarianz zwischen den nichtgymnasialen Schulen erheblich ist (ICC(M3) = 0,45 und ICC(M2) = 0,39). Weder in der Kontroll- noch in der Reformkohorte lässt sich der erwartete Effekt nachweisen. Die Urteile von Lehrkräften werden mit steigendem mittlerem Leistungsniveau der Schülerschaft nicht strenger. Vielmehr findet sich in der Kontrollkohorte ein positiver Zusammenhang zwischen mittlerem Leistungsniveau und der Vergabe von Übergangsberechtigungen – ein Befund, den Ready und Wright (2011) für US-amerikanische Grundschulen für die Notenvergabe nachgewiesen hatten. Diese Effekte treten auch dann auf, wenn auf individueller Ebene Noten nicht kontrolliert werden. Weitere Kontextmerkmale – wie die soziale oder ethnische Zusammensetzung der Schülerschaft einer Schule – spielen, wie die Modelle 2 und 3 zeigen, für die Vergabe von Übergangsberechtigungen weder in der Kontroll- noch in der Reformkohorte eine Rolle. Zusätzlich wird in beiden Modellen durch die Trennung von inner- und zwischenschulischen Prozessen sichtbar, dass in den kognitiven Grundfähigkeiten ein schulübergreifender Maßstab zum Ausdruck kommt, der innerhalb von Schulen nach Kontrolle von Testleitung und Noten keine zusätzliche Erklärungskraft besitzt, während objektive Testleistungen über pädagogisch begründete Noten hinaus auch eine innerschulisch bedeutsame Urteilskomponente abbilden.

Im Modell 4 werden ein random-intercept-/random-slope-Modell spezifiziert und die cross-level-Interaktion zwischen mittlerem Leistungsniveau eines Schuljahrgangs und der Steigung der Regression von der erteilten Übergangsberechtigung auf die individuelle Gesamtleistung geschätzt. Dieses Modell prüft, inwieweit die Akkuratheit von Platzierungsurteilen vom Leistungskontext einer Schule abhängt. Analog zu den Befunden von Martínez et al. (2009) und Hochweber et al. (2014) nimmt die Akkuratheit der Urteile von Lehrkräften bei der Übergangsberechtigung in die gymnasiale Oberstufe mit steigendem mittleren Leistungsniveau des betroffenen Jahrgangs einer Schule zu. Mit dem Anstieg der mittleren Leistung um eine Standardabweichung auf Schulebene verstärkt sich der Zusammenhang zwischen Gesamtleistung und Übergangsberechtigung auf individueller Ebene um ∆ = 0,070** – in der Kontrollkohorte von b = 0,083 auf b = 0,153 und in der Reformkohorte von b = 0,089 auf b = 0,159. Mit steigendem Leistungsniveau einer Schule gelingt es offensichtlich besser, schulübergreifende Leistungsmaßstäbe zur Geltung zur bringen. Dies gilt unabhängig vom Vorhandensein einer eigenen Oberstufe.

6 Zusammenfassung und Diskussion

Ziel des vorliegenden Beitrags war es, die im Zuge der Umstellung auf das zweigliedrige Schulsystem in Berlin eingetretenen Veränderungen bei der Erteilung der Berechtigung für den Übergang in die gymnasiale Oberstufe, insbesondere die systematische Verschiebung der kritischen Leistungsschwelle und Veränderungen der Struktur der Platzierungsentscheidungen, multivariat zu untersuchen. Eine im vorliegenden Beitrag vorgenommene Überprüfung des Zusammenhangs zwischen Gesamtleistung in den Kernfächern, Kohortenzugehörigkeit und Wahrscheinlichkeit, eine Übergangsberechtigung zu erhalten, zeigte, dass der Anstieg der Berechtigungsquote an den nichtgymnasialen Schulen ausschließlich auf die Absenkung von Leistungsanforderungen zurückzuführen ist. Es traten starke Haupteffekte der Gesamtleistung und Kohortenzugehörigkeit auf. Eine Interaktion zwischen Gesamtleistung und Kohorte ließ sich nicht nachweisen, was für vergleichbare Zusammenhänge zwischen Gesamtleistung und Berechtigungsvergabe vor und nach der Schulstrukturreform spricht. Dabei wurde jedoch die kritische Leistungsschwelle, an der die Wahrscheinlichkeit für den Erhalt einer Übergangsberechtigung 50 % beträgt, um mehr als eine halbe Standardabweichung (d = 0,57) herabgesetzt. Im Gymnasium blieben die Berechtigungsquoten stabil bei einer leichten Absenkung des mittleren Gesamtleistungsniveaus (d = −0,22). Dieses Ergebnis verdeutlicht, dass sich das zu Beginn des Beitrags skizzierte Problem, bei der Öffnung alternativer Wege zur Hochschulreife gemeinsame Standards zu sichern, mit der Strukturreform in Berlin verstärkt hat.

Nichtgymnasiale Schulen mit eigener Oberstufe erteilen erwartungsgemäß häufiger Übergangsberechtigungen für die gymnasiale Oberstufe als Schulen ohne Oberstufe. Daran hat sich mit der Schulstrukturreform, wie die nicht signifikante Interaktion zwischen Kohorte und Organisationsform zeigt, nichts geändert. Bei Kontrolle des Fachleistungsniveaus ist dieser Unterschied jedoch nicht mehr nachweisbar. Vermutlich sind die unterschiedlichen Berechtigungsquoten primär auf positive Eingangsselektivität möglicherweise aber auch teilweise auf gute Förderung zurückzuführen. Die vorliegende Studie erlaubt dazu keine finalen Aussagen. Festzuhalten ist, dass die ISS mit eigener Oberstufe weder Schrittmacher bei der Öffnung der gymnasialen Oberstufe noch Hüter stabiler Leistungsanforderungen während der Expansion sind.

Das Gymnasium wurde durch die Schulstrukturreform in der Mittelstufe vermutlich kaum tangiert. Das Gesamtleistungsniveau der Neuntklässler/-innen am Gymnasium sank zwar nach der Reform um 0,22 SD (relativ zur Standardabweichung der Gesamtkohorte; vgl. Tab. 1). Für die Annahme, dass dies eine direkte Folge der Strukturreform sein könnte, gibt es jedoch keine Hinweise (vgl. Becker et al. 2017). Der Übergang in die Oberstufe ist im Gymnasium nach wie vor die Regel. Über 90 % der Schülerinnen und Schüler erhalten die Berechtigung zum Übergang in die Qualifikationsphase der gymnasialen Oberstufe. Das Gesamtleistungsniveau von Schüler/-innen ist bei dieser Verteilungsschiefe für die Vergabe der Übergangsberechtigung nur wenig prädiktiv, da die kritische Leistungsschwelle praktisch immer überschritten wird. Ein Scheitern beim Übergang in die Oberstufe ist demnach am Gymnasium eher auf Teilleistungsversagen als auf generelle Leistungsschwäche zurückzuführen. Dies bedeutet zugleich, dass Schüler/-innen, deren Gesamtleistung im typischen Leistungsbereich der ISS liegt, am Gymnasium einen Übergangsbonus erhalten. Dieser Bonus ist mit der Strukturreform und der Liberalisierung der Berechtigungsvergabe im nichtgymnasialen Bereich deutlich zurückgegangen.

Die Platzierungsentscheidung, die Lehrkräfte bei der Erteilung einer Zugangsberechtigung für die gymnasiale Oberstufe an ISS zu treffen haben, beruht auf der Integration unterschiedlicher Bewertungen, die im Laufe des 10. Schuljahrs vorgenommen werden. Die Struktur dieser Urteile ähnelt dem Urteilsmuster, das bei der Erteilung der Grundschulempfehlung identifiziert wurde. In die Platzierungsentscheidung am Ende der Sekundarstufe I gehen Leistungsurteile, bei denen schulübergreifende und schulinterne Leistungsmaßstäbe Anwendung finden, sowie Einschätzungen der Leistungsmotivation und des Arbeits- und Schulverhaltens der Schüler/-innen ein. Die erklärungsstärksten Prädiktoren sind die am Ende der 9. Jahrgangsstufe erhobene Gesamttestleistung in vier Fächern und die zum selben Zeitpunkt erfasste Durchschnittsnote in drei Kernfächern. Bemerkenswerterweise leisten darüber hinaus auch die kognitiven Grundfähigkeiten einen spezifischen Erklärungsbeitrag. Dies kann vorsichtig als Hinweis auf durch Tests und Noten nicht erfasste Leistungsvarianz interpretiert werden, könnte aber auch entsprechend den Grundschulbefunden ein Indikator für eine abschlussrelevante Einschätzung kognitiver Fähigkeiten durch Lehrkräfte sein. Die standortübergreifende Akkuratheit der leistungsbezogenen Urteilskomponente (Rangkorrelation zwischen Gesamtleistung und Platzierung) war vor der Systemumstellung mit r = 0,47 an nichtgymnasialen Schulen moderat und erreichte nicht das durchschnittliche Akkuratheitsniveau von informierten Leistungsurteilen von Lehrkräften von r = 0,76, das Südkamp et al. (2012) in ihrer Metaanalyse berichten. Die Korrelation liegt jedoch in gleicher Größenordnung, wie sie Steinmayr et al. (2017) bei Grundschulempfehlungen fanden. Bei der Interpretation dieses Befundes ist allerdings der zeitliche Abstand von einem Schuljahr zwischen Erfassung der Testleistung und der formalen Erteilung der Übergangsberechtigung zu berücksichtigen. Mit der Schulstrukturreform stieg die standortübergreifende Genauigkeit der Leistungsurteile an ISS wider Erwarten tendenziell auf r = 0,55 an. Gleichzeitig gewannen die idiosynkratischen Maßstäbe von Einzelschulen erwartungsgemäß größere Bedeutung. Dies ist einmal ein Hinweis darauf, dass die Schulformen des gegliederten Systems mit ihren unterschiedlichen Traditionen und Ansprüchen je nach Umgründungsgeschichte der ISS auch bei Zweigliedrigkeit noch präsent sind, zum anderen aber auch ein Indikator für eine bei Ausweitung des Zugangs zur gymnasialen Oberstufe erhöhte Sensibilität für eine korrekte Leistungsabstufung innerhalb der eigenen Schule. Die Relevanz von schulübergreifend erfassten motivationalen Merkmalen und Merkmalen des allgemeinen Schulverhaltens änderte sich für die Erteilung von Übergangsberechtigungen mit der Schulstrukturreform nicht. Im Unterschied zu den entsprechenden Ergebnissen der Untersuchungen zu Platzierungsentscheidungen am Ende der Grundschule wurden die motivationalen Urteilskomponenten jedoch vollständig durch die Notenvergabe vermittelt.

Die Überprüfung, inwieweit Platzierungsentscheidungen von Lehrkräften an nichtgymnasialen Schulen durch organisatorische und soziale Kontextbedingungen beeinflusst werden, ergab ein differenziertes Bild. Im Unterschied zur Grundschulempfehlung konnte der erwartete Referenzgruppeneffekt, wonach bei steigendem mittlerem Leistungsniveau der Einzelschule die Erteilung der Übergangsberechtigung für die gymnasiale Oberstufe restriktiver gehandhabt wird, nicht nachgewiesen werden. Vielmehr waren Schulen mit höherem Leistungsniveau in der Kontrollkohorte eher bereit, eine Zugangsberechtigung für die gymnasiale Oberstufe zu erteilen. Hier wirkte möglicherweise ein Generalisierungseffekt, den Ready und Wright (2011) für US-amerikanische Grundschulen berichten. Die Vergabe eines Berechtigungsbonus bei steigendem mittleren Leistungsniveau des Schuljahrgangs setzt ein Bewusstsein für institutionelle Leistungsunterschiede voraus, das in stratifizierten Systemen auch zu erwarten ist. Insofern ist es durchaus naheliegend, dass dieser Generalisierungseffekt an Grundschulen in der USA und im gegliederten Schulsystem in Deutschland, aber hier nicht an Grundschulen auftritt (Westphal et al. 2016). Nach der Schulstrukturreform sind Einflüsse des Leistungskontextes nicht mehr nachweisbar – weder als Generalisierungs- noch als Referenzgruppeneffekt. Mit dem nominellen Äquivalenzanspruch aller ISS scheint die wahrgenommene institutionelle Stratifizierung des Systems zurückzugehen, sodass der Generalisierungseffekt nicht mehr auftritt. Gleichzeitig scheint aber die institutionelle Gliederung noch hinreichend präsent zu sein, um das Auftreten eines Referenzgruppeneffekts zu verhindern.

Von besonderem Interesse ist der Nachweis einer cross-level-Interaktion zwischen dem mittleren Leistungsniveau einer ISS und der Akkuratheit der Platzierungsentscheidung im Sinne des Zusammenhangs zwischen Gesamttestleistung und Urteilsfindung. Mit steigendem Leistungsniveau einer Schule spielen standortübergreifende Leistungsmaßstäbe bei der Erteilung von Übergangsberechtigungen offenbar eine größere Rolle. Dies trifft unabhängig von der Organisationsform der Schule (eigene Oberstufe nein/ja) zu. Das heißt jedoch nicht, dass Urteile mit steigendem Leistungsniveau der Schule strenger würden; es verändert sich nur die Struktur der Urteilsfindung, nicht die kritische Leistungsschwelle. Die ethnische und soziale Zusammensetzung der Schülerschaft ist vor und nach der Schulreform für die Akkuratheit der Erteilung von Übergangsberechtigungen ohne Bedeutung.

6.1 Grenzen der Untersuchung

Mit der BERLIN-Studie wurde in Deutschland zum ersten Mal eine quasi-experimentelle Evaluation einer flächendeckenden Schulstrukturreform realisiert. Dennoch ist auf die Grenzen der Untersuchungsanlage hinzuweisen. Untersucht wurde als Reformkohorte der zweite Schülerjahrgang, der die neu strukturierte Sekundarstufe I in Berlin vollständig durchlaufen hatte. In einem langfristigen Reformprozess ist dies ein relativ früher Zeitpunkt, der noch kein abschließendes Urteil erlaubt, dafür aber Korrekturen im Prozess ermöglicht. Es ist noch offen, welche Maßnahmen das Land Berlin ergreifen wird, um eine neue Balance zwischen Öffnung von Bildungswegen und Standardsicherung zu finden. Insbesondere ist über die Weiterentwicklung der gymnasialen Oberstufen und deren Verzahnung mit den ISS noch nicht entschieden. Insofern sind die in diesem Beitrag berichteten Befunde Ergebnisse einer Zwischenbilanz (Neumann et al. 2017c).

Ebenso sind die Grenzen der Generalisierbarkeit der Befunde zu beachten. Berlin ist ein Stadtstaat mit einer für Großstädte und Ballungsgebiete charakteristischen Schulentwicklung. Dies gilt für die schulische Infrastruktur, die größere Wahlmöglichkeiten für Eltern eröffnet und Wettbewerb zwischen Schulen verstärkt (vgl. Neumann et al. 2013), ebenso wie für die Entwicklung des relativen Schulbesuchs in der Sekundarstufe. In Flächenstaaten und dort vor allem in strukturschwachen Gebieten sind andere Strukturbedingungen gegeben. Dies schränkt die Generalisierbarkeit der vorliegenden Ergebnisse ein.

Der vorliegende Beitrag untersucht die Struktur von institutionalisierten Platzierungsentscheidungen beim Übergang in die gymnasiale Oberstufe und dabei insbesondere die Rolle von Leistungsinformationen und die Veränderung kritischer Übergangsschwellen. Soziale und ethnische Disparitäten beim Erwerb von Übergangsberechtigungen und damit möglicherweise verbundene herkunftsbedingte Urteilsverzerrungen werden nicht behandelt (vgl. dazu Baumert et al. 2018).

Schließlich ist eine weitere Einschränkung der vorliegenden Untersuchung zu nennen. Leistungsdaten und Schulnoten – die wichtigsten Prädiktoren für die Erteilung der Übergangsberechtigung in die gymnasiale Oberstufe – wurden ebenso wie die motivationalen Merkmale am Ende der 9. Jahrgangsstufe erhoben. Dies ist einerseits ein Vorteil, da damit der Entscheidungsprozess, der sich über die 10. Jahrgangsstufe erstreckt, in Rechnung gestellt und nicht nur sein formaler Abschluss betrachtet wird. Darüber hinaus muss man aufgrund der formal festgelegten Notenanforderungen, die bei Erteilung der Übergangsberechtigung erfüllt sein müssen, davon ausgehen, dass Noten zumindest in Grenzbereichen am Ende der 10. Jahrgangsstufe auch strategisch im Hinblick auf die zu erteilende Berechtigung vergeben werden, so dass die Erteilung der Übergangsberechtigung und die Notenvergabe interagieren. Damit sind die Abschlussnoten kein unabhängiger Prädiktor der Übergangsberechtigung. Dies spricht für die Nutzung früher erhobener Daten. Andererseits kann dies aber auch zu einer Unterschätzung der Bedeutung sowohl der objektiven Leistung als auch der schulinternen Notenvergabe führen. Dies ist bei der Interpretation der Ergebnisse zu berücksichtigen.