Genomic prediction in rye

Bernal-Vasquez, Angela-Maria

Doctoral Thesis

2017

Genomic prediction in rye

Bernal-Vasquez, Angela-Maria

Diss_Angela_Bernal.pdf (4.62 MB)

Abstract (English)

Technical progress in the genomic field is accelerating developments in plant and animal breeding programs. The access to high-dimensional molecular data has facilitated acquisition of knowledge of genome sequences in many economically important species, which can be used routinely to predict genetic merit. Genomic prediction (GP) has emerged as an approach that allows predicting the genomic estimated breeding value (GEBV) of an unphenotyped individual based on its marker profile. The approach can considerably increase the genetic gain per unit time, as not all individuals need to be phenotyped. Accuracy of the predictions are influenced by several factors and require proper statistical models able to overcome the problem of having more predictor variables than observations. Plant breeding programs run for several years and genotypes are evaluated in multi environment trials. Selection decisions are based on the mean performance of genotypes across locations and later on, across years. Under this conditions, linear mixed models offer a suitable and flexible framework to undertake the phenotypic and genomic prediction analyses using a stage-wise approach, allowing refinement of each particular stage. In this work, an evaluation and comparison of outlier detection methods, phenotypic analyses and GP models were considered. In particular, it was studied whether at the plot level, identification and removal of possible outlying observations has an impact on the predictive ability. Further, if an enhancement of phenotypic models by spatial trends leads to improvement of GP accuracy, and finally, whether the use of the kinship matrix can enhance the dissection of GEBVs from genotype-by-year (GY) interaction effects. Here, the methods related to the mentioned objectives are compared using experimental datasets from a rye hybrid breeding program. Outlier detection methods widely used in many German plant breeding companies were assessed in terms of control of the family-wise error rate and their merits evaluated in a GP framework (Chapter 2). The benefit of implementation of the methods based on a robust scale estimate was that in routine analysis, such procedures reliably identified spurious data. This outlier detection approach per trial at the plot level is conservative and ensures that adjusted genotype means are not severely biased due to outlying observations. Whenever it is possible, breeders should manually flag suspicious observations based on subject-matter knowledge. Further, removing the flagged outliers identified by the recommendedmethods did not reduce predictive abilities estimated by cross validation (GP-CV) using data of a complete breeding cycle. A crucial step towards an accurate calibration of the genomic prediction procedure is the identification of phenotypic models capable of producing accurate adjusted genotype mean estimates across locations and years. Using a two-year dataset connected through a single check, a three-stage GP approach was implemented (Chapter 3). In the first stage, spatial and non-spatial models were fitted per locations and years to obtain adjusted genotype-tester means. In the second stage, adjusted genotype means were obtained per year, and in the third stage, GP models were evaluated. Akaike information criterion (AIC) and predictive abilities estimated from GP-CV were used as model selection criteria in the first and in the third stage. These criteria were used in the first stage, because a choice had to be made between the spatial and non-spatial models and in the third stage, because the predictive abilities allow a comparison of the results of the complete analysis obtained by the alternative stage-wise approaches presented in this thesis. The second stage was a transitional stage where no model selection was needed for a given method of stage-wise analysis. The predictive abilities displayed a different ranking pattern for the models than the AIC, but both approaches pointed to the same best models. The highest predictive abilities obtained for the GP-CV at the last stage did not coincide with the models that AIC and predictive ability of GP-CV selected in the first stage. Nonetheless, GP-CV can be used to further support model selection decisions that are usually based only upon AIC. There was a trend of models accounting for row and column variation to have better accuracies than the counterpart model without row and column effects, thus suggesting that row-column designs may be a potential option to set up breeding trials. While bulking multi-year data allows increasing the training set size and covering a wider genetic background, it remains a challenge to separate GEBVs from GY effects, when there are no common genotypes across years, i.e., years are poorly connected or totally disconnected. First, an approach considering the two-year dataset connected through a single check, adjusted genotype means were computed per year and submitted to the GP stage (Chapter 3). The year adjustment was done in the GP model by assuming that the mean across genotypes in a given year is a good estimate of the year effect. This assumption is valid because the genotypes evaluated in a year are a sample of the population. Results indicated that this approach is more realistic than relying on the adjustment of a single check. A further approach entailed the use of kinship to dissect GY effects from GEBVs (Chapter 4). It was not obvious which method best models the GY effect, thus several approaches were compared and evaluated in terms of predictive abilities in forward validation (GP-FV) scenarios. It was found that for training sets formed by several disconnected years’ data, the use of kinship to model GY effects was crucial. In training sets where two or three complete cycles were available (i.e. there were some common genotypes across years within a cycle), using kinship or not yielded similar predictive abilities. It was further shown that predictive abilities are higher for scenarios with high relatedness degree between training and validation sets, and that predicting a selection of top-yielding genotypes was more accurate than predicting the complete validation set when kinship was used to model GY effects. In conclusion, stage-wise analysis is recommended and it is stressed that the careful choice of phenotypic and genomic prediction models should be made case by case based on subject matter knowledge and specificities of the data. The analyses presented in this thesis provide general guidelines for breeders to develop phenotypic models integrated with GP. The methods and models described are flexible and allow extensions that can be easily implemented in routine applications.

Abstract (German)

Der technische Fortschritt auf dem Gebiet der Genomik ermöglicht eine schnellere Entwicklung in Pflanzen- und Tierzuchtprogrammen. Die Verfügbarkeit von hochdimensionalen, molekularen Daten in vielen ökonomisch wichtigen Tier- und Pflanzenarten erlaubt dessen routinemäßigen Einsatz zur Schätzung und Vorhersage von genetischen Werten. Die genomische Vorhersage (genomic prediction = GP) ermöglicht die Schätzung des genomischen Zuchtwertes eines nicht phänotypisierten Individuums allein auf Grund des Markerprofils. Da nicht alle Individuen phänotypisiert werden müssen, erreicht man mit dieser Herangehensweise einen höheren Selektionsgewinn pro Zeiteinheit. Die Vorhersagegenauigkeit wird durch verschiedene Faktoren beeinflusst und bedarf geeigneter statistischer Modelle. Diesemüssen in der Lage sein, Lösungen für ein Gleichungssystem zu finden, obwohl es mehr erklärende Variablen als Beobachtungen gibt. Pflanzenzuchtprogramme erstrecken sich über mehrere Jahre in denen Genotypen an mehreren Versuchsorten wiederholt geprüft werden. Die Selektionsentscheidungen basieren auf der durchschnittlichen Leistung der Genotypen standortübergreifend und später über Jahre hinweg. Für diese Daten stellen gemischte lineare Modelle ein geeignetes und flexibles Werkzeug dar, um die Zuchtwerte der Individuen anhand von phänotypischen oder genetischen Daten vorherzusagen. Die Anwendung dieser Modelle zur Zuchtwertvorhersage kann in zwei Stufen erfolgen, wobei in den beiden Stufen verschiedene Aspekte berücksichtigt werden müssen, um eine valide Zuchtwertschätzung zu erhalten. In dieser Arbeit wurden verschiedene Verfahren zur Bestimmung von Ausreißern, phänotypische Analysen und genomische Vorhersage-Modelle betrachtet. Insbesondere wurde untersucht, ob anhand der Beobachtungsdaten die Identifizierung und Entfernung von möglichen Ausreißern einen Einfluss auf die Vorhersagefähigkeit der verwendeten Modelle hat. Ferner wurde analysiert, ob geostatistische Modelle zu einer Verbesserung der genomischen Vorhersagegenauigkeit führen. Ein weiteres Ziel dieser Arbeit bestand darin, herauszufinden, ob die Verwandtschaftsmatrix eine Trennung des Zuchtwertes von der Genotyp-Jahr-Interaktion ermöglicht. Die genannten Ziele wurden mit Hilfe eines Hybridroggendatensatzes aus einem Züchtungsprogramm untersucht. In deutschen Züchtungsunternehmen weitverbreitet ausreißeridentifizierungsmethoden wurden im Hinblick auf Kontrolle der versuchsbezogenen Irrtumswahrscheinlichkeit und in Bezug auf Verbesserung der genomischen Selektion untersucht (Kapitel 2). Dabei stellte sich heraus, dass diese Verfahren die Ausreißer zuverlässig identifizieren. Dieser Ansatz zur Ausreißererkennung auf Grund von Beobachtungswerten ist konservativ und gewährleistet, dass adjustierte genotypische Mittelwerte nicht aufgrund von Ausreißern verzerrt werden. Züchter sollten verdächtige Beobachtungen basierend auf ihrer Fachkenntnis markieren. Ferner hat ein Entfernen der so identifizierten Ausreißer die Vorhersagefähigkeit nicht reduziert. Die Vorhersagefähigkeit wurde über eine Kreuzvalidierung (cross validation = CV) bestimmt. Ein entscheidender Schritt zu einer genauen Kalibrierung des genomischen Vorhersageverfahrens ist die Identifizierung von phänotypischen Modellen, die fähig sind, genaue adjustierte genotypische Mittelwerte über Standorte und Jahre hinweg zu liefern. In der vorliegenden Arbeit wurde eine dreistufige GP-Auswertung für einen zweijährigen Datensatz implementiert. Die Daten beider Jahre sind über eine einzige Standardsorte verbunden (Kapitel 3). In der ersten Stufe wurden räumliche und nicht räumliche Modelle an die Daten jedes Standorts und jedes Jahrs angepasst, um die adjustierten Genotyp-Testermittelwerte zu erhalten. In der zweiten Stufe wurden adjustierte genotypische Mittelwerte pro Jahr ermittelt und in der dritten Stufe wurde die Vorhersagegüte der Modelle bewertet. Hierfür wurde sowohl das Akaike Informationkriterium (Akaike information criteria = AIC) als auch dieVor hersagefähigkeit der GP-CV in der ersten und dritten Stufe als Modellauswahlkriterium eingesetzt. In der ersten Stufe wurden diese Kriterien verwendet, weil eine Entscheidung über räumliches und nicht räumliches Modell getroffen werden musste. In der dritten Stufe wurden diese Kriterien verwendet, weil die Vorhersagefähigkeit einen Vergleich der verschiedenen Analysemethoden, die in dieser Arbeit verwendet wurden, ermöglicht. Die zweite Stufe war eine U¨ bergangsstufe, in der keine Modellauswahl benötigt wurde. Die Vorhersagefähigkeit der Modelle zeigt unterschiedliche Rangfolgen, aber beide Modellauswahlkriterien präferieren dasselbe Modell. Das mit GP-CV in der letzten Stufe bestimmte Modell mit der besten Vorhersagefähigkeit, stimmte nicht mit den mittels AIC und mittels GP-CV in der ersten Stufe pr¨aferierten Modellen überein. Nichtsdestotrotz kann GP-CV anstelle des AIC zur Modellselektion verwendet werden. Es gab eine Tendenz, dass Modelle, die Zeilen- und Spaltenvariabilität erfassen, eine bessere Vorhersagegenauigkeit aufweisen als Modelle ohne Zeilen- und Spalteneffekte. Dies suggeriert, dass Zeilen-Spalten-Designs eine mögliche Option darstellen, Zuchtversuche anzulegen. Während kombinierte, mehrjährige Daten größere Trainingsdatensätze erlauben und eine größere genetischen Variabilität abdecken, bleibt es eine Herausforderung, die Zuchtwerte von der Genotyp-Jahr-Interaktion zu trennen, wenn es kaum oder keine gemeinsame Genotypen über Jahre hinweg gibt. In dem Fall sind Jahre nur schwach verbunden oder komplett unabhängig. Zunächst wurde der zweijährige Datensatz ausgewertet, wobei die Jahre nur über eine einzelne Standardsorte verbunden sind. Es wurden adjustierte genotypische Mittelwerte pro Jahr berechnet, und anschließend in der GP-Stufe verwendet (Kapitel 3). Die Jahreseffekte wurden im GP-Modell als Mittelwert der Genotypen in den verschiedenen Jahren geschätzt. Diese Annahme ist gültig, weil die Genotypen eines Jahres eine Stichprobe der Grundgesamtheit sind. Die Ergebnisse weisen darauf hin, dass dieser Ansatz realistischer ist, als das Abschätzen der Jahreseffekte durch die Standardsorte. Ein weiterer Ansatz bestand darin, Genotyp-Jahr-Interaktionen vom Zuchtwert durch die Nutzung der Verwandtschaftsmatrix zu separieren (Kapitel 4). Hierbei war jedoch nicht offensichtlich, welche Methode die Genotyp-Jahr-Interaktion am besten abbildet. Daher wurden verschiedene Ansätze hinsichtlich der Vorhersagefähigkeit in einer Vorwärts-Validierung verglichen. Dabei stellte sich heraus, dass die Nutzung der Verwandtschaftsmatrix insbesondere dann, wenn es keine gemeinsame Standardsorte gibt, zu einer Verbesserung der Vorhersagefähigkeit führt. Wenn jedoch ausreichend Genotypen, die in mehreren Jahren getestet wurden, benutzt werden, um Jahreseffekte im GP Modell anzupassen, hat die Nutzung der erwandtschaftsmatrix weniger Einfluss auf die Vorhersagefähigkeit. Außerdem wurde in den Analysen deutlich, dass bei zunehmendem Verwandtschaftsgrad der Genotypen in den Trainingsdatensätzen die Vorhersagefähigkeit verbessert werden kann und dass die Vorhersagefähigkeit von Genotypen mit den höchsten Zuchtwerten größer ist als die Vorhersagefähigkeit für die restlichen Genotypen. Zusammenfassend kann eine stufenweise Analyse empfohlen werden. Es sei darauf hingewiesen, dass die Modellauswahl für die genomische Selektion von Fall zu Fall, also in Abhängigkeit der Daten und anhand von fachspezifischen Entscheidungen,getroffen werden sollte. Die hier vorgestellten Analysen und Methoden stellen generelle Richtlinien zur Modellselektion in der genomischen Selektion dar, die von Züchtern angewandt werden können.

Publication license

Urheberrecht

Faculty

Faculty of Agricultural Sciences

Institute

Institute of Crop Science

Examination date

2017-10-23

Supervisor

Piepho, Hans-Peter

Identification

https://hohpublica.uni-hohenheim.de/handle/123456789/6220

Language

English

Classification (DDC)

630 Agriculture

Collections

Institut für Kulturpflanzenwissenschaften

Free keywords

Genomic prediction Outliers Spatial model REM L Rye Räumliche Modelle Genomische Prognose

Standardized keywords (GND)

Roggen Genotypisierung Prognose Statistik

Full item page

A new version of this entry is available:

Genomic prediction in rye

Abstract (English)

Abstract (German)

File is subject to an embargo until

This is a new version of:

Notes

Publication license

Publication series

Published in

Faculty

Institute

Examination date

Supervisor

Edition / version

Citation

Identification

DOI

ISSN

ISBN

Language

Publisher

Publisher place

Classification (DDC)

Collections

Original object

Free keywords

Standardized keywords (GND)