Das Haplotyp-Referenzpanel SWine IMputation (SWIM) ermöglicht die genetische Kartierung mit Nukleotidauflösung bei Schweinen
Kommunikationsbiologie Band 6, Artikelnummer: 577 (2023) Diesen Artikel zitieren
192 Zugriffe
2 Altmetrisch
Details zu den Metriken
Die genetische Kartierung zur Identifizierung von Genen und Allelen, die mit wirtschaftlich wichtigen quantitativen Merkmalsvariationen bei Nutztieren wie Schweinen verbunden sind oder diese verursachen, ist ein Hauptziel bei der Verbesserung der Tiergenetik. Trotz der jüngsten Fortschritte bei Hochdurchsatz-Genotypisierungstechnologien ist die Auflösung der genetischen Kartierung bei Schweinen nach wie vor schlecht, was teilweise auf die geringe Dichte genotypisierter Variantenstandorte zurückzuführen ist. In dieser Studie haben wir diese Einschränkung überwunden, indem wir ein Referenz-Haplotyp-Panel für Schweine entwickelt haben, das auf 2259 im gesamten Genom sequenzierten Tieren basiert, die 44 Schweinerassen repräsentieren. Wir bewerteten Softwarekombinationen und Rassenzusammensetzung, um das Imputationsverfahren zu optimieren und erreichten eine durchschnittliche Konkordanzrate von über 96 %, eine Nicht-Referenz-Konkordanzrate von 88 % und einen r2 von 0,85. Wir haben in zwei Fallstudien gezeigt, dass die Genotyp-Imputation mithilfe dieser Ressource die Auflösung der genetischen Kartierung erheblich verbessern kann. Um der Schweinegenetik-Community die vollständige Nutzung dieser Ressource zu ermöglichen, wurde ein öffentlicher Webserver entwickelt. Wir erwarten, dass diese Ressource die genetische Kartierung erleichtert und die genetische Verbesserung bei Schweinen beschleunigt.
Das Hausschwein (Sus scrofa) ist eine wichtige Nutztierart und ein Modellorganismus für die biomedizinische Forschung1. Historisch gesehen haben Domestizierung und intensive künstliche Selektion viele Schweinerassen hervorgebracht, die sich genetisch und phänotypisch voneinander und von ihren wilden Verwandten unterscheiden2,3,4. In jüngerer Zeit haben Hochdurchsatz-DNA-Sequenzierungs- und Genotypisierungstechnologien5 die genetische Verbesserung von Schweinen erleichtert. Beispielsweise haben Hunderte von genomweiten Assoziations- und QTL-Kartierungsstudien (Quantitative Trait Locus) zahlreiche Genomregionen identifiziert, die mit verschiedenen Produktions-, Physiologie- und Verhaltensphänotypen assoziiert sind6. Diese Studien sind wichtig für das Verständnis der genetischen und biologischen Grundlagen wirtschaftlich und biomedizinisch wichtiger Merkmale wie Wachstum7, Fruchtbarkeit8 und Krankheitsresistenz9.
Die Auflösung der genetischen Kartierung bei Schweinen ist nach wie vor schlecht, was teilweise auf die geringe Dichte von SNP-Genotypisierungs-Arrays (Single Nucleotide Polymorphism) zurückzuführen ist. Ein bewährter, kostengünstiger Ansatz zur Überwindung der Auflösungsbeschränkung ist die Genotyp-Imputation, bei der das Kopplungsungleichgewicht genutzt wird, um Genotypen an unbeobachteten polymorphen Orten abzuleiten10. Bei großen Haplotyp-Referenzpanels, die durch Sequenzierung des gesamten Genoms erstellt werden, hat die Imputation das Potenzial, Genotypen auf Sequenzebene bereitzustellen11. Bei Nutztieren, bei denen QTL-Identifizierung und genetische Vorhersage zwei Hauptziele sind und das Kopplungsungleichgewicht groß ist, wurde die Genotyp-Imputation auf Sequenzebene erfolgreich mit einer relativ kleinen Anzahl von Referenz-Haplotypen, aber angemessener Genauigkeit angewendet12, 13. Insbesondere bei Schweinen Es stehen mindestens zwei öffentliche Imputationsserver zur Verfügung14, 15. Sie enthielten jedoch entweder eine sehr begrenzte Anzahl von Tieren im Referenzpanel14 oder es fehlte eine gute Repräsentation wichtiger kommerzieller Rassen15, was ihre Anwendungen einschränkte. Obwohl viele Studien eine Verbesserung der Kartierungsauflösung16 und der Genomvorhersagegenauigkeit17 gezeigt haben, ist keine davon öffentlich zugänglich.
In dieser Studie haben wir Gesamtgenomsequenzdaten von 1530 neu sequenzierten Schweinen erstellt und diese mit 729 weiteren Tieren aus öffentlichen Datenbanken kombiniert, um Varianten zu nennen und das bisher mit Abstand größte und vielfältigste Referenzpanel von Haplotypen bei Schweinen zu entwickeln. Dieser erhebliche Anstieg der Anzahl verfügbarer Genome ermöglichte es uns, SNP-Array-Genotypen schnell und genau ganzen Genomsequenzen zuzuordnen. Wir haben die Genauigkeit der Imputation bewertet und den Nutzen dieses Haplotyp-Referenzpanels bei der genomweiten Assoziationskartierung demonstriert. Wir führen einen neuen öffentlichen Webserver (swimgeno.org) ein, auf dem Benutzer Array-Genotypen einreichen und unterstellte Genotypen auf Sequenzebene des gesamten Genoms abrufen können. Diese Ressource wird den Zugang zur hochpräzisen Genotyp-Imputation erheblich verbessern und die genetische Kartierung mit potenzieller Nukleotidauflösung bei Schweinen erleichtern.
Wir haben Gesamtgenomsequenzdaten von neu sequenzierten Tieren (n = 1530) und öffentlich zugänglichen Daten (Ergänzungsdaten 1 und 2) für insgesamt 2259 Schweine konsolidiert, die 44 verschiedene Rassen repräsentieren (Ergänzungsdaten 1). Bei den meisten Tieren handelte es sich um Landrassen (n = 651), Yorkshire (n = 543) und Duroc (n = 485), drei große kommerzielle Rassen. Die eindeutig ausgerichtete Sequenztiefe betrug im Durchschnitt aller Tiere etwa 12,86-fach (Ergänzungsdaten 1). Wir haben Varianten mithilfe der GATK-Pipeline aufgerufen und Variantenqualitätswerte mit bekannten Variantensätzen kalibriert, die aus kommerziellen SNP-Arrays zusammengestellt wurden. Nach dem Herausfiltern von Varianten mit geringer Qualität und übermäßiger Heterozygotie und Fehlen blieben 47,86 M autosomale Varianten übrig. Die Unterstichprobe von Tieren zeigte, dass die Zunahme der Anzahl entdeckter Varianten schnell abnahm (Abb. 1a). Mit nur 1000 zufällig ausgewählten Tieren konnten mehr als 95 % aller Varianten nachgewiesen werden.
eine Anzahl der entdeckten Varianten als Funktion der Anzahl der Tiere in der Entdeckungskohorte. Die Kurve wird durch zufällige Unterteilung der Population und Zählen der DNA-Varianten, die polymorph bleiben, erstellt. Die Anzahl der entdeckten Varianten ist mit 1000 und die Gesamtmenge von 2259 Tieren gekennzeichnet. b Paarweises Bindungsungleichgewicht bei vier Hausrassen und Wildschweinen aus drei Regionen. Der durchschnittliche r2 wird gegen den Abstand zwischen den Varianten aufgetragen. Die LD wurde berechnet, nachdem niederfrequente Varianten (MAF < 0,05) und nahe Verwandte (GRM > 0,5) bei 435 Durocs, 522 Landrassen, 493 Yorkshires, 36 Meishans, 24 europäischen Wildschweinen und 27 asiatischen Wildschweinen entfernt wurden. c Streudiagramm der ersten beiden Hauptkomponenten der Genotypmatrix für häufige (MAF > 0,05) und LD-beschnittene Varianten. Punkte sind entsprechend den gemeldeten Rasseinformationen farblich gekennzeichnet. Eine vorläufige Hauptkomponentenanalyse wurde durchgeführt, um eindeutige Ausreißer aus den Clustern visuell zu untersuchen und zu entfernen, die auf Fehler in den Rasseinformationen hindeuteten. d Die Abstammung von Schweinen wurde mithilfe der ADMIXTURE-Software mit einer variablen (K = 2, 4, 6) Anzahl postulierter Vorfahrenpopulationen geschätzt. Die geschätzten Vorfahren wurden als gestapelte Balkendiagramme dargestellt, wobei oben die Rassen mit Anmerkungen versehen waren. Zusätzlich zu den Anmerkungen über dem Balkendiagramm werden für K = 6 auch allgemeine geografische Standorte unter dem Balkendiagramm mit Anmerkungen versehen.
Das Kopplungsungleichgewicht (LD) zwischen Varianten in dieser Population war groß, unterschied sich jedoch je nach Rasse (Abb. 1b). LD nahm bei Wildschweinen mit zunehmendem Abstand zwischen den Varianten schneller ab als bei Hausrassen, was mit dem hohen Inzuchtniveau bei intensiv selektierten Hausrassen übereinstimmt (Abb. 1b). Die im Schweinegenom vorhandene genetische Variation trennte die Rassen in verschiedene Cluster, die eine geografische Differenzierung repräsentierten (Abb. 1c, d). Die erste Hauptkomponente der Genotypen trennte asiatische Rassen und Wildschweine von ihren europäischen Gegenstücken, während die zweite Durocs von anderen Rassen trennte (Abb. 1c). Die geschätzten Abstammungen der Rassen zeigten auch klar getrennte Cluster entsprechend ihrer geografischen Lage (Abb. 1d). Zusammengenommen bietet die vielfältige und reiche genetische Variation in den 2259 Schweinegenomen, die in dieser Studie berücksichtigt wurden, eine solide Grundlage für die Imputation des gesamten Genoms.
Wir haben uns auf die ~34 M autosomalen Varianten (30.489.782 SNPs und 4.125.579 Indels) konzentriert, die sich bei einer Nebenallelfrequenz (MAF) > 0,005 segregieren, um das Haplotyp-Referenzpanel zu erstellen. Um Faktoren zu untersuchen, die die Imputationsgenauigkeit beeinflussen, haben wir verschiedene Kombinationen häufig verwendeter Phasen- und Imputationssoftware berücksichtigt, darunter SHAPEIT4/IMPUTE5, Beagle5.2/Beagle5.2 und Eagle2.4/Minimac4. Wir haben die Imputationsgenauigkeit mithilfe von drei Metriken definiert: der Gesamtkonkordanzrate zwischen unterstellten und beobachteten Genotypen, der Nicht-Referenz-Konkordanzrate, die die Genauigkeit nur für Nicht-Referenz-Genotypen zusammenfasst, und der quadratischen Korrelation (r2) zwischen unterstellten und beobachteten Genotypen. Wir haben uns auf die Landrasse als Zielgruppe konzentriert, da sie die größte Anzahl an Tieren im Datensatz aufweist. Wir hielten 100 Landrace-Schweine bereit, die mit hoher Abdeckung (>15X) sequenziert wurden, und verglichen beobachtete Genotypen mit unterstellten Genotypen, ausgehend von sequenzierungsbasierten Genotypen an Standorten auf einem 50-K-SNP-Array (GeneSeek GGP). Unabhängig von der Rassenzusammensetzung im Haplotyp-Referenzpanel fester Größe übertraf SHAPEIT4/IMPUTE5 Beagle5.2/Beagle5.2 und Eagle2.4/Minimac4 in allen drei Metriken (Abb. 2a–c). Daher wurde SHAPEIT4/IMPUTE5 für alle nachfolgenden Analysen ausgewählt.
a Konkordanzrate, Nicht-Referenz-Konkordanzrate und r2 von unterstellten im Vergleich zu beobachteten Genotypen unter Verwendung verschiedener Softwarekombinationen mit 550 Landrassen als Referenzpanel. b Gleiche Analyse, jedoch in einem Referenzpanel bestehend aus 250 Landrassen, 150 Durocs und 150 Yorkshires. c Gleiche Analyse, jedoch in einem Referenzpanel bestehend aus 250 Landrassen und 300 anderen Rassen (nicht Duroc oder Yorkshire).
Bei Rindern schien die Imputation mithilfe von Referenzpanels mehrerer Rassen genauer zu sein als die Verwendung eines Panels nur einer Rasse12,18. Allerdings werden Mehrrassen-Panels durch größere Stichprobengrößen verfälscht. Wir fragten, ob die Imputation unter Verwendung von Referenzpanels derselben Größe von einer einzigen Rasse und von einer Mischung mehrerer Rassen einen Unterschied machte (Abb. 3a, vergleiche L, DLY und LO). Diese Frage war wichtig, da sie Aufschluss darüber gibt, ob ein Referenzpanel für mehrere Rassen oder ein rassespezifisches Referenzpanel verwendet werden sollte, um eine optimale Genauigkeit zu erreichen. Aufgrund der relativ größeren Stichprobengröße haben wir erneut 100 Landrassen-Tiere als Zielgruppe in Betracht gezogen. Wir stellten fest, dass die anhand aller drei Metriken gemessene Imputationsgenauigkeit bei gleicher Referenzpanelgröße bemerkenswert ähnlich war (Abb. 3b–d). Das Referenzpanel, das von derselben Rasse stammte wie die Zielgruppe, hatte einen sehr leichten Vorteil (Abb. 3b–d). Allerdings sind Mehrrassen-Panels nützlich, da Referenzen aus derselben Rasse allein (aber kleinerer Stichprobengröße) nicht in der Lage waren, die gleiche Genauigkeit zu erreichen (Abb. 3, vergleiche L-250 mit anderen). Da die überwiegende Mehrheit der Landrassenschweine aus einer einzigen Population stammte, spiegelt die Genauigkeit der Zurechnung möglicherweise nicht ein realistisches Szenario wider, wenn neue Zielsätze aus anderen Populationen abgeleitet werden. Wir haben die Imputationsgenauigkeit anhand von 550 Tieren als Referenzsatz, aber 41 Landrassenschweinen aus der SRA als Zielsatz bewertet, was eine Situation darstellt, in der die Zielsätze weit von der Referenz entfernt sind. Die Imputationsgenauigkeiten waren geringer und das Mehrrassen-Panel schien einen kleinen Vorteil zu haben (ergänzende Abbildung 1). Durch die Erweiterung des Referenzpanels auf 2218 Tiere wurde die Genauigkeit erheblich erhöht (ergänzende Abbildung 2). Die geringeren Genauigkeiten können auf eine Kombination aus der geringen Anzahl an Zieltieren sowie einer größeren genetischen Entfernung vom Referenzpanel zurückzuführen sein. Obwohl der Vergleich zwischen Mehrrassen- und rassespezifischen Panels gleicher Größe von bestimmten Situationen abhängt, ist in den meisten Fällen ein Mehrrassen-Referenzpanel im Gegensatz zu einem rassespezifischen Referenzpanel wünschenswert, da es die Referenzpanelgröße maximiert .
ein experimentelles Design zur Untersuchung der Auswirkung der Rassenzusammensetzung des Haplotyp-Referenzpanels auf die Imputationsgenauigkeit. Drei Referenzpanels wurden getestet, darunter „L“: 550 Landrace-Tiere; „DLY“: 550 Schweine der Rassen Duroc, Landrace und Yorkshire; „LO“: 550 Schweine von Landrassen und anderen Nicht-Duroc- oder Yorkshire-Rassen; „L-250“: Nur 250 Landrassen-Tiere. Als Zielvorgabe dienten einhundert Landrassen. Konkordanzrate (b), Nicht-Referenz-Konkordanzrate (c) und r2 (d) von unterstellten gegenüber beobachteten Genotypen unter Verwendung unterschiedlicher Rassenzusammensetzungen des Haplotyp-Referenzpanels.
Wir verglichen unsere SWine IMputation (SWIM)-Ressource mithilfe des Referenzpanels für mehrere Rassen mit einem Imputationsserver für Schweine (PHARP), der 1006 im SRA öffentlich verfügbare Tiere nutzte15. Wir haben die Imputationsgenauigkeit der Varianten bewertet, die in beiden Referenzpanels vorhanden waren. PHARP enthielt relativ wenige große kommerzielle Rassen, darunter 115 Yorkshires, 85 Durocs und 48 Landrassen. Wir haben Zielsätze von Landrace, Duroc und Yorkshire berücksichtigt, in denen die überwiegende Mehrheit der GWAS durchgeführt wird (Abb. 4a). Bei der Bewertung der Imputationsgenauigkeit haben wir 100 Tiere als Zielmenge festgelegt und den Rest (n = 2159) als Haplotyp-Referenzpanel verwendet. Während die Gesamtkonkordanzrate einheitlich hoch war (> 94,24 %), war die Imputation mithilfe des in der vorliegenden Studie entwickelten SWIM-Panels bei jeder Rasse durchweg höher als bei PHARP (Abb. 4b). Die Verbesserung war viel ausgeprägter, wenn man die Nicht-Referenz-Konkordanzrate und r2 berücksichtigte, zwei Metriken, die die Genauigkeit genauer widerspiegeln, insbesondere bei niedriger Frequenz (Abb. 4c, d). Der Unterschied zwischen SWIM und PHARP könnte einfach ein Unterschied in der Stichprobengröße sein, insbesondere bei den bewerteten Rassen. Das endgültige Referenz-Haplotyp-Panel, bestehend aus allen 2259 Tieren, wird voraussichtlich eine Konkordanzrate von über 95,84 %, eine Nicht-Referenz-Konkordanzrate von 88,26 % und einen r2 von 0,85 erreichen.
a Zusammensetzung der Haplotyp-Referenzpanels, einschließlich verschiedener SWIM- und PHARP-Szenarien und Zielsatz. SWIM-100Y, SWIM-100D und SWIM-100L sehen jeweils 100 Yorkshire-, 100 Duroc- und 100 Landrassen als Ziel vor. Für das PHARP-Referenzpanel werden dieselben 100 Yorkshire-, 100 Duroc- und 100 Landrassen zur Bewertung der Imputationsgenauigkeit verwendet. b Konkordanzrate der unterstellten gegenüber den beobachteten Genotypen unter Verwendung verschiedener Haplotyp-Referenzpanels. Die mittlere Konkordanzrate über alle Varianten hinweg wird im Diagramm für jedes Referenzpanel ebenfalls angezeigt. c Nicht-Referenz-Konkordanzrate von unterstellten gegenüber beobachteten Genotypen unter Verwendung verschiedener Haplotyp-Referenzpanels. Die mittlere Nicht-Referenz-Konkordanzrate über alle Varianten hinweg wird im Diagramm für jedes Referenzpanel ebenfalls angezeigt. d r2 der unterstellten versus beobachteten Genotypen unter Verwendung verschiedener Haplotyp-Referenzpanels. Der Mittelwert r2 über alle Varianten wird auch im Diagramm für jedes Referenzpanel angezeigt.
Wir haben auch die Leistung verschiedener SNP-Startchips bewertet, darunter GeneSeek GGP 50K, Affymetrix Wens 55K und Affymetrix Axiom PigHD 660K. Diese Chips wurden ausgewählt, weil der Wens 55K und der GGP 50K eine ähnliche Anzahl von SNPs haben, aber weniger SNPs gemeinsam haben und der Axiom PigHD eine höhere Dichte darstellt. Die Imputationsgenauigkeiten wurden in 100 Durocs und unter Verwendung von 2159 Tieren als Referenz bewertet (ergänzende Abbildung 3a). Nach der Entfernung von SNPs, deren Sonden nicht eindeutig dem Referenzgenom zugeordnet waren oder monomorph waren, überlappten 39.491, 48.337 und 561.111 SNPs mit dem Haplotyp-Referenzpanel für GeneSeek GGP, Wens und Axiom PigHD (ergänzende Abbildung 3b). Wie erwartet führte eine höhere SNP-Dichte zu einer höheren Imputationsgenauigkeit (ergänzende Abbildung 3c – e) in allen drei Metriken, wobei der Affymetrix PigHD 660K SNP-Chip eine bemerkenswert hohe Genauigkeit mit einer Gesamtkonkordanzrate von 99,50 % (ergänzende Abbildung 3c) von 98,63 erreichte % Nicht-Referenz-Konkordanzrate (ergänzende Abbildung 3d) und 0,98 r2 (ergänzende Abbildung 3e).
Um den Nutzen der Genotyp-Imputation auf Sequenzebene bei der genetischen Kartierung zu demonstrieren, führten wir genomweite Assoziationsstudien (GWAS) für zwei wichtige Wachstumsmerkmale bei Schweinen durch, wobei wir sowohl SNP-Arrays als auch imputierte Genotypen verwendeten. Die beiden Merkmale Rückenfettdicke und Körperlänge wurden ausgewählt, da mutmaßliche ursächliche Gene und Mutationen bereits zuvor gut charakterisiert wurden. Unser Ziel war es herauszufinden, ob imputationsbasiertes GWAS in der Lage war, zuvor validierte funktionelle Gene und Varianten zu finden.
Die Rückenspeckdicke (BF) ist eines der wichtigsten wirtschaftlichen Merkmale bei Schweinen und wurde intensiv auf ihre genetische Grundlage untersucht. Die mithilfe von Array-SNPs oder unterstellten SNPs geschätzten genomischen Heritabilitäten waren ähnlich und deuteten auf ein mäßig vererbbares Merkmal hin (Abb. 5a). Allele in mehreren Genen, darunter IGF219,20, MC4R21 und LEPR22, wurden konsistent mit der BF-Variation bei Schweinen in Verbindung gebracht. Insbesondere wurde eine Missense-Mutation im MC4R-Gen (chr1:160773437:G>A) als ursächliche Mutation vorgeschlagen21 und in mehreren genetischen Hintergründen umfassend repliziert23. Darüber hinaus sind Mutationen in MC4R stark mit früh einsetzender Fettleibigkeit beim Menschen verbunden24, und seine Rolle bei der Regulierung der Energiehomöostase ist gut belegt25. Wichtig ist, dass die mutmaßliche kausale Mutation in MC4R in eines der kommerziell erhältlichen SNP-Genotypisierungs-Arrays, den Geneseek GGP Porcine 50K SNP Chip (Neogen, Lincoln, NE), aufgenommen wurde. Derselbe SNP ist jedoch im weiter verbreiteten Illumina PorcineSNP60-Chip nicht vorhanden. Um zu sehen, ob die Genotyp-Imputation die Genotypen dieses SNP korrekt zuordnen konnte, haben wir den MC4R-SNP ausgeschlossen und Gesamtgenom-Genotypen aus einer Population von 3769 Duroc-Schweinen unterstellt, die mithilfe der GGP Porcine 50K SNP-Arrays genotypisiert wurden. Bemerkenswerterweise betrugen die Konkordanzrate und r2 zwischen den unterstellten und Array-MC4R-SNP-Genotypen 99,71 % bzw. 0,9916. Wir haben GWAS unter Verwendung von Array- und unterstellten Genotypen durchgeführt. Beide zeigten einen Hauptpeak auf Chromosom 1 (Abb. 5a, ergänzende Daten 3 und 4) und eine deutliche Abweichung der P-Wert-Verteilung vom Nullwert (ergänzende Abb. 4a). Unter Verwendung unterstellter Genotypen erklärte der höchste Treffer von unterstellten SNPs (chr1:161511936:T > C, P = 2,98 × 10−13) 2,85 % der gesamten phänotypischen Varianz (Abb. 5a). Unter diesem Peak in einer 4-Mb-Region (158,5–162,5 Mb) gab es 7138 Varianten innerhalb von 22 Genen. Das Bindungsungleichgewicht in dieser Region war groß, mit 1050 Varianten mit starker LD (r2 > 0,8), wobei der Top-Hit, einschließlich des MC4R-SNP, auftrat (Abb. 5b). Der höchste Treffer war ein intronisches SNP im Gen CCBE1 (Abb. 5b). Aufgrund der ausgedehnten LD in dieser Region ist es jedoch schwierig, allein anhand genetischer Daten eine ursächliche Mutation zu bestimmen. Zusätzliche funktionelle Informationen und genetische Daten, die die LD brechen, sind erforderlich, um ursächliche Gene und Mutationen genauer zu kartieren. Dennoch zeigte die Fähigkeit, den mutmaßlich MC4R verursachenden SNP als eine der am häufigsten assoziierten Varianten in einem langen Abschnitt der Region mit hohem LD zu identifizieren, deutlich die Verbesserung der Auflösung unter Verwendung unterstellter Genotypen. In unserer Analyse wurde der MC4R-SNP zunächst entfernt und wäre ansonsten ohne die Zuschreibung unsichtbar, wie es der Fall wäre, wenn die Illumina PorcineSNP60-Chips verwendet würden.
ein Manhattan-Plot genomweiter Assoziationsstudien (GWAS) für die Rückenfettdicke. Die grauen (dunklen und hellen) Punkte im Hintergrund stammen von GWAS unter Verwendung unterstellter Genotypen, während die blauen (hellen und dunklen) Punkte von GWAS unter Verwendung von SNP-Chips stammen. Angegeben sind genomische Heritabilitäten, die mithilfe von Array- und unterstellten Genotypen berechnet wurden. Die bedeutendsten SNPs von GWAS, die unterstellte und Array-Genotypen verwenden, sind durch Kreise und Pfeile gekennzeichnet. b Assoziation innerhalb der 158,5–162,5 MB großen Region von Chromosom 1, wo sich die Top-Hits in GWAS befinden. Punkte geben −log10 (P-Wert) entlang des Chromosoms an, wobei unterstellte Genotypen verwendet werden, und SNPs, bei denen Arrays auch Genotypen aufweisen, werden durch Kreuze markiert. Die Top-SNPs von GWAS, die unterstellte und Array-Genotypen verwenden, sind durch Kreise und Pfeile markiert. r2 zwischen den SNPs und dem oberen SNP (chr1:161511936:T > C) wird durch einen blauen Farbverlauf angezeigt. Die Positionen der Gene werden im Feld unter dem Diagramm angezeigt, wobei blaue Kästchen und Gennamen mit einer linken Pfeilspitze (<) auf Gene hinweisen, die auf dem Rückstrang transkribiert wurden, und rote Kästchen und Gennamen mit einer rechten Pfeilspitze (>) auf Gene hinweisen, von denen transkribiert wurde der Vorwärtsstrang. Gene, die nicht markiert sind, haben keine Gensymbole. Genpositionen basieren auf der Ensembl Release 98-Annotation.
Als nächstes betrachteten wir die Körperlänge. Mithilfe unserer Imputationsplattform haben wir Genotypen von einem Affymetrix 55K SNP-Chip (Wens55K) einer gesamten Genomsequenz zugeschrieben und GWAS in einer Population von 1694 Yorkshire-Ebern durchgeführt (Abb. 6a). Das Merkmal weist eine mäßig hohe Erblichkeit auf, wie anhand der Array-Genotypen (h2 ~ 0,32) und der unterstellten Genotypen (h2 ~ 0,34) geschätzt wird (Abb. 6a). Unter Verwendung von GWAS (ergänzende Abb. S4b) fanden wir einen hochsignifikanten Peak auf Chromosom 17 (Abb. 6a, ergänzende Daten 5 und 6), wo die Leitvariante ein intergener SNP stromaufwärts des BMP2-Gens war (chr17:15643342:C>T). , P = 3,45 × 10−39). Bemerkenswerterweise erklärte diese Variante 13,65 % der gesamten phänotypischen Varianz, und die homozygoten C/C-Tiere waren im Durchschnitt 4,01 cm länger als die T/T-Homozygoten (Abb. 6b, c). Es wurde wiederholt gezeigt, dass BMP2 mit Wachstumsmerkmalen bei Schweinen assoziiert ist. Eine kürzlich durchgeführte Studie deutete auf eine regulatorische Variante vor dem BMP2-Gen hin und validierte ihre funktionelle Auswirkung mithilfe von Reportergenen26. Diese regulatorische Variante war in unserer Analyse der drittwichtigste SNP unter diesem Peak. Ob eine oder beide dieser potenziell regulatorischen Varianten die ursächlichen Mutationen sind, muss noch ermittelt werden. Angesichts der starken Assoziation, der hohen MAF dieser SNPs und der weniger ausgedehnten LD in dieser Region ist es unwahrscheinlich, dass diese regulatorischen Varianten proteinkodierende und weniger häufige Varianten im BMP2-Gen markieren. Zusätzlich zur genetischen Unterstützung dieser Yorkshire-Population war das körperlängenverlängernde C-Allel bei der Landrasse viel häufiger anzutreffen als bei anderen Rassen. Ein Markenzeichen der Landrasse ist ihre lange Körpergröße; Daher könnte die regulatorische Variation des BMP2-Gens einen wesentlichen Beitrag zur phänotypischen Differenzierung zwischen Schweinerassen leisten. Obwohl der SNP-Chip diese Region weitgehend identifizieren konnte, war der signifikanteste SNP (chr17:15827832:T>G, P = 1,58 × 10−25) in einem SNP-Chip-basierten GWAS etwa 184 kb von entfernt führten zum SNP und erklärten eine wesentlich geringere Varianz (8,22 % gegenüber 13,65 %).
ein Manhattan-Plot genomweiter Assoziationsstudien (GWAS) für die Körperlänge. Die grauen (dunklen und hellen) Punkte im Hintergrund stammen von GWAS unter Verwendung unterstellter Genotypen, während die blauen (hellen und dunklen) Punkte von GWAS unter Verwendung von SNP-Chips stammen. Angegeben sind genomische Heritabilitäten, die mithilfe von Array- und unterstellten Genotypen berechnet wurden. b Assoziation innerhalb der 15,3–16,3 MB großen Region von Chromosom 17, wo sich die Top-Hits in GWAS befinden. Punkte geben −log10 (P-Wert) entlang des Chromosoms an, wobei unterstellte Genotypen verwendet werden, und SNPs, bei denen Arrays auch Genotypen aufweisen, werden durch Kreuze markiert. Die Top-SNPs von GWAS, die unterstellte und Array-Genotypen verwenden, sind durch Kreise und Pfeile markiert. r2 zwischen den SNPs und dem oberen SNP (chr17:15643342:C>T) werden durch einen blauen Farbverlauf angezeigt. Die Positionen der Gene sind im Feld unter dem Diagramm und gemäß der Ensembl Release 98-Anmerkung angegeben. Alle drei Gene sind rot gefärbt und werden vom Vorwärtsstrang aus transkribiert. Das einzige Gen mit einem Symbol in dieser Region ist BMP2. c Streu- und Boxdiagramme der Körperlänge (in cm) für die drei Genotypen des chr17:15643342:C>T SNP. Die unteren und oberen Grenzen des Felds sind jeweils 25 %- und 75 %-Quantile der Daten, der Median der Mittellinie sowie das Minimum und Maximum der Whiskers. d Allelfrequenzen des chr17:15643342:C>T SNP in verschiedenen Rassen.
Um der breiten Forschungsgemeinschaft die effiziente Nutzung der in dieser Studie entwickelten Ressource zu ermöglichen, haben wir einen öffentlichen SWine IMputation (SWIM)-Webserver entwickelt (https://www.swimgeno.org und https://swim.scau.pigselection.com/ swim), auf dem Benutzer SNP-Chip-Genotypen hochladen und unterstellte Genotypen abrufen können. Die Benutzeroberfläche ist äußerst einfach und erfordert lediglich, dass Benutzer die Genotypen im gezippten PED/Map-Format hochladen und ihre E-Mail-Adressen hinterlassen. Im Gegensatz zu anderen Servern wie PHARP werden der Allelabgleich und das Umdrehen auf der Serverseite durchgeführt, was den Prozess auf der Benutzerseite weiter vereinfacht. Der Imputationsstatus kann überwacht und die Ergebnisse über einen dynamischen Link heruntergeladen werden, ohne dass ein Konto registriert werden muss. Der Server ist so eingerichtet, dass er mehrere Benutzer gleichzeitig bedienen kann, während die Anzahl der Jobs desselben Benutzers begrenzt ist. Unsere Tests haben gezeigt, dass ein typischer Job mit 2000 Personen und 50.000 SNP-Chip-Genotypen für alle Chromosomen in etwa 12 Stunden abgeschlossen werden kann.
Wir präsentieren hier die Entwicklung des größten Referenz-Haplotyp-Panels bei Schweinen und eines dazugehörigen Webservers für die Öffentlichkeit, um diese Ressource für die Genotyp-Imputation zu nutzen. Das hohe Maß an Diversität und die große Anzahl von Tieren im Panel ermöglichten es uns, eine sehr hohe Imputationsgenauigkeit mit einer Konkordanzrate, einer Nicht-Referenz-Konkordanzrate und einem r2 von über 95,84 %, 88,26 % bzw. 0,85 zu erreichen 50K SNP-Arrays (Abb. 2). Die Genauigkeiten waren vergleichbar mit denen, die mit SNP-Arrays mittlerer Dichte innerhalb reinrassiger Populationen erzielt wurden27. Angesichts der hohen Genauigkeit und des einfachen Zugangs ohne Anforderung eines Stammbaums gehen wir davon aus, dass diese öffentliche Ressource die Imputation auf Sequenzebene bei Schweinen erheblich demokratisieren und genetische Entdeckungen beschleunigen wird. Der SWIM-Server unterstützt derzeit nur die SNP-Chip-basierte Imputation. Die sequenzierungsbasierte Imputation mit geringer Abdeckung ist auf einem Webserver viel schwieriger unterzubringen, da große Rechenressourcen erforderlich sind. Dennoch können Benutzer ihre sequenzierungsbasierte Imputation mit geringer Abdeckung mithilfe des von uns freigegebenen Haplotyp-Referenzpanels implementieren.
Hochdurchsatz-Genotypisierungs-Arrays vereinfachten die Genotypisierung erheblich, und zahlreiche neue QTLs wurden durch Assoziationskartierung kartiert, typischerweise innerhalb einer Rasse und mit Hunderten bis Tausenden von Individuen6. Obwohl sich die Auflösung mit SNP-Arrays verbessert hat, bleiben ursächliche Gene und Mutationen äußerst schwer zu ermitteln, teilweise weil bei SNP-Arrays die Durchführbarkeit von Tests, homogene Abstände und gemeinsame SNPs im Vordergrund stehen5.
Unsere Auswertungen zeigten, dass Shapeit4/Impute5 andere Softwarekombinationen übertraf, eine höhere Dichte von SNP-Chips zu einer höheren Imputationsgenauigkeit führte und Haplotyp-Referenzpanels mehrerer Rassen zur Maximierung der Probengröße bevorzugt wurden. Wichtig ist, dass Tiere, die genetisch näher am Haplotyp-Referenzpanel lagen, mit höherer Genauigkeit unterstellt werden konnten. Dies unterstreicht die Bedeutung des Datenaustauschs zur Verbesserung der Repräsentation im Haplotyp-Referenzpanel weiter.
Wie wir anhand der obigen Beispiele gezeigt haben, wird erwartet, dass die Imputation die Auflösung der Genkartierung erheblich verbessern wird. Angesichts der großen Anzahl bestehender genomweiter Assoziationsstudien an Schweinen6 gehen wir davon aus, dass diese Ressource umfassend genutzt und wirkungsvoll sein wird. Tatsächlich wurden im ersten Jahr seit der Veröffentlichung des Servers mehr als 130.000 Genome imputiert, darunter eine aktuelle Studie, die ergab, dass SWIM-imputierte Genome im Vergleich zu anderen Plattformen signifikantere SNPs erkennen28. Alle bestehenden Studien mit SNP-Arrays können durch eine einfache Imputation gefolgt von GWAS ohne zusätzliche Daten verbessert werden. Auch eine Metaanalyse wird möglich, da ein gemeinsamer SNP-Satz erhalten werden kann. Dennoch hängt die Auflösung der genetischen Kartierung nicht nur von der SNP-Dichte, sondern auch vom experimentellen Design und der genetischen Struktur in der Kartierungspopulation ab. Die Imputation auf Sequenzebene identifiziert ursächliche Mutationen nicht unbedingt in einem einzigen Schritt16. Die Verfügbarkeit dieser Ressource ermöglicht geeignete Designs von Kartierungsstudien, um unter bestimmten Umständen die höchstmögliche Auflösung und möglicherweise die Nukleotidauflösung zu erreichen.
Wir haben WGS-Daten aus mehreren Quellen konsolidiert. In dieser Studie wurden erstmals insgesamt 1530 Tiere unter Verwendung der Plattformen Illumina (n = 863) und BGI (n = 667) mit 150 bp Paired-End-Reads gemeldet. Darunter waren 610 Landrace, 413 Duroc, 391 Yorkshire, 18 Taiwanhei und 17 Lichahei von Wen's Food Group Co., Ltd. (Yunfu, Guangdong, China), 21 Dahuabai, 21 Lantanghei, 20 Guangdong Xiaoerhua und 19 Yuedonghei von Guangdong-Genbank für Vieh und Geflügel (Guangzhou, Guangdong, China). Zusätzlich wurden Sequenzen für 729 Tiere aus dem Sequence Read Archive (SRA) heruntergeladen. Eine vollständige Aufschlüsselung, einschließlich Zugangsnummern, Stichprobengrößen und durchschnittlicher Sequenzierungsabdeckung, finden Sie in den Zusatzdaten 1 und 2.
Wir haben Sequenzablesungen mit BWA-MEM-0.7.1730 an das Referenzgenom des Schweins (Sscrofa11.1, ein Duroc-Schwein)29 ausgerichtet und Varianten (im GVCF-Format) mithilfe von GATK-4.1.8.1 HaplotypeCaller31 aufgerufen, nach mehreren Post-Alignment-Verarbeitungsschritten, einschließlich Duplikatentfernung mit PicardTools-2.23.331 und Neukalibrierung der Basisqualität mit GATK. Durch die Kombination der GVCFs aller Proben wurde ein Populations-VCF generiert. Varianten mit übermäßiger Heterozygotie („ExcessHet > 54,69“) wurden entfernt. Die Neukalibrierung des Variant Quality Score (VQSR) für SNPs wurde mit Wahrheits-SNP-Sets durchgeführt, die aus kommerziellen SNP-Arrays zusammengestellt wurden, einschließlich 50K-, 60K- und 80K-SNP-Chips (vorher = 15,0) auf der Illumina-Plattform und dem 660K (vorher = 12,0), SowPro90 ( prior = 15.0) SNP-Chips von der Affymetrix-Plattform. SNPs wurden mit einer Wahrheitsempfindlichkeitsfilterstufe von 99,0 gefiltert. Ohne einen Wahrheitssatz von Indels haben wir sie hart gefiltert, indem wir Indels mit QD < 2,0, QUAL < 50,0, FS > 100,0, ReadPosRankSum < −20,0 ausgeschlossen haben, wie in den Best Practices von GATK empfohlen. Darüber hinaus haben wir Tiere mit einer fehlenden Rate > 0,20, einer Heterozygotie > 0,20 herausgefiltert und bi-allelische Stellen mit einer fehlenden Rate < 0,2 und einer mittleren Sequenzierungstiefe zwischen 5 und 500 beibehalten. Die Filterung wurde mit einer Kombination aus VCFtools 0.1.1332 und durchgeführt BCFtools 1.1333-Befehle.
Das Bindungsungleichgewicht wurde mithilfe von PopLDdecay34 für Individuen derselben Rasse berechnet, nachdem nahe Verwandte (GRM > 0,5) und niederfrequente Varianten (MAF < 0,05) entfernt wurden. Um die genetische Struktur in der Population zu verstehen, haben wir Varianten mit MAF > 0,05 und fehlender Rate <0,1 beibehalten und SNPs mit LD (r2 < 0,3, -indep-pairwise 50 10 0,3) unter Verwendung von PLINK 1,935 beschnitten. Die Hauptkomponentenanalyse (PCA) wurde an der gefilterten Liste von 1.223.882 Varianten unter Verwendung von GCTA 1.93.236 für alle Personen durchgeführt. Die Abstammung wurde mithilfe von ADMIXTURE 1.337 anhand von 185 Individuen geschätzt, die zufällig entsprechend der Rassenrepräsentation im Datensatz ausgewählt wurden, oder bei mindestens vier Individuen pro Rasse. Das Downsampling war notwendig, um die Bevölkerungsstruktur richtig darzustellen.
Wir haben die Varianten weiter gefiltert, bevor wir die Haplotypen in der Referenzpopulation in Phasen eingeteilt haben. Varianten mit einer fehlenden Rate > 0,1 und einem MAF < 0,005 wurden entfernt. Darüber hinaus wurden Varianten mit einem Hardy-Weinberg-Gleichgewichtstest-P-Wert < 10–10, die separat in PLINK bei allen drei Duroc-, Landrace- und Yorkshire-Schweinen implementiert wurden, entfernt. Für die Imputation wurden nur autosomale Varianten beibehalten.
Wir haben 100 Landrassenschweine mit der höchsten Sequenzierungstiefe (17,42-fache durchschnittliche Sequenzierungstiefe im Bereich von 14,98 bis 63,11-fach) extrahiert und diese Personen als Zielpopulation zur Bewertung der Imputationsgenauigkeit bestimmt. Um die Auswirkung der Rassenzusammensetzung der Referenzpopulation zu testen, haben wir vier Referenz-Haplotyp-Panels mit unterschiedlichen Gruppen von Individuen erstellt, darunter Alle (n = 2159): alle Individuen außer den 100 Landrassen; L (n = 550): nur Landrassenschweine; DLY (n = 550): 250 Landrassen + 150 Durocs + 150 Yorkshires; und LO (n = 550): 250 Landrassen + 300 zufällig ausgewählte Schweine außer Durocs und Yorkshires. Die Phaseneinteilung wurde in diesen Referenzsätzen unabhängig durchgeführt. Darüber hinaus haben wir die Imputation auch mithilfe des PHARP-Webservers (http://alphaindex.zju.edu.cn/PHARP/index.php) getestet, der Referenzhaplotypen enthält, die aus 1006 Personen in der SRA erstellt wurden.
Wir haben drei Kombinationen von Software für Phaseneinstellung und Imputation getestet, darunter SHAPEIT 4.238 + IMPUTE5 1.1.539, Beagle 5.240 + Beagle 5.2 und Eagle 2.441 + Minimac 442. Alle Softwaretools wurden mit Standardoptionen und einer nicht aussagekräftigen Verknüpfungskarte (1 cM pro) ausgeführt 1 MB), aber die effektive Populationsgröße wurde auf 100 festgelegt. Unterstellte Genotypen wurden von denen mit der höchsten Wahrscheinlichkeit eines hinteren Genotyps aufgerufen. Allerdings erhalten Nutzer des Imputations-Webservers auch Genotyp-Wahrscheinlichkeiten.
Wir haben drei häufig verwendete Metriken berücksichtigt: Imputationsgenauigkeit, Konkordanzrate, Nicht-Referenz-Konkordanzrate43 und r2. Die Konkordanzrate ist definiert als der Anteil der Personen mit unterstellten Genotypen, die mit den beobachteten Genotypen übereinstimmen. Die Nicht-Referenz-Konkordanzrate ähnelt der Konkordanzrate, ist jedoch auf Personen beschränkt, die nicht homozygot für das Referenz-Allel sind. r2 ist der quadrierte Pearson-Korrelationskoeffizient zwischen beobachteten und unterstellten Genotypen. Wir haben die Konkordanzraten und r2 pro SNP gemessen und sie über SNPs in MAF-Bins oder über das gesamte Genom gemittelt.
Um den Nutzen der Imputation bei der genetischen Kartierung zu demonstrieren, haben wir Phänotypen und Genotypen für drei Schweinepopulationen gesammelt, die von drei Kernzuchtbetrieben der Wen's Food Group Co., Ltd. (Yunfu, Guangdong, China) verwaltet wurden, alle unter Standardmanagement Praktiken Methoden Ausübungen. Für die Rückenspeckdicke wurden die Phänotypen von 2013 bis 2018 an 3769 Duroc-Schweinen gesammelt und die SNP-Genotypisierung mit dem Geneseek GGP Porcine 50K SNP-Chip (Neogen, Lincoln, NE, USA) durchgeführt. Die Dicke des Rückenspecks wurde zwischen der 10. und 11. Rippe mit einem Aloka 500 V SSD B-Ultraschallgerät (Cormetrics Medical Systems, USA) gemessen, als das Lebendgewicht der Schweine etwa 100 kg (100 ± 5 kg) erreichte. Für die Körperlänge wurden zwischen 2012 und 2018 Phänotypen von insgesamt 1694 Yorkshire-Ebern gesammelt und die SNP-Genotypisierung mit dem Affymetrix PorcineWens55K SNP-Chip (Affymetrix, Santa Clara, CA, USA) durchgeführt. Die Körperlänge wurde von der Basis des Ohrs bis zur Basis des Schwanzes bei Schweinen mit einem Körpergewicht von etwa 100 kg (100 ± 5 kg) gemessen. Alle Proben wurden gemäß den vom Ministerium für Landwirtschaft und ländliche Angelegenheiten der Volksrepublik China genehmigten Richtlinien für die Pflege und Verwendung von Versuchstieren gesammelt. Die Ethikkommission der South China Agricultural University hat die Verwendung von Tieren in dieser Studie ausdrücklich genehmigt.
Wir haben GCTA 1.92.1 verwendet, um eine auf einem gemischten linearen Modell (MLM) basierende Assoziationsanalyse durchzuführen. Das folgende statistische Modell wurde verwendet: \(y=\mu +{xb}+g+e\) (Gleichung 1), wobei y der Vektor der phänotypischen Werte für alle Tiere ist, \(\mu\) der Achsenabschnitt , \(x\) ist die Designmatrix, die Genotypen und andere Vorkommnisse fester Effekte kodiert, \(b\) ist der Vektor fester Effekte einschließlich des SNP-Effekts und zusätzlicher Kovariaten wie Geschlecht, Stift, Jahreszeiteneffekte abhängig von den Merkmalen und \(g\) ist der Vektor polygener Zufallseffekte mit Kovarianz, die durch die genomische Beziehungsmatrix bestimmt wird, und \(e\) ist der Vektor zufälliger Residuen. Wir haben SNPs auf dem GeneSeek GGP 50 K SNP-Chip (für die Rückenfettdicke) und dem Affymetrix Wens 55K SNP-Chip (für die Körperlänge) verwendet, um die genomische Beziehungsmatrix zu berechnen. Zur Angabe der Signifikanz haben wir einen genomweiten Signifikanzschwellenwert von P = 5 × 10−8 verwendet. Die durch einen einzelnen signifikanten SNP erklärte Varianz wurde geschätzt, indem ein gemischtes lineares Modell mit der durch einen einzelnen SNP bestimmten genomischen Beziehungsmatrix angepasst wurde.
Alle statistischen Analysen werden entweder mit Softwarepaketen wie beschrieben oder in R 4.2.2 durchgeführt. Wir stellen alle Skripte, einschließlich derjenigen zur Generierung von Zahlen, in einem GitHub (https://github.com/qgg-lab/swim-public) sowie einem Zenodo-Repository44 (https://doi.org/10.5281/zenodo.7900470) zur Verfügung ). Die Stichprobengröße für das gesamte SWIM-Haplotyp-Referenzpanel beträgt 2259, wobei Teilmengen für die verschiedenen Designs ausgewählt werden, um spezifische Fragen zu beantworten. Die Stichprobengrößen für die Rückenspeckdicke und die Körperlänge GWAS betrugen 3769 bzw. 1694.
Weitere Informationen zum Forschungsdesign finden Sie in der mit diesem Artikel verlinkten Nature Portfolio Reporting Summary.
Rohsequenzdaten für 512 Tiere wurden bei SRA hinterlegt (PRJNA842867). Weitere sequenzierte Tiere waren Eigentum von Wen's Food Group Co., Ltd. und der Guangdong Gene Bank of Livestock and Poultry. Sie können angefordert werden, indem Sie sich an [email protected] bzw. [email protected] wenden. Rohsequenzdaten für eine Teilmenge der in dieser Studie verwendeten Tiere (n = 729) wurden von SRA heruntergeladen (Supplementary Data 1 und 2). Die Imputation unter Verwendung des vollständigen Datensatzes wird als Webdienst (https://www.swimgeno.org und https://swim.scau.pigselection.com/swim) bereitgestellt und ist öffentlich verfügbar. Phasenweise Haplotypen aller öffentlich zugänglichen Personen, einschließlich dieser Studie (n = 1241), sind als VCF-Dateien unter https://quantgenet.msu.edu/swim/statistics.php verfügbar. Quelldaten, die den Abbildungen zugrunde liegen. 1a, b, 2, 3, 4 und 6c sind in den Zusatzdaten 7, 8, 9, 10, 11 und 12 enthalten.
Alle Computercodes, einschließlich aller in dieser Studie durchgeführten Analysen und Codes für den SWIM-Webserver, sind unter https://github.com/qgg-lab/swim-public und in einem Zenodo-Repository44 (https://doi.org) verfügbar /10.5281/zenodo.7900470).
Lunney, JK et al. Bedeutung des Schweins als menschliches biomedizinisches Modell. Wissenschaft. Übers. Med. 13, eabd5758 (2021).
Artikel CAS PubMed Google Scholar
Groenen, MAM et al. Analysen von Schweinegenomen geben Einblicke in die Demographie und Evolution von Schweinen. Natur 491, 393–398 (2012).
Artikel CAS PubMed PubMed Central Google Scholar
Li, M. et al. Genomanalysen identifizieren unterschiedliche Selektionsmuster bei domestizierten Schweinen und tibetischen Wildschweinen. Nat. Genet. 45, 1431–1438 (2013).
Artikel CAS PubMed Google Scholar
Bosse, M. et al. Die Genomanalyse zeigt die Selektion asiatischer Gene bei europäischen Schweinen nach einer vom Menschen verursachten Introgression. Nat. Komm. 5, 4392 (2014).
Artikel CAS PubMed Google Scholar
Ramos, AM et al. Entwurf eines hochdichten SNP-Genotypisierungsassays beim Schwein unter Verwendung von SNPs, die durch Sequenzierungstechnologie der nächsten Generation identifiziert und charakterisiert wurden. PLoS ONE 4, e6524 (2009).
Artikel PubMed PubMed Central Google Scholar
Hu, Z.-L., Park, CA & Reecy, JM Aufbau einer Wissensdatenbank für genetische und genomische Nutztierinformationen durch integrative Entwicklungen von Animal QTLdb und CorrDB. Nukleinsäuren Res. 47, D701–D710 (2019).
Artikel CAS PubMed Google Scholar
Onteru, SK et al. Gesamtgenom-Assoziationsstudien zur Restfutteraufnahme und verwandten Merkmalen beim Schwein. PLoS ONE 8, e61756 (2013).
Artikel CAS PubMed PubMed Central Google Scholar
Sell-Kubiak, E. et al. Genomweite Assoziationsstudie enthüllt neue Loci für die Wurfgröße und deren Variabilität in einer Population großer weißer Schweine. BMC Genomics 16, 1049 (2015).
Artikel CAS PubMed PubMed Central Google Scholar
Boddicker, NJ et al. Genomweite Assoziation und genomische Vorhersage für die Reaktion des Wirts auf eine Infektion mit reproduktiven und respiratorischen Syndromviren bei Schweinen. Genet. Sel. Entwicklung 46, 18 (2014).
Artikel PubMed PubMed Central Google Scholar
Marchini, J. & Howie, B. Genotyp-Imputation für genomweite Assoziationsstudien. Nat. Rev. Genet. 11, 499–511 (2010).
Artikel CAS PubMed Google Scholar
Das, S. et al. Genotyp-Imputationsdienst und -methoden der nächsten Generation. Nat. Genet.48, 1284–1287 (2016).
Artikel CAS PubMed PubMed Central Google Scholar
Daetwyler, HD et al. Die Sequenzierung des gesamten Genoms von 234 Bullen erleichtert die Kartierung monogener und komplexer Merkmale bei Rindern. Nat. Genet. 46, 858–865 (2014).
Artikel CAS PubMed Google Scholar
van den Berg, S. et al. Zuschreibung zur Gesamtgenomsequenz unter Verwendung mehrerer Schweinepopulationen und ihre Verwendung in genomweiten Assoziationsstudien. Genet. Sel. Entwicklung 51, 2 (2019).
Artikel PubMed PubMed Central Google Scholar
Yang, W. et al. Animal-ImputeDB: eine umfassende Datenbank mit mehreren Tierreferenzpanels für die Genotyp-Imputation. Nukleinsäuren Res. 48, D659–D667 (2020).
Artikel PubMed Google Scholar
Wang, Z. et al. PHARP: ein Schweine-Haplotyp-Referenzpanel für die Genotyp-Imputation. Wissenschaft. Rep. 12, 12645 (2022).
Artikel CAS PubMed PubMed Central Google Scholar
Yan, G. et al. Ein GWAS-Ansatz, der auf der Sequenzierung des gesamten Genoms basiert, lokalisiert kausale Mutationen für komplexe Merkmale in einer bestimmten Schweinepopulation. Wissenschaft. China Life Sci. 65, 781–794 (2022).
Artikel CAS PubMed Google Scholar
Ros-Freixedes, R. et al. Genomvorhersage mit Sequenzdaten des gesamten Genoms in intensiv selektierten Schweinelinien. Genet. Sel. Entwicklung 54, 65 (2022).
Artikel CAS PubMed PubMed Central Google Scholar
Rowan, TN et al. Ein Referenzpanel mehrerer Rassen und zusätzliche seltene Varianten maximieren die Imputationsgenauigkeit bei Rindern. Genet. Sel. Entwicklung 51, 77 (2019).
Artikel CAS PubMed PubMed Central Google Scholar
Nezer, C. et al. Ein geprägter QTL mit großer Wirkung auf Muskelmasse und Fettablagerung ist dem IGF2-Locus bei Schweinen zugeordnet. Nat. Genet. 21, 155–156 (1999).
Artikel CAS PubMed Google Scholar
Van Laere, A.-S. et al. Eine regulatorische Mutation in IGF2 verursacht einen starken QTL-Effekt auf das Muskelwachstum beim Schwein. Natur 425, 832–836 (2003).
Artikel PubMed Google Scholar
Kim, KS, Larsen, N., Short, T., Plastow, G. & Rothschild, MF Eine Missense-Variante des Schweine-Melanocortin-4-Rezeptor-Gens (MC4R) ist mit Fett-, Wachstums- und Futteraufnahmemerkmalen verbunden. Mamm. Genom 11, 131–135 (2000).
Artikel CAS PubMed Google Scholar
OVilo, C. et al. Test auf positionelle Kandidatengene für die Körperzusammensetzung auf Schweinechromosom 6. Genet. Sel. Entwicklung 34, 465–479 (2002).
Artikel PubMed Google Scholar
Gozalo-Marcilla, M. et al. Genetische Architektur und wichtige Gene für die Rückenspeckdicke in Schweinelinien mit unterschiedlichem genetischem Hintergrund. Genet. Sel. Entwicklung 53, 76 (2021).
Artikel CAS PubMed PubMed Central Google Scholar
Farooqi, IS et al. Dominante und rezessive Vererbung krankhafter Fettleibigkeit im Zusammenhang mit Melanocortin-4-Rezeptor-Mangel. J. Clin. Investieren. 106, 271–279 (2000).
Artikel CAS PubMed PubMed Central Google Scholar
Krashes, MJ, Lowell, BB & Garfield, AS Melanocortin-4-Rezeptor-regulierte Energiehomöostase. Nat. Neurosci. 19, 206–219 (2016).
Artikel CAS PubMed PubMed Central Google Scholar
Li, J. et al. Identifizierung und Validierung einer regulatorischen Mutation stromaufwärts des BMP2-Gens, die mit der Schlachtkörperlänge bei Schweinen zusammenhängt. Genet. Sel. Entwicklung 53, 94 (2021).
Artikel CAS PubMed PubMed Central Google Scholar
Whalen, A. & Hickey, JM AlphaImpute2: schnelle und genaue Stammbaum- und bevölkerungsbasierte Imputation für Hunderttausende Individuen in Nutztierpopulationen. Vorabdruck bei bioRxiv https://doi.org/10.1101/2020.09.16.299677 (2020).
Sun, J. et al. Genomweite Assoziationsstudie zu Fortpflanzungsmerkmalen unter Verwendung imputationsbasierter Gesamtgenomsequenzdaten bei Yorkshire-Schweinen. Gene 14, 861 (2023).
Artikel CAS PubMed PubMed Central Google Scholar
Warr, A. et al. Eine verbesserte Schweine-Referenzgenomsequenz, um Schweinegenetik und -genomikforschung zu ermöglichen. Gigascience 9, giaa051 (2020).
Artikel PubMed PubMed Central Google Scholar
Li, H. & Durbin, R. Schnelle und genaue Ausrichtung kurzer Lesevorgänge mit der Burrows-Wheeler-Transformation. Bioinformatik 25, 1754–1760 (2009).
Artikel CAS PubMed PubMed Central Google Scholar
DePristo, MA et al. Ein Framework für die Variationserkennung und Genotypisierung mithilfe von DNA-Sequenzierungsdaten der nächsten Generation. Nat. Genet. 43, 491–498 (2011).
Artikel CAS PubMed PubMed Central Google Scholar
Danecek, P. et al. Das Variantenaufrufformat und VCFtools. Bioinformatik 27, 2156–2158 (2011).
Artikel CAS PubMed PubMed Central Google Scholar
Danecek, P. et al. Zwölf Jahre SAMtools und BCFtools. Gigascience 10, giab008 (2021).
Artikel PubMed PubMed Central Google Scholar
Zhang, C., Dong, S.-S., Xu, J.-Y., He, W.-M. & Yang, T.-L. PopLDdecay: ein schnelles und effektives Tool zur Analyse des Verknüpfungsungleichgewichtszerfalls basierend auf Dateien im Variantenaufrufformat. Bioinformatik 35, 1786–1788 (2019).
Artikel CAS PubMed Google Scholar
Chang, CC et al. PLINK der zweiten Generation: Sich der Herausforderung größerer und umfangreicherer Datensätze stellen. Gigascience 4, 7 (2015).
Artikel PubMed PubMed Central Google Scholar
Yang, J., Lee, SH, Goddard, ME & Visscher, PM GCTA: ein Werkzeug für die genomweite Analyse komplexer Merkmale. Bin. J. Hum. Genet. 88, 76–82 (2011).
Artikel CAS PubMed PubMed Central Google Scholar
Alexander, DH, Novembre, J. & Lange, K. Schnelle modellbasierte Abstammungsschätzung bei nicht verwandten Personen. Genomres. 19, 1655–1664 (2009).
Artikel CAS PubMed PubMed Central Google Scholar
Delaneau, O., Zagury, J.-F., Robinson, MR, Marchini, JL & Dermitzakis, ET Präzise, skalierbare und integrative Haplotypschätzung. Nat. Komm. 10, 5436 (2019).
Artikel PubMed PubMed Central Google Scholar
Rubinacci, S., Delaneau, O. & Marchini, J. Genotyp-Imputation unter Verwendung der Positional Burrows Wheeler Transform. PLoS Genet. 16, e1009049 (2020).
Artikel CAS PubMed PubMed Central Google Scholar
Browning, BL, Tian, X., Zhou, Y. & Browning, SR Schnelles zweistufiges Phasing umfangreicher Sequenzdaten. Bin. J. Hum. Genet. 108, 1880–1890 (2021).
Artikel CAS PubMed PubMed Central Google Scholar
Loh, P.-R., Palamara, PF & Price, AL Schnelles und genaues Langstrecken-Phasing in einer britischen Biobank-Kohorte. Nat. Genet. 48, 811–816 (2016).
Artikel CAS PubMed PubMed Central Google Scholar
Howie, B., Fuchsberger, C., Stephens, M., Marchini, J. & Abecasis, GR Schnelle und genaue Genotyp-Imputation in genomweiten Assoziationsstudien durch Pre-Phasing. Nat. Genet. 44, 955–959 (2012).
Artikel CAS PubMed PubMed Central Google Scholar
Li, JH, Mazur, CA, Berisa, T. & Pickrell, JK Tiefpasssequenzierung erhöht die Leistung von GWAS und verringert den Messfehler polygener Risikoscores im Vergleich zu Genotypisierungsarrays. Genomres. 31, 529–537 (2021).
Artikel PubMed PubMed Central Google Scholar
qgg-lab. qgg-lab/swim-public: swim-public-v1. Zenodo. https://doi.org/10.5281/zenodo.7900470 (2023).
Referenzen herunterladen
Diese Arbeit wird durch ein USDA-NIFA-Projekt (2021-67021-34149 an WH, CG, JS und R.Sc.), ein USDA-NIFA-Hatch-Projekt (MICL 02560 an WH) und ein Projekt der Natural Science Foundation of China unterstützt (31972540 an JY), ein Projekt der Natural Science Foundation der Provinz Guangdong (2018B030313011 an ZW) und ein Projekt des Schlüsseltechnologie-F&E-Programms der Provinz Guangdong (2022B0202090002 an ZW). Der Webserver (https://www.swimgeno.org) wird vom USDA Swine Genome Coordinator Fund (NRSP8) unterstützt.
Rodrigo Savegnago
Derzeitige Adresse: Genus IntelliGen Technologies, De Forest, Wisconsin, USA
Suxu Tan
Aktuelle Adresse: College of Life Sciences, Qingdao University, Qingdao, Shandong, China
Hochschule für Tierwissenschaften und Nationales technisches Forschungszentrum für die Schweinezuchtindustrie, Südchinesische Agraruniversität, Guangzhou, Guangdong, China
Rongrong Ding, Gengyuan Cai, Zhanwei Zhuang, Jie Wu, Ming Yang, Yibin Qiu, Donglin Ruan, Jianping Quan, Enqin Zheng, Huaqiang Yang, Zicong Li, Jie Yang und Zhenfang Wu
Abteilung für Tierwissenschaften, Michigan State University, East Lansing, Michigan, USA
Rongrong Ding, Rodrigo Savegnago, Jinding Liu, Jianping Quan, Suxu Tan, Mohammed Bedhane, Juan Steibel, Cedric Gondro und Wen Huang
Yunfu-Unterzentrum des Guangdong-Labors für moderne Lingnan-Landwirtschaft, Yufu, Guandong, China
Rongrong Ding, Cheng Tan und Zhenfang Wu
Akademie für fortgeschrittene interdisziplinäre Studien, Nanjing Agricultural University, Nanjing, Jiangsu, China
Jinding Liu
Institut für Cyber-Enabled Research, Michigan State University, East Lansing, Michigan, USA
Nanye Long
Guangdong Zhongxin Breeding Technology Co., Ltd, Guangzhou, Guangdong, China
Cheng Tan & Genyuan Cai
Schlüssellabor der Provinz Guangdong für Agrartiergenomik und molekulare Züchtung, Südchinesische Agraruniversität, Guangzhou, Guangdong, China
Zicong Li & Jie Yang
Abteilung für Tierwissenschaften, University of Missouri, Columbia, Missouri, USA
Robert Schnabel
Abteilung für Fischerei und Wildtiere, Michigan State University, East Lansing, Michigan, USA
John Steibel
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
WH, ZW, JY und RD: Konzeptualisierung und Design; RD, R.Sa., NL und WH: entwickelte und optimierte Pipeline; RD, ST und MB: analysierte Daten; JL und WH: entwickelter Webserver; R.Sc., CT, GC, ZZ, JW, MY, YQ, DR, JQ, EZ, HY, ZL, JS und CG: beigesteuerte Tools und Daten; RD und WH: haben den Artikel mit Beiträgen aller Autoren geschrieben.
Korrespondenz mit Jie Yang, Wen Huang oder Zhenfang Wu.
CT und GC sind Mitarbeiter der Guangdong Zhongxin Breeding Technology Co., Ltd. Alle anderen Autoren erklären, dass keine konkurrierenden Interessen bestehen.
Communications Biology dankt den anonymen Gutachtern für ihren Beitrag zum Peer-Review dieser Arbeit. Hauptredakteur: George Inglis. Eine Peer-Review-Datei ist verfügbar.
Anmerkung des Herausgebers Springer Nature bleibt hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten neutral.
Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.
Nachdrucke und Genehmigungen
Ding, R., Savegnago, R., Liu, J. et al. Das Haplotyp-Referenzpanel SWine IMputation (SWIM) ermöglicht die genetische Kartierung mit Nukleotidauflösung bei Schweinen. Commun Biol 6, 577 (2023). https://doi.org/10.1038/s42003-023-04933-9
Zitat herunterladen
Eingegangen: 24. November 2022
Angenommen: 12. Mai 2023
Veröffentlicht: 30. Mai 2023
DOI: https://doi.org/10.1038/s42003-023-04933-9
Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:
Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.
Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt
Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.