En 2019, Karen Miga, professeure adjointe d’ingénierie biomoléculaire à l’UC Santa Cruz, et Adam Phillippy de l’Institut national de recherche sur le génome humain (NHGRI) ont organisé une équipe internationale de scientifiques – le consortium Telomere-to-Telomere (T2T) – pour remplir les pièces manquantes. Leurs efforts ont maintenant porté leurs fruits.First Complete Human Genome Sequenced By Scientists | World Economic ForumLe nouveau génome de référence, appelé T2T-CHM13, ajoute près de 200 millions de paires de bases de nouvelles séquences d’ADN, dont 99 gènes susceptibles de coder pour des protéines et près de 2 000 gènes candidats qui nécessitent une étude plus approfondie. Il corrige également des milliers d’erreurs structurelles dans la séquence de référence actuelle.

Les lacunes désormais comblées par la nouvelle séquence comprennent les bras courts entiers de cinq chromosomes humains et couvrent certaines des régions les plus complexes du génome. Celles-ci incluent des séquences d’ADN hautement répétitives trouvées dans et autour d’importantes structures chromosomiques telles que les télomères aux extrémités des chromosomes et les centromères qui coordonnent la séparation des chromosomes répliqués lors de la division cellulaire. La nouvelle séquence révèle également des duplications segmentaires non détectées auparavant, de longues étendues d’ADN qui sont dupliquées dans le génome et sont connues pour jouer un rôle important dans l’évolution et la maladie.A Chinese Province Is Sequencing One Million of Its Residents' Genomes« Ces parties du génome humain que nous n’avons pas pu étudier depuis plus de 20 ans sont importantes pour notre compréhension du fonctionnement du génome, des maladies génétiques, de la diversité et de l’évolution humaines », a déclaré Miga.

De nombreuses régions nouvellement révélées ont des fonctions importantes dans le génome même si elles ne comprennent pas de gènes actifs.

Sommet de la montagne« Il y a un avantage profond à voir le génome entier comme un système complet. Cela nous met en mesure de comprendre comment ce système fonctionne », a déclaré David Haussler, directeur de l’UC Santa Cruz Genomics Institute. « Nous avons acquis une énorme compréhension de la biologie et des maladies humaines grâce à environ 90 % du génome humain, mais de nombreux aspects importants étaient cachés, hors de vue de la science, car nous n’avions pas la technologie pour lire ces portions. du génome. Maintenant, nous pouvons nous tenir au sommet de la montagne et voir tout le paysage ci-dessous et obtenir une image complète de notre patrimoine génétique humain.La séquence du génome T2T, représentant le génome CHM13 fini plus le chromosome Y T2T récemment terminé (CHM13 comprend un chromosome X mais pas un chromosome Y), est maintenant un nouveau génome de référence dans le navigateur de génome UCSC. La séquence T2T est entièrement annotée dans le navigateur, offrant aux scientifiques un moyen efficace d’accéder à une multitude d’informations associées aux gènes et à d’autres éléments du génome et de les visualiser.

« Nous voulions diffuser les informations d’une manière accessible et familière aux chercheurs afin qu’ils puissent commencer à s’en servir et utiliser tous les outils et ressources fournis par le navigateur », a expliqué Miga.ImageLe nouveau génome de référence T2T viendra compléter le génome de référence humain standard, connu sous le nom de Genome Reference Consortium build 38 (GRCh38), qui a ses origines dans le projet du génome humain financé par des fonds publics et a été continuellement mis à jour depuis la première version en 2000.

« Nous ajoutons un deuxième génome complet, et il y en aura d’autres », a expliqué Haussler. « La phase suivante consiste à penser que la référence du génome de l’humanité n’est pas une séquence unique du génome. C’est une transition profonde, le signe avant-coureur d’une nouvelle ère dans laquelle nous finirons par capturer la diversité humaine de manière impartiale.

Référence du pangénome humainImageLe Consortium T2T s’est désormais associé au Human Pangenome Reference Consortium , qui vise à créer une nouvelle « référence de pangénome humain » basée sur les séquences complètes du génome de 350 individus.

« La pangénomique consiste à capturer la diversité de la population humaine, et il s’agit également de s’assurer que nous avons correctement capturé l’ensemble du génome », a déclaré Benedict Paten, professeur agrégé d’ingénierie biomoléculaire à la Baskin School of Engineering de l’UCSC, co-auteur des articles T2T, et un chef de file de l’effort de pangénomique. « Sans disposer d’une carte de ces régions du génome difficiles à séquencer sur plusieurs individus, nous manquons une grande partie de la variation présente dans notre population. T2T nous permet d’examiner des centaines de génomes, d’un télomère à l’autre. Ça va être génial! »ImageLe génome de référence standard (GRCh38) ne représente aucun individu mais a été assemblé à partir de plusieurs donneurs. Les fusionner en une seule séquence linéaire a créé des structures artificielles dans la séquence. Le projet Human Pangenome permettra de comparer des génomes nouvellement séquencés à plusieurs génomes complets représentant une gamme d’ascendances humaines.

Variantes génétiquesImageUn résultat important de la nouvelle séquence T2T est de permettre des évaluations plus précises des variantes génétiques. Lorsque les génomes humains sont séquencés pour des études cliniques visant à comprendre le rôle des variants génétiques dans la maladie ou à étudier la diversité génétique au sein et entre les populations humaines, ils sont presque toujours analysés en alignant les résultats du séquençage avec le génome de référence à des fins de comparaison. L’équipe des variantes T2T a documenté des améliorations majeures dans l’identification et l’interprétation des variantes génétiques à l’aide de la nouvelle séquence T2T par rapport au génome de référence humain standard.Image« Le nouveau génome humain est incroyablement précis au niveau de base, ce qui nous permet de signaler des centaines de milliers de variantes qui ont été mal interprétées en les mappant à la référence standard. Bon nombre de ces nouvelles variantes se trouvent dans des gènes connus pour contribuer à la maladie. Nous pouvons maintenant les repérer car nous disposons d’un génome de référence plus complet et plus précis », a déclaré Miga.

La recherche de Miga s’est concentrée sur l’ADN satellite, les longues étendues de séquences d’ADN répétitives trouvées principalement dans et autour des télomères et des centromères. Les centromères séparent chaque chromosome en un bras court et un bras long et maintiennent ensemble les chromosomes dupliqués avant la division cellulaire.

« Les centromères jouent un rôle essentiel dans la manière dont les chromosomes se séparent correctement lors de la division cellulaire, et nous savons depuis un certain temps maintenant qu’ils sont mal régulés dans toutes sortes de maladies humaines. Mais nous n’avons jamais été en mesure de les étudier au niveau de la séquence. « , a déclaré Miga. « De loin, la plus grande partie des nouvelles séquences ajoutées à la référence sont des ADN satellites centromères. Pour la première fois, nous pouvons étudier « base par base » les séquences qui définissent le centromère et commencer à comprendre son fonctionnement. »Let's learn about DNALes technologies de séquençage de l’ADN « à lecture longue », telles que le séquençage des nanopores mis au point à l’UC Santa Cruz , étaient des outils essentiels pour le consortium T2T. Deux ensembles de données de séquençage à lecture longue – lectures haute fidélité (données HiFi des systèmes PacBio) et lectures extrêmement longues qui atteignent régulièrement des longueurs supérieures à 100 000 paires de bases (données ultra-longues des appareils Oxford Nanopore) – ont permis aux chercheurs de T2T de couvrir des régions répétitives et de développer stratégies pour s’assurer que l’assemblage était très précis. Miten Jain et d’autres chercheurs de l’UCSC Genomics Institute ont aidé à établir le protocole de lecture ultra-longue .

Leaders en génomiqueImageL’UC Santa Cruz a une longue histoire de leadership en génomique, à commencer par une réunion fondamentale en 1985 pour discuter du séquençage du génome humain organisée à l’UCSC par le chancelier de l’époque, Robert Sinsheimer. Haussler a été invité à rejoindre le projet public du génome humain en 1999, et son équipe a joué un rôle crucial dans sa réalisation. À l’époque, James Kent, maintenant chercheur à l’Institut de génomique et directeur du projet UCSC Genome Browser, était un étudiant diplômé de l’UCSC. Il a écrit le code qui a rassemblé le premier projet de travail du génome humain à partir des données obtenues par le Consortium international de séquençage du génome humain, et l’UCSC a publié le projet en ligne pour que le monde entier puisse y accéder. Kent a ensuite créé le UCSC Genome Browser, qui reste la plateforme la plus largement utilisée pour accéder au génome humain.ImageL’UC Santa Cruz Genomics Institute a continué d’être à la pointe de la recherche en génomique et joue un rôle de premier plan dans les efforts de T2T et de pangénomique.

« Le travail de T2T reflète les efforts soutenus et dévoués de nombreuses personnes à l’UC Santa Cruz et ailleurs. Karen Miga a travaillé dur pour obtenir de véritables séquences de centromères dans les assemblages du génome humain pendant une décennie, et cela a finalement porté ses fruits ! » dit Kent. « Je suis très enthousiaste à l’idée de voir ce travail combiné aux efforts visant à obtenir des séquences de télomère à télomère d’autres ancêtres humains. Nous nous dirigeons rapidement vers une représentation vraiment complète du génome humain.Celebrating National DNA Day Together | The Stem CellarMiga est co-auteur correspondant du principal article scientifique ,  » La séquence complète d’un génome humain « , avec Adam Phillippy au NHGRI et Evan Eichler à l’Université de Washington. Elle est également co-auteur correspondant des articles sur « Complete genomic and epigenetic maps of human centromeres » et « Epigenetic patterns in a complete human genome », et co-auteur des articles sur « Segmental duplications and their variation in a complete human genome ». génome », « Un génome de référence complet améliore l’analyse de la variation génétique humaine » et « Du télomère au télomère : l’état transcriptionnel et épigénétique des éléments répétés humains ».

Parmi les autres chercheurs de l’UC Santa Cruz Genomics Institute qui sont co-auteurs des articles figurent Benedict Paten, Mark Diekhans, Erik Garrison (maintenant au University of Tennessee Health Science Center), Marina Haukness, Miten Jain et Kishwar Shafin. Ce travail a été soutenu par les National Institutes of Health.

Télomère à télomère (T2T)A journey through the history of DNA sequencingLa première séquence complète et sans interruption d’un génome humain.

Infographie : Compléter la séquence du génome humainImageLes chercheurs ont terminé une quête qui a commencé il y a 32 ans, après avoir découvert les dernières séquences d’ADN qui composent un génome humain. En savoir plus sur cette réalisation extraordinaire.

Le projet du génome humain a pris fin en 2003, mais les chercheurs en génomique n’avaient pas encore déterminé chaque dernière base (ou lettre) de la séquence du génome humain. Au lieu de cela, ils n’avaient terminé qu’environ 92% de la séquence à ce moment-là. Pourquoi se sont-ils arrêtés là ?

Pourquoi était-il si difficile de terminer complètement la séquence du génome humain ?ImageLe projet du génome humain a pris fin en 2003, mais les chercheurs en génomique n’avaient pas encore déterminé chaque dernière base (ou lettre) de la séquence du génome humain. Au lieu de cela, ils n’avaient terminé qu’environ 92% de la séquence à ce moment-là. Pourquoi se sont-ils arrêtés là ?

Raison 1 : Le génome humain contient une quantité massive d’ADN.Infographie de télomère à télomère - Raison 1Le génome humain est constitué d’environ 3 milliards de bases dans un ordre précis, dont chacune peut être représentée par une lettre (G, A, T ou C). La séquence d’un génome ne peut pas être lue de bout en bout. Au lieu de cela, les chercheurs doivent d’abord déterminer la séquence de morceaux d’ADN aléatoires, puis utiliser ces séquences plus petites pour reconstituer l’ensemble de la séquence du génome comme un énorme puzzle.

Raison 2 : Certaines parties de notre ADN sont douloureusement répétitives.Infographie de télomère à télomère - Raison 2Certaines sections de la séquence du génome humain consistent en de longues séquences de lettres répétitives difficiles à placer au bon endroit. Au cours des deux dernières décennies, les chercheurs ont développé de nouvelles technologies pour lire de plus longues étendues d’ADN – de seulement environ 500 à maintenant plus de 100 000 lettres à la fois – ce qui leur a permis d’assembler toute la longueur des répétitions les plus difficiles.

Raison 3 : Les premiers 92 % étaient difficiles. Les 8% restants étaient atroces.Infographie de télomère à télomère - Raison 3Ces répétitions d’ADN et d’autres obstacles se dressaient entre les chercheurs en génomique et les 8% finaux de la séquence du génome humain jusqu’à ce que de nouvelles technologies de laboratoire et de calcul soient développées. Il a fallu presque deux fois plus de temps pour terminer les derniers 8 % du génome humain que pour les premiers 92 % !

Raison 4 : Les 8 % restants avaient besoin d’une génération de chercheurs en génomique dévoués et dotés d’une vision.Infographie de télomère à télomère - Raison 4Même avec les nouvelles technologies, le séquençage du génome reste un travail difficile et chronophage qui nécessite beaucoup de compétences et de dévouement. La génération actuelle de chercheurs en génomique est de vrais perfectionnistes et a tout réuni pour enfin compléter la séquence du génome humain.