mardi 28 juin 2022

Premier séquençage (encore plus) complet du génome humain

Le consortium Telomere to Telomere a séquencé la partie du génome humain qui résistait encore au séquençage

Il y a 22 ans, une équipe de recherche internationale publiait séquence (quasi) complète du génome humain. Une véritable révolution qui permettait soudain d'avoir accès à l'ensemble - ou presque - de l'information génétique contenue dans nos cellules. On pouvait examiner une dimension cruciale de ce qui fait que nous sommes humains : LE génome humain.
Comme si nous avions tous le même génome ?
C'était tellement extraordinaire que rares étaient ceux qui posaient la question (cela paraissait presque gâter la fête) de la diversité génétique de l'humain. Cette question est devenue centrale et pour étudier cette différence une séquence de référence (GRCH38 actuellement) est nécessaire comme un étalon pour établir les différences (Cf. Fig 1).

une                nouvelle référence du gnenome
Fig 1: Une nouvelle séquence de référence pour succéder à l'actuelle GRCh38 [img]. Source :  Church (2022) ici

En 2001 : Le génome humain … mais 8% d'information manquante

En 2001, le consortium scientifique international Human Genome Project était parvenu à séquencer la quasi-totalité de ce génome en identifiant trois milliards de bases. Cette découverte, révolutionnaire pour la médecine et la biologie, n'était cependant pas tout à fait complète. En raison de certaines limites technologiques, une petite partie - notamment les séquences répétitives - résistait en effet encore. On estimait alors que 5% à 15% de la séquence du génome humain restait à décoder.

Une séquence enfin complète ?

Le consortium Telomere to Telomere (T2T) auquel participe l'UNIGE est parvenu à séquencer les 8% manquants de notre matériel génétique (Nurk, et al., 2022) dans la revue Science ici. Le press release de l'UNIGE s'enthousiasme : "disposer d'une séquence complète, sans lacunes, des quelque 3 milliards de bases de notre ADN permet de comprendre le spectre complet des variations génomiques humaines et les contributions génétiques à certaines maladies. La génération d'une séquence du génome humain véritablement complète représente une incroyable réalisation scientifique, offrant la première vue complète de notre schéma d'ADN», déclare Eric Green, MD-PhD et directeur du NHGRI. «Cette information fondamentale renforcera les nombreux efforts en cours pour comprendre toutes les nuances fonctionnelles du génome humain, ce qui, à son tour, renforcera les études génétiques des maladies humaines.» Press release UNIGE

Sans réduire l'importance de cette étape dans notre connaissance du génome on relève qu'ils parlent d'un génome complet, alors que  Nurk, et al. (2022) décrivent très factuellement cette (énorme il faut le reconnaitre) avancée mais aussi une limite de la séquence produite ici [la nouvelle séquence] "comprend des assemblages sans interruption pour tous les chromosomes sauf Y, corrige les erreurs dans les références antérieures, et introduit près de 200 millions de paires de bases de séquence…" Traduction d'un extrait de l'abstract. 

On voit qu'un savoir scientifique définit ses limites et s'abstient de superlatifs - laissant le lecteur s'enthousiasmer - et JTS trouve qu'il y a de quoi.

T2T-CHM13 remplacera-t-il GRCH38 ?

La séquence de référence jusqu'à présent est nommée GRCH38. La comparaison avec la nouvelle séquence produite par T2T (CHM13) montre par exemple qu'elle inclut 3.5 milliards de paires de bases (Gbp) alors que GRCH38 en offrait 2.93 Cf Table 1 .Jump-To-Science : donner envie d'accéder aux                  articles plutot que vulgariser encourage le lecteur à aller vérifier dans l'article d'origine :  ici


STATISTICS

GRCH38

T2T-CHM13

DIFFERENCE%)

Summary

Assembled bases (Gbp)

2.92

3.05

+4.5

Unplaced bases (Mbp)

11.42

0

−100.0

Gap bases (Mbp)

120.31

0

−100.0

Number of contigs

949

24

−97.5

Contig NG50 (Mbp)

56.41

154.26

+173.5

Number of issues

230

46

−80.0

Issues (Mbp)

230.43

8.18

−96.5

Gene annotation

Number of genes

60,090

63,494

+5.7

  Protein coding

19,890

19,969

+0.4

Number of exclusive genes

263

3,604

 

  Protein coding

63

140

 

Number of transcripts

228,597

233,615

+2.2

  Protein coding

84,277

86,245

+2.3

Number of exclusive transcripts

1,708

6,693

 

  Protein coding

829

2,780

 





Table 1 source (Nurk,et al, 2022)ici

Le consortium T2T est parvenu à décoder les 8% manquants du génome humain complet (d'un télomère à l'autre : T2T) notamment grâce à des techniques nouvelles, voir plus bas un exemple avec Nanopore. Ce nouveau matériel génétique comprend plusieurs gènes mais aussi plusieurs séquences répétitives d'ADN.

En quoi les télomères sont-ils difficiles à séquencer ?

Ces séquences sont très répétitives. On peut le faire constater par les élèves dans une activité du  projet Bioinformatique : opportunités pour l'enseignement où les élèves peuvent voir une authentique séquence de télomère dans le génome humain :

Pourquoi les séquences répétées sont-elles difficiles à séquencer ?

Le séquençage est souvent réalisé avec des appareils qui lisent des fragments assez courts, qui doivent ensuite être assemblés en alignant les chevauchements - c'est l'assemblage cf figure 2a.

Assemblage
Fig 2a: le principe de l'assemblage [img] source http://dx.doi.org/10.1142/S0218339019500128

La nécessité de cette opération n'est pas souvent comprise par les élèves et une activité permet de leur en faire comprendre la nécessité : exemple d'activité élève en figure 2b.
Une activité élève pour éprouver le mécanisme (l'algorithme) d'assemblage : choisir une séquence, la découper en bandelettes d'une douzaine de bases se chevauchant, et demander aux élèves de les assembler. On peut veiller à choisir des séquences avec peu de répétitions (séquence codantes en général) par exemple celle de l'insuline comme dans la fig b2.

exemple d'activité                d'assemblage
Fig 2b: Une activité élève - en cours de réalisation - pour éprouver le mécanisme (l'algorithme) d'assemblage : choisir une séquence (ici l'insuline), l'imprimer plusieurs fois,  la découper en bandelettes d'une douzaine de bases se chevauchant, et demander aux élèves de les assembler.

Ensuite on peut le faire faire avec une séquence répétée pour comprendre la difficulté que T2T a affrontée. On voit alors l'immense difficulté et on constate que les séquences répétées étaient difficiles à assembler à partir de fragments courts. On voit aussi les possibilités qu'ouvrent les nouvelle technique (Nanopore voir plus bas) capables d séquencer de bien plus longues séquences

Le SIB propose parmi d'autres ici une activité  "Médecine de précision et profil génétique" qui pourrait être détournée pour exercer l'alignement : A_vous_de_jouer.pdf Complément d'information ici

Ce qu'ont vraiment publié  Nurk et al.

"Depuis sa publication initiale en 2000, le génome humain de référence n'a couvert que la fraction euchromatique du génome, laissant d'importantes régions hétérochromatiques inachevées. S'adressant aux 8 % restants du génome, le Consortium Telomere-to-Telomere (T2T) présente une séquence complète de 3,055 milliards de paires de bases d'un génome humain, T2T-CHM13, qui comprend des assemblages sans interruption pour tous les chromosomes sauf Y, corrige les erreurs dans les références antérieures, et introduit près de 200 millions de paires de bases de séquence contenant 1956 prédictions de gènes, dont 99 sont prédites comme codant pour des protéines. Les régions complétées comprennent tous les réseaux satellites centromériques, les duplications segmentaires récentes et les bras courts des cinq chromosomes acrocentriques, ouvrant ces régions complexes du génome à des études variationnelles et fonctionnelles." Abstract de Nurk, et al. (2022), traduction. Jump-To-Science : donner envie d'accéder aux                        articles plutot que vulgariser encourage le lecteur à aller vérifier dans l'article d'origine :  ici

Summary of the                        complete T2T-CHM13 human genome assembly.,(A)                        Ideogram of T2T-CHM13v1.1 assembly features. For                        each chromosome (chr), the following information                        is provided from bottom to top: gaps and issues in                        GRCh38 fixed by CHM13 overlaid with the density of                        genes exclusive to CHM13 in red; segmental                        duplications (SDs) (42) and centromeric satellites                        (CenSat) (30); and CHM13 ancestry predictions                        (EUR, European; SAS, South Asian; EAS, East Asian;                        AMR, ad-mixed American). Bottom scale is measured                        in Mbp. (B and C) Additional (nonsyntenic) bases                        in the CHM13 assembly relative to GRCh38 per                        chromosome, with the acrocentrics highlighted in                        black (B) and by sequence type (C). (Note that the                        CenSat and SD annotations overlap.) RepMask,                        RepeatMasker. (D) Total nongap bases in UCSC                        reference genome releases dating back to September                        2000 (hg4) and ending with T2T-CHM13 in 2021.                        Mt/Y/Ns, mitochondria, chrY, and gaps.
Figure 3  [img Résumé de l'assemblage complet du génome humain T2T-CHM13. Pour chaque chromosome (chr), les informations suivantes sont fournies de bas en haut : lacunes et problèmes dans GRCh38 corrigés par CHM13 superposés avec la densité de gènes exclusifs à CHM13 en rouge ; duplications segmentaires (SD) (42) et satellites centromériques (CenSat) (30) ; et les prédictions d'ascendance CHM13 (EUR, européen ; SAS, sud-asiatique ; EAS, est-asiatique ; AMR, ad-mélange américain). L'échelle inférieure est mesurée en Mbp. (B et C) Bases supplémentaires (non synténiques) dans l'assemblage CHM13 par rapport à GRCh38 par chromosome, avec les acrocentriques surlignés en gris foncé (B) et par type de séquence (C). (Notez que les annotations CenSat et SD se chevauchent.) RepMask, RepeatMasker. (D) Bases totales sans lacune dans les versions du génome de référence UCSC datant de septembre 2000 (hg4) et se terminant par T2T-CHM13 en 2021. Mt/Y/Ns, mitochondries, chrY et lacunes. Source : (Nurk,et al, 2022)ici
Le même numéro de Science publie plusieurs articles en rapport :

Pas seulement des répétitions, mais des gènes-clés identifiés dans les chromosomes  acrocentriques

Nurk, et al. (2022) ont observé que la majeure partie de ces informations se situe près des télomères et des centromères, c'est à dire aux extrémités ou aux points de contact des chromatides. Il s'agit précisément des chromosomes 13, 14, 15, 21 et 22 acrocentriques (leur centromère se situe près d'une extrémité) et des chromosomes 1, 9, 16 et Y.

«Plus de la moitié des informations manquantes se situait sur les bras courts des chromosomes acrocentriques, qui contiennent les gènes de l'ADN ribosomal essentiels à la production de toutes nos protéines», explique Stylianos Antonarakis. Il précise qu'il s'agit «de gènes-clés pour la compréhension des mécanismes qui régissent le vieillissement et certaines maladies.»

Dans le cadre de T2T, Stylianos Antonarakis, de l'UNIGE, a été impliqué plus précisément dans le décodage d'un type spécifique de chromosomes dits «acrocentriques» dont il est spécialiste, et sur lesquels il a publié un review (Antonarakis, 2022) ici «Le premier papier date de 1934. Au total, une centaine d'études ont été passées en revue», indique-t-il. Avant la découverte du séquençage complet du génome, l'une des grandes questions que se posaient les scientifiques était notamment de savoir si les chromosomes acrocentriques étaient tous porteurs du même bras court en termes de matériel génétique.«La recherche du consortium T2T démontre aujourd'hui que le nombre de ces gènes est en réalité variable d'un être humain à l'autre», indique Stylianos Antonarakis. Ces découvertes ouvrent de nouvelles perspectives pour l'étude génétique de certaines maladies, de certains mécanismes liés au vieillissement et plus globalement des variations génomiques entre êtres humains.

Le séquençage Nanopore

Cette technologie est propriété de Oxford Nanopore Technologies et ce texte est tiré de leur site. Ils ont développé une technologie de séquençage d'ADN et d'ARN à base de nanopores protéiques, qui sont de minuscules trous canaux à travers les membranes. Dans leur technologie, les nanopores protéiques sont intégrés dans une membrane synthétique baignée dans une solution électrophysiologique et un courant ionique est passé à travers les nanopores.

Lorsque des molécules telles que l'ADN ou l'ARN se traversent ces nanopores, elles provoquent une perturbation du courant électrique. Ce signal peut être analysé en temps réel pour déterminer la séquence de bases des brins d'ADN ou d'ARN traversant le pore.une image vaut mille mots ...              mais peut être interprétée de mille manières

Fig 4: Séquençage d'un ARN : lorsque chaque base traverse le pore cela modifie le courant électrique à travers la membrane, ce qui permet de détermine quel nucléotide vient de passer. [img]. Source :Oxford nanopore

Sequençage de l'ADN et de l'ARN

Chaque base qui traverse le nanopore produit une perturbation du courant, différente pour les bases A, T, C, G, et qu'on peut mesurer en temps réel au fur et à mesure que l'acide nucléique s'avance à travers le pore. Pour le fabricant c'est la seule technologie de séquençage qui permet une analyse directe en temps réel de fragments courts à ultra-longs d'ADN/ARN, permettant un accès rapide aux informations critiques (par exemple, l'identification des agents pathogènes), la génération d'informations précoces sur les échantillons et un séquençage long (couramment des dizaines de milliers selon un review (Amarasinghe, et al., 2020) ici  qui mentionne un séquençage record de 2,272,580 bases (Payne, 2018) - preprint ici.

une image vaut mille mots ... mais peut être                interprétée de mille manières
https://nanoporetech.com/how-it-works

Fig 6: Séquençage d'un ADN : un seul des brins traverse le pore. [img]. Source : Oxford nanopore


Amarasinghe, et al. (2020) comparent ici  les techniques single-molecule real-time de Pacific Biosciences et le nanopore sequencing de Oxford Nanopore Technologie.

(Les membres Jump-To-Science peuvent obtenir ces articles)

Références:

  • Amarasinghe, S. L., Su, S., Dong, X., Zappia, L., Ritchie, M. E., & Gouil, Q. (2020). Opportunities and challenges in long-read sequencing data analysis. Genome Biology, 21(1), 30. https://doi.org/10.1186/s13059-020-1935-5
  • Antonarakis, S. E. (2022). Short arms of human acrocentric chromosomes and the completion of the human genome sequence. Genome Research, 32(4), 599‑607. https://doi.org/10.1101/gr.275350.121
  • Church, D. M. (2022). A next-generation human genome sequence. Science, 376(6588), 34‑35. https://doi.org/10.1126/science.abo5367
  • Nurk, S., Koren, S., Rhie, A., Rautiainen, M., Bzikadze, A. V., Mikheenko, A., Vollger, M. R., Altemose, N., Uralsky, L., Gershman, A., Aganezov, S., Hoyt, S. J., Diekhans, M., Logsdon, G. A., Alonge, M., Antonarakis, S. E., Borchers, M., Bouffard, G. G., Brooks, S. Y., … Phillippy, A. M. (2022). The complete sequence of a human genome. Science, 376(6588), 44‑53.
    Related Special Issue Research Articles
--

Aucun commentaire:

Enregistrer un commentaire