Retour sur l'histoire du projet du génome humain

Stanislav Volik, Ph. D.
January 16, 2025

Le billet de blogue publié aujourd'hui provient de l'auteur invité Stanislav Volik, qui travaille dans le domaine de la génomique depuis les années 1990. Sa thèse de doctorat est l'une des premières thèses de génomique soutenues en Russie. Stanislav se concentre sur la génomique sur les études sur le cancer, en particulier le cancer du sein et de la prostate. Avec deux collègues, il a inventé et breveté une approche de séquences à extrémités jumelées pour déchiffrer les structures des génomes tumoraux au début des années 2000, avant que le NGS ne permette de séquencer l'ADN d'une tumeur.

Découvrez comment ce travail a commencé, qui est à la base de la façon dont nous abordons le dépistage des tumeurs cancéreuses à Avitia.

Retour sur le projet du génome humain

Avec le version la plus récente à propos d'un génome humain complet par le consortium télomère à télomère, je me suis retrouvé à réfléchir à l'histoire de nos efforts collectifs pour mieux comprendre notre patrimoine génétique. On pourrait dire que cette année marque l'arrivée à la maturité du Projet du génome humain (HGP). Il y a vingt et un ans, les premières ébauches de la séquence du génome humain ont été publiées par le National Institutes of Health-led International Consortium du génome humain et entité commerciale Génomique Celera, fondée par Craig Venter. La première ébauche, bien sûr, était exactement cela — environ 90 % des régions euchromatiques (généralement riches en gènes) ont été analysées. Cela a donné lieu à une série de conférences de presse et d'articles de suivi, décrivant des versions toujours plus complètes de la séquence génomique entière. C'était jusqu'à environ trois ans plus tard, le 21 octobre 2004, lorsque l'International Human Genome Sequencing Consortium a publié l'avant-dernier article intitulé »Terminer la séquence euchromatique du génome humain.» Quoi qu'il en soit, c'est l'une des réalisations scientifiques et technologiques les plus importantes de la fin du siècle. L'un des aspects les plus intéressants de son achèvement est la façon dont la technologie disponible façonnait la stratégie et même la politique autour de cette entreprise monumentale.

Alta (Utah) — Le berceau du projet du génome humain [Source de l'image]

HGP : Là où tout a commencé

La chronologie de HGP est toujours disponible dans les archives du site Web du Laboratoire national d'Oakridge. Même sous sa forme actuelle, à peine fonctionnelle, elle révèle une histoire fascinante d'une idée qui semblait impossible quand, en 1984, un groupe de 19 scientifiques se sont retrouvés enneigés dans une station de ski d'Alta, en Utah. Ils ont été aux prises avec le problème de l'identification des mutations de l'ADN chez les survivants des attaques nucléaires d'Hiroshima et de Nagasaki et leurs enfants. Les méthodes existantes ne permettaient pas d'identifier le nombre alors attendu de mutations, mais l'avènement du clonage moléculaire, de l'électrophorèse sur gel à champ pulsé et d'autres merveilles de la technologie ont donné à chacun le sentiment que la solution était possible. Charles DeLisi, le nouveau directeur du Bureau de la recherche sur la santé et l'environnement au ministère de l'Énergie (DOE), a lu une ébauche du rapport de l'Alberta en octobre 1985. En le lisant, il a d'abord eu l'idée d'un projet dédié au génome humain. L'année prochaine, l'Initiative du génome humain a été proposée par le DOE à la suite d'un atelier sur la faisabilité à Santa Fe, au Nouveau-Mexique. En 1987, elle a été approuvée et la première estimation budgétaire a été publiée. Enfin, en 1990, les National Institutes of Health (NIH) et le DOE ont annoncé : le premier plan quinquennal intitulé « Comprendre notre héritage génétique » Le projet américain du génome humain ». Le projet a été annoncé avec un budget annuel approximatif de 200 millions de dollars avec l'objectif déclaré d'achever le séquençage du premier génome humain en 15 ans, pour un total de 3 milliards de dollars en dollars de 1990, soit l'équivalent d'environ 6 milliards de dollars aujourd'hui.

Les lauréats du prix Nobel de 1980 P. Berg, W. Gilbert et F. Sanger (de gauche à droite) [Source de l'image]

Les races Maxam, Gilbert et Sanger

En 1985, le concept de séquençage de l'ensemble du génome humain était une véritable réflexion scientifique révolutionnaire à son meilleur, puisqu'aucune technologie appropriée n'était prête pour une telle tâche. Quatre années se sont écoulées depuis que le prix Nobel de chimie de 1980 a été partagé entre P. Berg pour ses « études fondamentales sur la biochimie des acides nucléiques, en particulier l'ADN recombinant » et W. Gilbert et F. Sanger (deuxième prix Nobel pour ce dernier) pour « leurs contributions à la détermination des séquences de bases dans les acides nucléiques ». Cependant, on ne sait pas très bien laquelle des approches de séquençage de Gilbert ou de Sanger s'avérerait la plus efficace. Maxam et Gilbert ont mis au point une méthode purement chimique de séquençage des acides nucléiques qui nécessitait de nombreuses étapes chimiques, mais qui pouvait être réalisée sur de l'ADN double brin. L'approche de Sanger, par contre, exigeait de l'ADN simple brin. Au début et au milieu des années 1980, les deux méthodes étaient encore largement utilisées, et les avantages de l'approche de Sanger en raison de sa fiabilité — accès à des enzymes et à des nucléotides de haute qualité — et de lectures plus longues, venaient d'être établis. Les deux approches avaient une longueur de lecture limitée — environ 200 à 250 bases pour Maxam-Gilbert et 350 à 500 bases pour Sanger — et exigeaient que l'ADN génomique soit fragmenté avant l'analyse. Compte tenu des réalités du séquençage entièrement manuel du gel sur dalles, cela signifiait que la détermination d'une séquence d'un seul ARNm humain moyen était une réalisation digne d'être publiée dans une revue à fort impact. Avec un temps moyen d'analyse d'un fragment d'ADN prêt à séquencer d'environ 6 heures, une longueur de lecture moyenne de 350 à 500 bases et de 10 à 20 fragments d'ADN analysés par gel de dalle, le débit pour un post-doc qualifié à l'époque atteignait 1,7 à 2,0 kb par heure. Avec une taille de génome humain haploïde d'environ 3 milliards de bases, on a examiné le minimum de 171 ans pour une seule station pour séquencer des fragments parfaitement ordonnés et se chevauchant le moins possible qui pourraient ensuite être assemblés dans la séquence de référence finale.

Cartographier le tout

Il y avait une mise en garde : cet ensemble de fragments d'ADN génomique qui se chevauchaient le moins n'existait pas encore. Il n'était pas immédiatement clair si quelqu'un était capable d'en créer un ou comment les classer dans une séquence complète. Étant donné que le génome humain contenait de nombreuses séquences très répétitives qui étaient plus longues que la durée de lecture moyenne des technologies existantes, il est devenu évident qu'une condition préalable absolue pour atteindre l'objectif déclaré de la création d'une séquence de référence du génome humain était d'avoir une carte physique du génome. Cela devrait contenir des informations sur l'ordre et l'espacement physique de certaines caractéristiques génomiques qui pourraient être identifiées dans des fragments séquencables. Cela permettrait de commander une multitude de lectures nécessaires pour déterminer la séquence du génome humain. Par conséquent, la vaste communauté scientifique consacra beaucoup d'efforts au cours des 14 années qui suivirent — à compter de la réunion fatidique de l'Alta — pour élaborer des ensembles toujours plus détaillés de cartes physiques du génome humain. Cela a également mené à la création de bibliothèques plus complètes de fragments d'ADN (clones) de plus en plus volumineux qui ont été produits et cartographiés au génome à l'aide de techniques de biologie moléculaire plus sophistiquées. Ce travail a été très soutenu par la communauté scientifique, non seulement parce qu'il a été jugé absolument nécessaire à la réussite du projet, mais aussi parce qu'il était « équitable » — permettant même à des groupes relativement petits de contribuer de manière significative au succès de cette énorme entreprise.

Sanger gagne et obtient un système automatisé

Parallèlement aux efforts massifs déployés pour créer une carte physique complète d'un génome humain, beaucoup d'efforts ont été consacrés à la rationalisation puis à l'automatisation du séquençage de l'ADN. Cela a été lancé dans le but d'augmenter considérablement le débit de séquençage. Le séquençage Sanger remporte cette bataille puisqu'il s'avère plus facile à automatiser — aucune réaction chimique compliquée n'est nécessaire. En prime, il offrait des longueurs de lecture plus longues. Cependant, le facteur le plus important était que la machinerie biologique utilisée pour la synthèse de l'ADN utilisée par cette technologie s'est avérée suffisamment robuste et polyvalente. Cela a permis de marquer les nucléotides d'abord avec de la biotine, puis des colorants fluorescents, ce qui a éliminé la nécessité d'un marquage radioactif. En 1984 Fritz Pohl a signalé la première méthode pour le séquençage colorimétrique non radioactif de l'ADN. En 1986 Le groupe de Leroy Hood a publié une méthode pour l'analyse automatisée des séquences d'ADN par fluorescence. Cette technologie a permis à Applied Biosystems d'offrir les premiers séquenceurs d'ADN automatisés (ABI370/373), une machine qui a permis des projets de séquençage massifs. Cela comprenait des efforts pour cataloguer tous les gènes humains exprimés en utilisant »Étiquettes de séquence exprimées» (EST). En 1995, un autre instrument révolutionnaire a été lancé, ABI Prism 310, qui a éliminé le problème embêtant de verser des gels impeccables gros et minces (jusqu'à 0,4 mm d'épaisseur) qui simplifient et augmentent considérablement le processus de séquençage. Enfin, en 1997, le séquenceur capillaire ABI3700 a été lancé, qui comptait 96 capillaires. Cette configuration donnait au système 3700 la capacité d'analyser simultanément 96 échantillons jusqu'à 16 fois par jour, pour un total de 16 × 96 = 1 536 échantillons par jour, comme le prétendait la brochure ABI. En d'autres termes, les utilisateurs pourraient s'attendre à recevoir une séquence de 768 Ko par jour.

Le centre provoque l'indignation

Cette augmentation sans précédent de la capacité de séquençage a soudainement rendu possible une autre approche : le séquençage de novo pour des génomes complexes sans construire de bibliothèques de fragments génomiques ordonnées et sans un processus long et très coûteux pour cartographier physiquement. Cette approche est connue sous le nom de séquençage « fusil de chasse ». La faisabilité théorique d'une telle approche a été établie en 1995 par l'équipe de Leroy Hood. Dans un document intitulé »Séquençage des extrémités par paires : une approche unifiée de la cartographie et du séquençage génomiques», ils ont démontré qu'un grand génome complexe peut être séquencé à l'aide d'une collection de fragments clonés aléatoirement d'au moins deux tailles très différentes, qui seraient sous-clonés, séquencés et ordonnés au hasard en fonction de l'identification de ces séquences à extrémités appariées dans les contigs assemblés à partir de sous-clones. Deux ans plus tard à peine, en 1997, Craig Venter, fondateur de l'Institute of Genome Research et du Celera Genomics, annonçait que son équipe allait « séquencer à elle seule le génome humain » en seulement trois ans pour 300 millions de dollars. Il s'agissait d'un dixième du coût initialement estimé du projet public international du génome humain.

Inutile de dire que l'annonce de Venter a provoqué un tôlement dans la communauté de la génomique. Premièrement, il semblait obsolète tous les efforts énormes consacrés à la construction de cartes physiques et à la commande de bibliothèques de clones. Deuxièmement, elle a mis les dirigeants et les partisans politiques du HGP public sous un très mauvais jour : après avoir dépensé 10 fois le budget de Venter et travaillé sur le projet pendant sept ans depuis son lancement officiel en 1990, le calendrier proposé pour la publication de la séquence provisoire était encore dans sept ans (2005). Enfin, la communauté scientifique a été indignée par le projet de Venter d'offrir un accès payant à la séquence génomique à des entités commerciales. Je me souviens encore de l'atmosphère chargée qui régnait à la réunion de Cold Spring Harbor en 1997, lorsque Venter a fait son annonce. Personne ne connaissait les détails. Sans Internet, tel que nous le connaissons aujourd'hui, il n'y avait que des rumeurs sur des pourparlers à huis clos entre les NIH et Wellcome Trust. Il était très tard ce jour-là, vers 22 heures, lorsque Craig Venter est monté sur le podium en essayant de présenter son idée. Il a été essentiellement hué hors de la scène par le public indigné. Francis Collins, alors directeur des NIH, et alors chef de Wellcome Trust, montent sur le podium et proclament que le HGP public ne sera pas battu. Il a déclaré que le Wellcome Trust consacrera toutes les ressources nécessaires pour assurer la « compétitivité » du HGP public, en veillant à ce que tout le monde ait un accès libre et sans entrave à ses résultats.

Craig Venter (à gauche) et Francis Collins (à droite) avec l'ancien président américain Bill Clinton pour annoncer la première carte du projet du génome humain [Source de l'image]

Quoiqu'il en soit, l'initiative de Venter a donné lieu à une réévaluation substantielle de la stratégie HGP. En fin de compte, les deux équipes (Venter's et HGP) ont fini par utiliser un fusil de chasse hybride et des informations de cartographie physique pour les premiers assemblages du génome humain. Cela a donné lieu à deux publications novatrices et simultanées en 2001. L'animosité envers Craig Venter n'a pas duré longtemps dans la communauté génomique. Quelques années plus tard, de nombreux hueurs en 1997 applaudissaient son discours devant le même auditoire consacré au premier projet métagénomique à grande échelle.

Observations finales

En remontant sur les nombreuses années de ma vie professionnelle, assister à la première réalisation de HGP a certainement été l'expérience d'une vie. Essentiellement, le HGP a établi un nouveau paradigme dans les études biologiques qui a servi de catalyseur principal pour le développement de nouvelles technologies révolutionnaires. Ces nouvelles technologies sont devenues des forces tectoniques à part entière, désuet de certains efforts massifs, tout en ouvrant de nombreuses nouvelles voies. Cette tendance s'est poursuivie, le sujet suivant devant être abordé, en mettant l'accent sur la diversité génétique réelle des humains et sur la façon dont nous pouvons utiliser ces connaissances pour avoir un impact significatif sur nos vies. Cela n'a pas pu être accompli à l'aide des technologies de séquençage de première génération qui ont permis le succès du HGP. La phase suivante de percées a suivi, qui a mené à l'émergence de technologies de séquençage de nouvelle génération (NGS), qui ont finalement fait de la routine non seulement le séquençage des génomes individuels, mais nous a permis d'étudier les génomes et les transcriptomes unicellulaires.

Gardez une longueur d'avance sur le cancer dès aujourd'hui