L’entreprise britannique DeepMind, rachetée en 2014 par Google, va sans doute laisser son empreinte sur l’histoire des sciences. Sa nouvelle version d’AlphaFold, système d’intelligence artificielle (IA) destiné à prédire la structure tridimensionnelle d’une protéine à partir de la séquence linéaire des acides aminés qui la constituent, obtient en effet des résultats impressionnants. John Jumper, Demis Hassabis et leurs collègues de DeepMind viennent de les publier et de rendre accessible publiquement le programme source d’AlphaFold. De plus, l’EMBL, le Laboratoire européen de biologie moléculaire, s’est associé à DeepMind pour mettre en place une base de données en accès libre, qui contient déjà plus de 350 000 structures tridimensionnelles de protéines prédites à l’aide de l’IA – et probablement plusieurs millions d’ici à quelques mois.

Les protéines sont des molécules essentielles du vivant, et leur fonction dépend beaucoup de la façon dont la chaîne d’acides aminés « se replie » dans l’espace après avoir été synthétisée par la machinerie cellulaire. Aussi le repliement des protéines fait-il l’objet d’un nombre considérable de travaux depuis plus de cinquante ans.

Il existe aujourd’hui plusieurs techniques pour déterminer expérimentalement la structure 3D d’une protéine : cristallographie par rayons X, résonance magnétique nucléaire, microscopie électronique, diffraction de neutrons… Cependant, entre l’obtention d’une quantité suffisante de la protéine, la préparation de l’échantillon, son examen et l’analyse des résultats, « il s’écoule généralement plusieurs mois, voire plusieurs années », rappelle Stephen Cusack, spécialiste de biologie structurale et directeur du site grenoblois de l’EMBL. À ce jour, les scientifiques ont expérimentalement déterminé les structures d’environ 180 000 protéines. Mais ce chiffre reste faible comparé aux centaines de millions de protéines dont on connaît la séquence d’acides aminés.

Une autre approche consiste à prédire (plutôt que mesurer) la structure adoptée par la chaîne d’acides aminés. Les calculs de dynamique moléculaire utilisant les champs de force étant généralement beaucoup trop lourds, des méthodes d’IA, utilisant des réseaux de neurones artificiels à « apprentissage profond », ont été développées au cours des années récentes. AlphaFold en fait partie. Ce système est entraîné avec les structures 3D connues de protéines, déterminées expérimentalement et archivées dans la base de données PDB (Protein Data Bank), créée en 1971 et gérée aussi par l’EMBL ; il s’appuie sur des comparaisons entre protéines de séquences similaires ainsi que sur les corrélations entre paires d’acides aminés et leur distance dans l’espace.

En 2020, la nouvelle version d’AlphaFold a remporté haut la main la compétition Casp (Critical assessment of protein structure prediction), qui se tient tous les deux ans et qui permet d’évaluer les progrès en la matière. Elle a prédit des structures protéiques correctement avec une précision d’environ 0,1 nanomètre sur les positions des atomes du squelette de la molécule, soit trois fois mieux que le système concurrent le mieux placé. « Une précision assez incroyable, atteinte sur les parties de la protéine qui se replient de façon bien définie, et qui est très comparable à celle des techniques expérimentales », commente Stephen Cusack.

Les prédictions réalisées sur des protéines dont la structure 3D est inconnue devront être confirmées par les techniques expérimentales, ce qui prendra du temps, explique le directeur de l’EMBL Grenoble. Par ailleurs, comme l’a souligné Janet Thornton, qui a été directrice de l’institut européen de bio-informatique (EBI) de l’EMBL, à Londres, AlphaFold ne prédit pas les structures de complexes formés avec d’autres protéines ou d’autres molécules comme l’ADN et l’ARN, et ne livre pas d’informations sur la dynamique du processus de repliement de la molécule.

Mais en permettant de prédire la structure 3D d’une protéine en très peu de temps – environ deux heures pour une chaîne de quelques centaines d’acides aminés, comme l’a personnellement constaté Stephen Cusack –, AlphaFold va accélérer considérablement la détermination des structures protéiques. « Cela sera utile à différents niveaux, précise-t-il. Par exemple, cela aidera à formuler des hypothèses sur les fonctions biologiques des molécules, testables en introduisant des mutations, ou à rechercher des petites molécules capables de se fixer sur l’une des parties repliées de la protéine afin de bloquer ou perturber sa fonction, en vue de traiter certaines maladies ou de neutraliser des agents pathogènes. » L’arrivée d’AlphaFold et de sa base de données, en libre accès, constitue une très bonne nouvelle pour la biologie structurale. « On peut dire une révolution », affirme Stephen Cusack.





Source [ Pour la science ]