Prédire les phénotypes complexes de levures à l'aide de l'intelligence artificielle
La plupart des caractères des organismes résultent de l’interaction complexe de nombreux facteurs génétiques et environnementaux, ce qui rend leur prédiction difficile et incertaine. Dans une étude publiée dans Molecular Systems Biology, des scientifiques ont utilisé l’apprentissage automatique (ML) pour prédire des centaines de caractères quantitatifs dans une population naturelle de S. cerevisiae à partir de données multi-omiques.
Les phénotypes complexes, au croisement des gènes et de l’environnement
Les phénotypes complexes sont des caractères observables d’un individu qui dépendent de multiples gènes et de l’environnement. Ils englobent une grande diversité de traits, allant de la taille d’un organisme à sa sensibilité aux maladies et à sa réaction aux traitements. Pouvoir prévenir ces phénotypes est un objectif central de la médecine moderne, car cela ouvrirait la voie à une médecine préventive et personnalisée. Mais cette tâche est rendue difficile par la complexité du génome humain et la variété des facteurs environnementaux (alimentation, mode de vie, contexte social…)
La levure, un modèle privilégié pour étudier le lien génotype-phénotype
Pour relever un tel défi, les scientifiques se sont tournés vers la levure de boulanger Saccharomyces cerevisiae. Cet organisme modèle présente un double avantage : un génome bien connu et des centaines de phénotypes complexes obtenus chez des milliers d’isolats collectés dans le monde entier. Comme les cellules humaines, les cellules de levure sont toutes deux eucaryotes et possèdent des structures cellulaires complexes similaires. De plus, les levures se reproduisent rapidement dans des conditions environnementales contrôlées, ce qui en fait un modèle idéal pour la recherche expérimentale.
Du GWAS au machine learning : dépasser les limites des systèmes actuels
Traditionnellement, les études d’association pangénomique (Genome-Wide Association Studies, GWAS) permettent de relier avec succès des marqueurs génétiques à des caractères dans les espèces pour lesquelles de larges cohortes peuvent être séquencées et phénotypées. Cependant, ces études présentent plusieurs limites, notamment l’incapacité à détecter de petits effets, des variantes rares, ou des variantes entretenant une relation non linéaire avec les phénotypes. Par conséquent, notre compréhension des relations génotype-phénotype reste incomplète, même pour des caractères bien étudiés. L’apprentissage automatique (Machine Learning, ML) offre un ensemble d’outils puissants pour modéliser les relations non linéaires et complexes entre génomes et phénotypes.
Dans cette étude publiée dans la revue Molecular Systems Biology, les scientifiques présentent le premier catalogue GWAS de la levure, couvrant plus de 200 caractères quantitatifs : éléments essentiels du cycle de vie de l’espèce, tels que la croissance, la sporulation, la survie en conditions de carence, caractéristiques cellulaires comme la taille des cellules, le contenu en ADN et l’activité mitochondriale. Ils ont ensuite développé une chaîne de traitement (pipeline) en apprentissage automatique pour mieux capturer les interactions complexes et non linéaires entre génotype et phénotype. Ce pipeline a servi à évaluer différents modèles linéaires et non linéaires afin de prédire des caractères quantitatifs à partir de données génomiques et multi-omiques. Les gradient boosting machines se sont révélées être le modèle le plus performant. Les scores de perturbation fonctionnelle des gènes ainsi que leur présence ou absence se sont imposés comme les meilleurs prédicteurs, suggérant une contribution considérable du génome accessoire dans le contrôle des phénotypes.
Des résultats encourageants pour la médecine personnalisée
Le catalogue GWAS a servi de référence pour comparer avec les modèles d’apprentissage automatique afin d’évaluer les relations génotype-phénotype. Le ML a surpassé le GWAS en identifiant des caractéristiques génomiques pertinentes liées aux phénotypes, y compris des variantes à fort impact dont la relation avec les phénotypes est connue, bien que celles-ci soient rares dans la population. 220 caractères ont été prédits, y compris la résistance aux médicaments. Certains se sont avérés plus faciles à prédire que d’autres. En outre, de nombreux caractères présentaient de fortes similitudes entre eux, et des prédictions quasi parfaites ont été obtenues à partir de ces caractères, c’est-à-dire que certains caractères peuvent être bien prédits à partir d’autres.
Cette étude propose la première comparaison à grande échelle de méthodes d’apprentissage automatique sur un large éventail de caractères et met en évidence leur puissance pour décrypter les variantes génétiques causales au niveau des populations. Nous pensons que notre cadre d’apprentissage automatique peut être étendu à d’autres organismes, y compris l’humain, et contribuera à terme au développement de modèles précis pour prédire les caractères humains et les risques de maladies.

Figure : Cette figure illustre le cadre conceptuel allant du génotype au phénotype développé dans cette étude. La partie gauche représente l’ensemble des données multi-omiques et des phénotypes quantitatifs disponibles pour la collection de levures. La carte de corrélation des phénotypes montre les relations par paires entre chaque phénotype, qui peuvent être corrélées (cases bleues) ou anticorrélées (cases rouges). Le catalogue GWAS a été produit à partir des prédicteurs au niveau génomique et des phénotypes quantitatifs, tandis que le cadre d’apprentissage automatique (Gen-Phen pipeline) a utilisé des prédicteurs génomiques, moléculaires et phénotypiques de plus haut niveau. La validation des modèles d’apprentissage automatique a été effectuée sur un jeu de test, qui est un sous-ensemble de données non utilisées pour l’entraînement du modèle (panneau en haut à droite). Les variantes génétiques ont été classées selon leur utilité dans les prédictions, représentée par des scores d’importance des variables extraits des modèles d’apprentissage automatique (panneau en bas à droite).
En savoir plus : Predicting natural variation in the yeast phenotypic landscape with machine learning. Mol Syst Biol (2025) https://doi.org/10.1038/s44320-025-00136-y
Contact
Laboratoire
Institute for Research on Cancer and Ageing of Nice - IRCAN (Université Côte d'Azur/CNRS, Inserm)
Tour Pasteur 8eme étage, Faculté de Médecine
28 Avenue de Valombrose
06107 NICE Cedex 2