Phylogenetic detection of protein sites associated to a phenotype, at the genome scale - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Thèse Année : 2023

Phylogenetic detection of protein sites associated to a phenotype, at the genome scale

Détection phylogénétique de sites protéiques associés à un phénotype, à l’échelle génomique

Résumé

Extent species and their genomes share a common history that stems from the ancestral ascent they share, and separated into distinct species through the accumulation of divergences between populations of the ancestral species. By gathering genomic sequences that originate from the same ancestral sequence, and analyzing their divergence, it is possible to interpret traces left by their evolutionary history and infer parts of it. Among the variety of modifications that may alter genome sequences, I focus on substitutions that may result in changes in the structure and function of the protein they encode, with consequences in terms of adaptation. By analyzing the signal in these substitutions, in combination with the history of a phenotypic trait, one may attempt to detect correlations between the evolutionary history of a coding site, and that of the phenotype. The identification of such correlations might then be the signature that a genotype site is involved in the emergence or the stability of the trait under consideration, and more generally hint at its implication in the adaptation of a species to a particular environment.Many models of substitutions in gene sequences that exploit this comparative approach already exist, and are widely used to develop our knowledge of molecular evolution. However, they are difficult to apply at the scale of whole genomes for systematic detection of sites associated to a phenotype, because of the large amount of data involved, and limited computing power. In this thesis, I search for a solution to allow this kind of analyses at large scale, that would involve shorter computation times, while preserving the quality of the resulting predictions.After some unfruitful attempts at adapting linear models used in GWAS at the population scale to study genotype-phenotype associations, in order to make them applicable at the level of species, I identified an approach that seems to be a satisfactory solution. It is based on a model of amino acid sequence evolution that was previously published, but whose potential had not been recognized yet. I have shown, using simulations, that our implementation of this model enables fast and accurate detection of changes in the substitution dynamics that are associated to phenotype variations, just as well as several other more complex and computationally intensive models. Although it might not be a lot faster than other implementations based on phylogenetic models, that we could also evaluate, it appears to be the fasted among so-called profile methods, which provide estimated for the direction of selection at one site.A part of this thesis is dedicated to exposing the details of this method, which we call Pelican, including its model, implementation and some of its limitations. An alternative strategy for fitting the model, using GPU computation to exploit the highly parallel nature of the problem, was also explored to attempt improving the throughput of analysis further. I then describe an extension of the model based on continuous traits, which were initially limited to discrete categories; more efforts are yet required to evaluate the validity of this alternative model. I also investigate several ways to predict genes associated to a phenotype, using site-level predictions obtained at each position of their sequence.Finally, to further validate our approach using empirical data, I applied it to a genome-scale dataset of coding sequence alignments of mammals, to identify sites and genes associated to several discrete phenotypes. The predictions we obtained, when compared to the existing gene annotations and literature, suggest that this method is able to identify sites associated to the trait quite reliably. The result of this work is a software implementation for Pelican that, although it is in an early-stage, is proposed as a solution to detect inter-species genotype-phenotype association at the genome scale.
Les espèces actuelles, et donc leurs génomes, partagent une histoire commune de par leur descendance d'une même espèce ancestrale, qui s'est séparée au fil de l'accumulation de divergences entre populations. En associant les séquences génomiques issus d'une même séquence ancestrale, et en examinant leur divergence, il est possible d'interpréter les traces laissées par leur histoire évolutive pour la reconstruire en partie. Parmi les événements de modification du génome, je m'intéresse au cas des substitutions au sein des gènes codants pour des protéines, dont la structure et la fonction peut en être modifiée et donc avoir un effet adaptatif. En confrontant le signal porté par ces substitutions à l'histoire d'un trait phénotypique, on peut tenter de déceler une corrélation entre l'histoire évolutive d'un site codant et celle du phénotype. L'identification de telles corrélations pourrait être le signal qu'une position génotypique est impliquée dans l'émergence ou le maintien du phénotype considéré, et plus largement témoigner de son implication dans l'adaptation d'une espèce à un environnement donné. De nombreux modèles du processus de substitutions basés sur ce genre d'approches comparatives existent déjà, mais il est toutefois difficile de les appliquer à l'échelle génomique pour effectuer une détection systématique des sites associés à un phénotype, du fait de la quantité de données que cela représente et de la limitation de la puissance de calcul disponible. Dans cette thèse, je cherche à proposer une solution pour permettre ce genre d'analyse à large échelle à moindre coût en temps, tout en préservant la qualité des prédictions obtenues. Après des premières tentatives infructueuses d'adapter des modèles linéaires utilisés en GWAS à l'échelle des populations pour étudier les associations génotype-phénotype, pour les appliquer à l'échelle inter-espèces, j'ai identifié une approche qui semble constituer une solution satisfaisante. Celle-ci se base sur un modèle d'évolution des séquences protéiques publié précédemment, mais dont le potentiel n'avait pas été bien reconnu.J'ai montré, sur la base de simulations, que l'implémentation que nous avons faite de ce modèle permet de déceler des changements dans la dynamique de substitution en association avec des variations du phénotype aussi bien que plusieurs modèles plus complexes et plus coûteux en calculs. Bien qu'elle ne soit peut-être pas plus rapide que d'autres implémentations de modèles phylogénétiques, ce qu'il faudrait évaluer, elle apparaît comme la plus rapide des méthodes dites "à profils" qui permettent d'estimer une direction à la sélection.Une partie de cette thèse est consacrée à détailler cette méthode, que nous appelons Pelican, son modèle, son implémentation et quelques unes de ses limites.Une stratégie alternative pour l'estimation des paramètres du modèle, en déportant les calculs sur GPU et exploiter leur capacité de parallélisme, est aussi explorée pour tenter d'améliorer la vitesse des analyses. J'ai également proposé une extension du modèle basée sur des phénotypes continus, et non plus catégoriels. Celle-ci demande encore davantage de travail pour évaluer sa validité. Enfin, j'ai cherché à identifier une manière de prédire les gènes associés à un phénotype à partir des prédictions individuelles réalisées à chacune des positions de leur séquence.Afin de valider notre approche sur des données empiriques, je l'ai appliquée à des alignements de gènes de mammifère pour identifier des sites et des gènes associés à divers phénotypes discrets. Les prédictions obtenues, comparées aux annotations et à la littérature existantes, suggèrent que la méthode est capable d'identifier des sites associés à un trait de manière relativement fiable. Le résultat de ce travail est l'implémentation logicielle de Pelican, qui bien qu'elle soit encore à un stade précoce, propose une solution pour détecter des associations genotype-phénotype inter-espèces à l'échelle génomique.
Fichier principal
Vignette du fichier
TH2023DUCHEMINLOUIS.pdf (14.09 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04481543 , version 1 (28-02-2024)

Identifiants

  • HAL Id : tel-04481543 , version 1

Citer

Louis Duchemin. Phylogenetic detection of protein sites associated to a phenotype, at the genome scale. Molecular biology. Université Claude Bernard - Lyon I, 2023. English. ⟨NNT : 2023LYO10022⟩. ⟨tel-04481543⟩
23 Consultations
1 Téléchargements

Partager

Gmail Facebook X LinkedIn More