Informations

Quelle est la différence entre un arbre d'espèces, un arbre de gènes et un arbre phylogénétique ?

Quelle est la différence entre un arbre d'espèces, un arbre de gènes et un arbre phylogénétique ?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

J'ai trouvé des sites Web et des manuels en désaccord à ce sujet. Par exemple,

Les phylogénies sont aussi appelées « arbres d’espèces »…

http://biologos.org/blogs/dennis-venema-letters-to-the-duchess/evolution-basics-species-trees-gene-trees-and-incomplete-lineage-sorting/

et

Il est bien connu qu'un arbre phylogénétique (arbre de gènes) construit à partir de séquences d'ADN pour un locus génétique ne concorde pas nécessairement avec l'arbre qui représente la véritable voie évolutive de l'espèce impliquée (arbre d'espèces)…

http://mbe.oxfordjournals.org/content/5/5/568.abstract

Bien que la deuxième source, provenant d'un journal, semble être plus fiable, ma pensée initiale était que les arbres phylogénétiques montrent les relations évolutives entre espèce et sont donc des arbres d'espèces par opposition aux arbres de gènes.

Toute clarification sur la question serait très appréciée.


Arbre phylogénétique

Un arbre phylogénétique est un arbre montrant des relations entre les lignées. Ces lignées pourraient être calculées pour l'ADN à l'échelle du génome ou à partir d'un seul gène. En tant que tel, le terme arbre phylogénétique est général.

arbre des gènes vs arbre des espèces

Si vous calculez un arbre phylogénétique, à partir d'ADN à l'échelle du génome, vous calculez alors un arbre d'espèces (bien que certaines lignées sœurs puissent ne pas correspondre parfaitement à la définition des espèces). Si l'arbre phylogénétique est calculé à partir de données provenant d'un seul gène, on parle alors d'arbre génique.

Pourquoi un arbre génétique ne correspondrait-il pas à un arbre d'espèces ?

Mais un arbre génétique n'est pas seulement un arbre d'espèces avec moins de données. Il existe des raisons pour lesquelles un arbre génétique peut ne pas correspondre à un arbre génétique. Les gènes peuvent se dupliquer au sein d'un génome donné. Les deux gènes dupliqués sont libres d'évoluer indépendamment depuis la scission. Toutes les lignées descendantes hériteront alors de ces deux gènes mais si vous mappez les deux copies différentes du gène (rouge et vert ci-dessous) dans deux clade soeur, elles seront beaucoup plus différentes que les deux mêmes copies (disons la copie verte) dans deux espèces lointainement apparentées. voici une photo pour le montrer

De plus, des copies de gènes peuvent être supprimées plus tard et il peut y avoir un transfert horizontal de gènes. Pour toutes ces raisons, l'arbre phylogénétique d'un gène pourrait bien être très différent de l'arbre phylogénétique des espèces.

Vous trouverez ci-dessous un arbre génétique et les espèces associées aux extrémités. Prenez le temps de comprendre ce qui se passe sur la photo.

Qu'est-ce qu'un arbre à essence exactement ?

On pourrait appeler un arbre d'espèces comme une sorte d'arbre moyen parmi tous les arbres de gènes.


Le domaine de la phylogénétique entre dans une nouvelle ère dans laquelle les arbres des relations historiques entre les espèces sont de plus en plus déduits des données multilocus et génomiques. Un défi majeur pour incorporer de telles quantités de données dans l'inférence des arbres d'espèces est que des histoires généalogiques contradictoires existent souvent dans différents gènes à travers le génome. Les progrès récents de la modélisation généalogique suggèrent que la résolution des relations entre espèces proches n'est pas aussi simple que d'appliquer plus de données au problème. Ici, nous discutons des complexités de la discordance généalogique et examinons les problèmes que les nouvelles méthodes d'inférence d'arbres d'espèces multilocus devront résoudre pour tenir compte avec succès de la variabilité génomique naturelle dans les histoires évolutives.

Nous utilisons des cookies pour fournir et améliorer notre service et personnaliser le contenu et les publicités. En continuant, vous acceptez les utilisation de cookies .


Qu'est-ce qu'un arbre phylogénétique enraciné

Un arbre phylogénétique enraciné est un type d'arbre phylogénétique qui décrit l'ascendance d'un groupe d'organismes. Il est important de noter qu'il s'agit d'un arbre dirigé, partant d'un nœud unique connu sous le nom d'ancêtre commun récent. Fondamentalement, les racines de l'arbre phylogénétique décrivent cet ancêtre commun récent.

Figure 1 : Un arbre phylogénétique enraciné

Cependant, cet ancêtre commun récent est un organisme supplémentaire et éloigné du groupe d'organismes utilisés pour construire l'arbre phylogénétique. Mais , il sert de parent à tous les organismes du groupe.


Gastéropodes d'eau douce d'Amérique du Nord

Note de l'éditeur. Cet essai a ensuite été publié sous le titre : Dillon, R.T., Jr. (2019b) Qu'est-ce qu'un arbre d'espèces ? Pp 199-206 dans Les gastéropodes d'eau douce d'Amérique du Nord Volume 2, Essais sur les Pulmonés. Presse FWGNA, Charleston.

De retour en juillet 2008 (1) nous avons examiné la relation entre les arbres génétiques et les arbres d'espèces, un sujet devenu à la mode aux plus hauts niveaux de la science de l'évolution. Le phénomène qui conduit à des différences entre les deux types d'arbres évolutifs est généralement appelé « tri de lignées » par les systématiciens phylogénétiques, qui l'ignorent autrement, espérant qu'il disparaîtra. Mais les généticiens des populations, qui ont tendance à faire reculer leurs arbres génétiques et appellent le phénomène « coalescence », ont souligné que les différences dans un ensemble d'arbres génétiques peuvent être utilisées pour dater les événements de divergence dans un arbre d'espèces. C'est peut-être la seule chose pour laquelle les arbres génétiques sont réellement bons.

Mais qu'est-ce qu'un « arbre d'espèces » ? Wayne Maddison, dans son article fondateur de 1997 sur le sujet (2), avait à l'esprit une phylogénie d'espèces biologiques authentiques, « lorsque les communautés reproductrices sont divisées ». Mais l'isolement reproductif n'a pas besoin d'évoluer entre une paire de populations pour que le tri des lignées commence dans leurs pools génétiques. L'horloge commence à tourner sur les arbres génétiques à mesure que le flux génétique est perturbé pour une raison quelconque entre n'importe quelle paire de populations, isolées sur le plan de la reproduction ou non. Ainsi, bien que la communauté scientifique la plus activement impliquée dans ce domaine de recherche ait toujours utilisé le terme "arbre d'espèces" pour décrire la phylogénie qu'elle compare à ses arbres génétiques (3), le terme « arbre de population » serait clairement beaucoup plus précis.

Les véritables arbres d'espèces s'avèrent étonnamment difficiles même à visualiser, encore moins à déterminer. Je n'ai pas apprécié moi-même la difficulté jusqu'à ce que j'essaie d'en dessiner un, ou en fait un ensemble d'entre eux, pour l'article Amy Wethington, Chuck Lydeard, et moi-même avons récemment publié dans BMC Evolutionary Biology (4).
Notre nouvel article résume plus de dix années de recherche que nous avons menée sur l'évolution de l'isolement reproductif chez les Physa, y compris les articles que nous avons publiés comparant Charleston P. acuta, P. gyrina, P. pomilia, et P. carolinae (5). Tout nouveau pour 2011, nous avons ajouté une deuxième population de P. acuta, échantillonné à Philadelphie.

Voici un attribut évident du mot "espèce" que je pense que nous tenons tous trop pour acquis. Les le mot "espèce" est relationnel, comme le mot "frère". Ce n'est pas un caractère ponctuel qui peut être mesuré sur une OTU et projeté simplement sur un arbre phylogénétique. Alors, quand Amy, Chuck et moi avons entrepris d'ajouter une deuxième population de P. acuta à l'arbre des espèces que nous construisions depuis des années, nous avons ajouté une ligne à notre matrice triangulaire. Entre acuta, carolinae, pomilia et gyrine il y a 3 + 2 + 1 = 6 séries de tests de choix de partenaire par paire à effectuer, et 6 séries correspondantes d'expériences d'hybridation sans choix. Ajout du Philadelphie acuta population a ajouté 4 autres ensembles des deux, doublant presque notre effort. Une douleur dans le cul.

Et voici un autre point que nous pourrions mettre en évidence avec profit avant de dessiner notre premier arbre d'espèces. La population unique et originale à la base de notre arbre hypothétique était (bien sûr) reproductiblement compatible avec elle-même. Ce qui évolue, lorsqu'un arbre d'espèce se divise, est l'incompatibilité reproductive. Donc (pour emprunter un terme au cladisme, que je déteste) la rétention de la compatibilité reproductive est une « symplésiomorphie ». Je me souviens encore du jour où, au début des années 1980, un ichtyologue de l'ANSP a attiré mon attention pour la première fois sur un article de Donn Rosen rejetant le concept d'espèce biologique parce qu'une classification idéologiquement pure ne peut pas être basée sur la symplésiomorphie. (6). J'en ai encore marre de ça.

Dans tous les cas, je devrais penser que la plupart d'entre nous, si nous devions visualiser un arbre d'espèce authentique, commencerions par quelque chose comme l'arbre (c) à gauche pour la fertilité F1 dans Physa. Aucun hybride n'a été récupéré à partir des tests d'expériences sans choix gyrine contre l'une des quatre autres populations, donc gyrine n'est pas représenté dans l'arbre (c). Au moins certains hybrides sont nés dans les autres expériences 3+2+1, celles entre Charleston acuta-c et Philadelphie acuta-p s'avérant parfaitement fertile, les 3+2 autres catégories d'hybrides non. Ainsi, à partir de la fertilité hybride à la base de l'arbre, la situation aurait pu être aussi simple que deux mutations distinctes évoluant en un seul locus, de fertile à stérile. Le phénomène réel dans Physa est presque certainement contrôlé par plusieurs loci, mais nos observations peuvent être modélisées très simplement, comme un seul.

La situation ne peut cependant pas être si simple pour l'hybridation. Bien sûr le Charleston acuta-c et le Philadelphie acuta-p vont s'hybrider, et comme nous venons de le noter, gyrine ne s'hybride pas du tout dans nos conditions expérimentales avec aucune des autres espèces (7). Notre Physa carolinae population s'hybride librement avec l'une ou l'autre population de acuta, tandis que P. pomilia s'hybride partiellement avec l'une ou l'autre population de acuta, donnant des mélanges de descendance F1 autofécondée et croisée. Notre caroline x pomilia les expériences sans choix n'ont donné aucun hybride.

Mon meilleur effort pour décrire cet ensemble désordonné de relations est montré dans l'arbre (b) à droite ci-dessus. Notre modèle suggère deux loci, un locus "complet" J et un locus "partiel" K, au niveau desquels les allèles de compatibilité uniques se séparent, le locus J épistatique sur le locus K. Voir le texte de notre article pour les détails. L'essentiel est, cependant, que le modèle le plus simple que je puisse concevoir pour l'évolution des barrières à l'hybridation dans Physa n'est pas spécialement simple.

La situation sur l'évolution de l'incompatibilité sexuelle n'est pas non plus simple du tout. Bien que nos tests de choix du partenaire aient montré un isolement reproductif prézygotique entre P. carolinae et Charleston acuta-c, aucune barrière comportementale ne semble être en place pour abaisser la fréquence de copulation entre carolinae et Philadelphie acuta-p. Ces observations semblent nécessiter un autre modèle à deux locus (arbre d), voir à nouveau notre article pour les détails sanglants.

Notre article a une conclusion très douce, étant donné les années de Sturm und drang par laquelle nous sommes passés pour y arriver. Les trois arbres d'espèces présentés ci-dessus, avec leur minimum de cinq gènes pour l'isolement reproductif comme postulé, correspondent en effet aux arbres de gènes d'ADNmt CO1 + 16s précédemment publiés par Wethington & Lydeard et Wethington et al. (8). J'espérais en quelque sorte qu'ils ne le feraient pas, car nos conclusions auraient été plus froides. Mais (essayez comme je peux) je ne peux pas réorganiser les trois arbres d'espèces ci-dessus pour les rendre plus simples, pour ne pas correspondre à l'arbre génétique.

Je suis sûr que ce n'est pas la première fois dans l'histoire de la science que la relation entre les arbres génétiques et les arbres d'espèces authentiques est testée, mais je n'en connais pas d'autre. Et le match semble être bon, bon sang. Mais je n'émets pas de mandat à tous les sportifs de l'arbre génétique pour devenir arrogants.

(1) Arbres de gènes et arbres d'espèces [15juillet08]

(2) Maddison, W. 1997. Arbres génétiques dans les arbres d'espèces. Biologie systématique, 46, 523-536.

(3) Par exemple, voir Hudson, R. R. (1992) Gene tree, species trees, and the segregation of ancestral alleles. Génétique 131 : 509-512. Wakeley, J. (2008) Théorie coalescente, une introduction. Roberts & Co., Greenwood Village, CO 326 pp. Degnan et al. (2009) Propriétés des méthodes de consensus pour déduire les arbres d'espèces à partir d'arbres génétiques. Syst. Biol. 58 : 35-54.

(4) Dillon, R. T., Jr., A. R. Wethington & C. Lydeard (2011) L'évolution de l'isolement reproductif chez un hermaphrodite simultané, l'escargot d'eau douce Physa. BMC Biologie évolutive 11:114.
Version cliquable en ligne [html]
Norme [pdf]

(5) Dillon, R.T., Jr., Robinson, J. & Wethington, A. 2007. Estimations empiriques de l'isolement reproductif chez les escargots pulmonés d'eau douce Physa acuta, P. pomilia, et P. hendersoni. Malacologia, 49, 283-292. [pdf] Dillon, R. T., Jr., Earnhardt, C. & amp Smith, T. 2004. Isolement reproductif entre Physa acuta et Physa gyrina dans la culture commune. Bulletin malacologique américain, 19, 63-68. [pdf] Dillon, R. T., Jr. 2009. Estimations empiriques de l'isolement reproductif chez les Physa espèce de Caroline du Sud (Pulmonata : Basommatophora). Le Nautile, 123, 276-281. [pdf] Ce dernier article a été présenté dans mon article de blog intitulé « True Confessions : j'ai décrit une nouvelle espèce » [7Apr10]

(6) Rosen, D. E. (1979) Poissons des hautes terres et des bassins intermontagnards du Guatemala : études de révision et géographie comparée. Taureau. Amer. Mus. Nat. Hist. 162 : 270-375.

(7) Bien que nous n'ayons récupéré aucun hybride de nos expériences sans choix publiées en 2004, Tom Smith et moi avons découvert quelques acuta x gyrina hybrides naturellement présents sur les bords de la rivière Delaware à Washington Crossing. Ils sont apparus de manière assez inattendue sur les gels d'allozyme. C'est tout ce que je sais, jusqu'à ce que Dieu m'accorde une autre vie, ou encore quelques bons élèves.

(8) Wethington AR, Lydeard C (2007) Une phylogénie moléculaire de Physidae (Gastropoda : Basommatophora) basée sur des séquences d'ADN mitochondrial. J Moll Stud 73 : 241-257. [12Oct07]Wethington AR, Wise J, Dillon RT Jr (2009) Caractérisation génétique et morphologique des Physidae de Caroline du Sud (Pulmonata : Basommatophora), avec description d'une nouvelle espèce. Nautile 123 : 282-292. [pdf]


Défis futurs

Les enjeux méthodologiques sont encore nombreux et laissent de larges voies de recherche ouvertes, alors que dans le même temps le potentiel des méthodes déjà disponibles peut être exploité à une échelle de plus en plus large.

Contourner l'arbre génétique dans la coalescence multispécifique

Le modèle multispécifique coalescent décrit l'évolution des polymorphismes le long d'une phylogénie d'espèce. Le calcul de la probabilité d'un alignement de gènes à l'aide de ce modèle nécessite une sommation sur un grand espace d'arbres de gènes, étant donné un arbre d'espèces. Cette difficulté de calcul est un obstacle majeur à l'utilisation de cette approche sur de grands ensembles de données, contenant un grand nombre d'espèces et un grand nombre de familles de gènes. Très récemment, Bryant et al. (2012) et De Maio et al. (2013) ont proposé deux approches élégantes pour calculer la probabilité d'un alignement sous la coalescence multispécifique, en contournant entièrement le niveau de l'arbre de gènes et en intégrant analytiquement sur l'espace des historiques d'allèles possibles. Ces modèles présentent les premières méthodes pour réaliser explicitement l'intégrale dans l'équation de Felsenstein ( Felsenstein 1988 Hey et Nielsen 2007). Bryant et al. (2012) considèrent des données bialléliques et fournissent un modèle et un algorithme, appelé SNAPP, qui peuvent être utilisés pour reconstruire un arbre d'espèces étant donné un alignement de polymorphismes nucléotidiques uniques par exemple. Ils développent un algorithme spécifique pour tenir compte du fait que le processus de coalescence fonctionne fondamentalement des extrémités de l'arbre de l'espèce à sa racine, tandis que le processus de mutation fonctionne en avant. Ils utilisent cet algorithme pour reconstruire des arbres d'espèces avec 69 individus dans 6 espèces de plantes Digitalis. De Maio et al. (2013) proposent plutôt un modèle pour les données de séquence avec les données A , C , G , T en utilisant une matrice de substitution sur un espace d'états plus grand que les matrices de substitution 4 × 4 habituelles : elle contient les 6 états bialléliques < A , C >⁠ , < A , G >… avec une gamme de fréquences. Ils se concentrent sur un modèle spécifique, où ils considèrent une gamme de 10 fréquences possibles par fréquences bialléliques : pour l'état < A , C >⁠ , on a donc les états < A 10 % , C 90 % >⁠ , < A 20 % , C 80 % >⁠ , …, < A 90 % , C 10 % >⁠ . Deux hypothèses sont faites : premièrement, pas plus de 2 allèles sur un site donné peuvent être trouvés à tout moment dans une population, et deuxièmement, leurs fréquences sont bien approchées par la gamme limitée incluse dans le modèle. Ils construisent des transitions entre les états de cette matrice à partir d'un paramètre de taille de population, de coefficients de sélection et de taux de mutation. La matrice de taux instantané résultante est ensuite exponentielle pour fournir une matrice de probabilités de substitution. Globalement, la matrice obtenue avec une gamme de 10 fréquences possibles par état biallélique contient 58 états, soit environ le même nombre d'états qu'un modèle de substitution de codon. De Maio et al. (2013) utilisent ce modèle, avec quelques améliorations supplémentaires pour tenir compte des mutations dépendantes du contexte et de la spécificité de brin sur un grand alignement de quatre espèces de primates et trouvent des preuves d'une plus petite taille de population ancestrale chez les orangs-outans, et la sélection sur les activateurs d'épissage dans les exons .

De telles approches analytiques semblent très prometteuses pour combiner des modèles de coalescence avec des modèles de duplication, de perte et de transfert, car elles contournent le problème de l'échantillonnage des historiques d'allèles. Comment ils s'améliorent sur les modèles d'arbres à gènes coalescents multi-espèces est encore une question ouverte.

Des modèles plus intégratifs

Le programme intégratif de Goodman et al. (1979) est progressivement mis en œuvre. Le cadre probabiliste permet d'intégrer des mutations de séquence avec des duplications et des pertes de gènes par la coalescence ( Rasmussen et Kellis 2012), ou d'intégrer des duplications, des pertes et des transferts avec des substitutions ( Szöllősi et al. 2012 Boussau et al. 2013 Szöllősi et al 2013a, b). Les réarrangements peuvent être traités avec parcimonie si ILS est ignoré (Bérard et al. 2012 Patterson et al. 2013).

Il manque actuellement un modèle et une méthode pour gérer une union de tous ces processus. Cependant, il existe de très bonnes raisons pour que l'intégration de différents niveaux d'analyse des données se poursuive. Par exemple, au-dessous du problème arbre de gènes/arbre d'espèces, se trouve l'inférence des alignements de gènes. Ce n'est que récemment que le problème de l'inférence conjointe des alignements et des arbres de gènes a été sérieusement pris en compte, avec des tentatives pour modéliser le processus d'insertion/suppression dans l'évolution des séquences. De telles approches montrent des améliorations spectaculaires par rapport aux méthodes d'alignement phylogénétiquement ignorantes ( Redelings et Suchard 2005 Satija et al. 2009 Warnow 2013). Cependant, ils ont évidemment besoin de toutes les informations nécessaires pour avoir le meilleur arbre génétique possible, par exemple un lien vers l'arbre des espèces. Par conséquent, il est probable que l'intégration des modèles d'arbres génétiques-arbres d'espèces et des méthodes d'alignement devrait bénéficier à l'inférence des alignements, des arbres génétiques et peut-être des arbres d'espèces.

Bien qu'un modèle global semble difficile à imaginer actuellement, l'ensemble du pipeline d'analyse des données de séquence, des corrections d'erreurs de séquençage à l'annotation des gènes et à l'assemblage du génome, est susceptible de bénéficier de modèles évolutifs probabilistes. La reconnaissance de séquences homologues, la prédiction des fonctions des gènes sur la base d'informations provenant d'autres organismes et la proximité des gènes sur les chromosomes dépendent toutes en fin de compte de la structure de l'arbre de l'espèce et des événements possibles de substitution, de duplication, de perte et de transfert latéral qui peut avoir eu lieu dans l'histoire des génomes. Il n'y a actuellement aucune proposition d'intégration de ces processus à tous les niveaux du pipeline décrit dans la figure 5, mais les méthodes phylogénétiquement conscientes se sont avérées très prometteuses à de nombreuses étapes différentes du processus ( Boussau et Daubin 2010) y compris sur l'assemblage du génome ( Husemann et Stoye 2010 Rajaraman et al. 2013).

Algorithmique et temps de calcul

Le score d'un arbre génétique, surtout s'il s'agit de la combinaison des scores de plusieurs modèles, peut être assez coûteux à calculer. Par conséquent, l'exploration des arbres prend toujours du temps. Déjà, l'inférence d'un arbre génétique qui maximise la probabilité de l'alignement étant donné l'arbre génétique est prouvée difficile. L'inférence conjointe, l'estimation de paramètres et l'exploration d'arbres d'espèces datés ou ordonnés combinent des problèmes insolubles. En pratique, l'optimisation d'un arbre génétique peut nécessiter jusqu'à quelques heures pour des familles très nombreuses. Comme il peut y avoir des milliers de familles de gènes dans un ensemble de données typique, les calculs, même pour un arbre à espèces fixes, peuvent prendre beaucoup de temps. Cependant, les modèles d'évolution des familles de gènes ainsi que les modèles basés sur les séquences supposent tous que les gènes évoluent indépendamment les uns des autres. Cette hypothèse peut être remise en question (voir ci-dessous) et est également brisée par des paramètres évolutifs partagés entre les familles de gènes. Mais il permet une parallélisation triviale par les données. Tous les arbres de gènes peuvent être calculés indépendamment, étant donné un arbre d'espèces commun. Par conséquent, une exploration d'arbres d'espèces est principalement contrainte par les plus grandes familles multigéniques. Un moyen simple d'augmenter l'efficacité des calculs est d'ignorer ces grandes familles dans une première étape de l'exploration des arbres d'espèces. De grandes familles multigéniques peuvent être envisagées plus tard, lorsqu'un bon arbre d'espèces est trouvé sur la base de familles de gènes plus petites ou, dans un contexte d'échantillonnage, en utilisant un échantillonnage d'importance. Cependant, de telles astuces ne peuvent être utiles que tant que le nombre de génomes à l'étude est relativement faible. Pour étudier de plus grands ensembles de données, nous devrons concevoir des algorithmes plus efficaces.

Reconstruire et dater l'arbre de vie

Une confusion entre arbres de gènes et arbres d'espèces est sans doute à l'origine de l'affirmation selon laquelle Darwin s'est trompé lorsqu'il a évoqué l'image d'un arbre de vie, car il n'a pas su prévoir le rôle du transfert latéral de gènes dans l'évolution microbienne (Doolittle 1999). Les modèles et méthodes décrits ci-dessus montrent en fait que la pluralité d'histoires génétiques peut non seulement être surmontée, mais surtout fournit des informations supplémentaires sur les processus et les modèles d'évolution des espèces. Les phylogénies pour une diversité de clades ont été reconstruites avec des modèles coalescents, DL ou DTL. Dans chaque cas, le degré de conflit entre les arbres génétiques peut être interprété en termes biologiques, tels que le temps de divergence et la taille de la population ancestrale avec le coalescent, ou le moment relatif de la spéciation avec LGT. Il y a un grand espoir que le développement et l'utilisation de ces modèles aideront à résoudre de nombreux problèmes laissés en suspens par les méthodes traditionnelles.

Au-delà du gène en tant qu'unité évolutive

Bien que nous ayons adopté un sens libéral pour « gène », dans de nombreuses études que nous avons rapportées, un gène est une séquence codant pour une protéine ou un ARN fonctionnel, et est considéré comme une unité évolutive. Cependant, au sein de ces gènes, différentes parties peuvent avoir des histoires différentes (Didelot et al. 2010 Wu et al. 2012). Alternativement, certains gènes peuvent être associés tout au long de l'évolution parce que leurs fonctions sont interdépendantes ou simplement parce qu'ils sont proches les uns des autres dans le génome. En tant que tels, ils peuvent être dupliqués ou transférés ensemble ( Bansal et al. 2013 Patterson et al. 2013). Par conséquent, la définition des unités évolutives est difficile et fluctue dans le temps (Fig. 8). Comme nous l'avons montré, presque tous les modèles existants décrivent la réconciliation d'un arbre de gènes avec un arbre d'espèces, en supposant que son évolution soit cohérente et indépendante des autres gènes. Certaines études génomiques, cependant, permettent à des paramètres à l'échelle du génome comme les taux de duplications et de pertes de varier selon les branches de l'arbre de l'espèce ( Boussau et al. 2013). Cela peut être considéré comme une astuce pour modéliser des événements à grande échelle comme les duplications de génomes sans supprimer l'indépendance des gènes, ce qui est avantageux en termes de calcul. Mais il ne parvient pas à modéliser des réarrangements plus locaux tels que les duplications de parties d'un chromosome. Ces événements pourraient être informatifs pour la phylogénie, mais les modèles de réarrangements génomiques sont souvent si complexes d'un point de vue combinatoire ( Fertin et al. 2009) qu'ils ne s'adaptent pas bien à la taille et au nombre de génomes ( York et al. 2002 Darling et al. 2008 Miklos et Tannier 2010). Jusqu'à présent, leur complexité a exclu un couplage avec d'autres modèles tels que la réconciliation arbre-espèce arbre-gène. Cependant, en supposant que les voisinages entre les gènes sont indépendants, ce qui signifie que pour 3 gènes A , B ⁠ , C le voisinage entre les gènes A et B est indépendant du fait que les gènes A et C soient voisins ou non, il est possible d'intégrer des réarrangements dans DL ( Bérard et al. 2012) ou DTL ( Patterson et al. 2013). De telles approches décrivent l'évolution des voisinages (ou toute autre relation entre les gènes, y compris fonctionnels) le long de paires d'arbres génétiques réconciliés, permettant de reconstruire les contiguïtés dans les génomes ancestraux et les événements évolutifs de duplication, de perte et de transfert qui ont affecté des fragments génomiques comprenant plusieurs gènes. Étant donné que de tels événements multiples sont fréquents, il est probable que les paramètres de duplication, de transfert et de perte estimés dans les modèles DL et DTL soient biaisés et il semble nécessaire d'intégrer des modèles d'évolution de voisinage avec reconstruction phylogénétique dans la reconstruction des histoires génomiques.

Unités évolutives au-dessous ou au-dessus des gènes. Des unités individuelles (rouge et bleu en ligne) peuvent être à l'intérieur de gènes ou de gènes voisins le long d'un chromosome ou de gènes impliqués dans un complexe protéique. Les contiguïtés sont des relations binaires entre les gènes et évoluent le long d'une phylogénie d'espèce. Les contiguïtés peuvent être gagnées ou perdues indépendamment de la naissance et de la mort des unités. Lorsque deux unités subissent ensemble une spéciation, une duplication ou un transfert, les contiguïtés subissent les mêmes événements.

Unités évolutives au-dessous ou au-dessus des gènes. Des unités individuelles (rouge et bleu en ligne) peuvent être à l'intérieur de gènes ou de gènes voisins le long d'un chromosome ou de gènes impliqués dans un complexe protéique. Les contiguïtés sont des relations binaires entre les gènes et évoluent le long d'une phylogénie d'espèce. Les contiguïtés peuvent être gagnées ou perdues indépendamment de la naissance et de la mort des unités. Lorsque deux unités subissent ensemble une spéciation, une duplication ou un transfert, les contiguïtés subissent les mêmes événements.

Il existe également des modèles pour détecter des points de rupture à l'intérieur de séquences de gènes à l'aide de HMM par exemple ( McGuire et al. 2000 Suchard et al. 2002 Martins et al. 2008 Boussau et al. 2009), ou détecter des points de rupture de discordance phylogénétique à l'échelle du génome entier ( Ané 2011), mais jusqu'à présent, ces modèles n'ont pas été inclus dans les modèles d'évolution des familles de gènes.

Suivre le rythme de l'acquisition de données

Actuellement, le séquençage du génome n'est plus une étape limitante pour la génomique comparative. Au lieu de cela, l'assemblage de familles de gènes, d'alignements de gènes, d'arbres de gènes et d'arbres d'espèces devient de plus en plus problématique. Dans ce contexte, les méthodes utilisant des modèles d'évolution des familles de gènes peuvent présenter un avantage car elles réduisent effectivement l'espace des solutions possibles à explorer : étant donné un arbre d'espèces, l'espace des arbres de gènes possibles est limité par rapport aux méthodes ignorant l'arbre d'espèces, et par conséquent, l'espace des alignements possibles l'est aussi. Concevoir des algorithmes intelligents qui utilisent ces réductions de complexité peut fournir des inférences rapides mais précises pour des projets de génomique comparative à grande échelle.

Un autre domaine où des progrès sont nécessaires est la réutilisation des informations antérieures. Actuellement, chaque fois qu'un nouveau projet de génomique comparative est entrepris, ou chaque fois qu'une base de données de séquences homologues est mise à jour, de nombreuses tâches d'inférence doivent être refaites à partir de zéro. Les calculs des familles de gènes, des alignements, des arbres et des arbres d'espèces sont généralement effectués comme s'il n'y avait aucune information préalable obtenue à partir d'analyses précédentes. C'est évidemment un énorme gaspillage d'informations utiles, car ces calculs sont souvent très exigeants. Les futures approches de la génomique comparative devront être non seulement intégratives, mais aussi incrémentielles. Il existe un besoin évident de nouveaux développements, et la communauté de la biologie systématique est bien équipée pour les entreprendre.


Quelle est la différence entre un arbre d'espèces, un arbre de gènes et un arbre phylogénétique ? - La biologie

Comment les organismes sont-ils classés ?

    est le domaine de la biologie qui classe les organismes vivants et éteints selon un ensemble de règles.

    La taxonomie produit une hiérarchie de groupes d'organismes, les organismes sont affectés à des groupes en fonction des similitudes et des dissemblances de leurs caractéristiques.

    Un arbre phylogénétique est une hypothèse qui décrit les relations évolutives entre des groupes d'organismes dans des arbres phylogénétiques détaillés, les points de ramification indiquent quand de nouvelles espèces ont divergé d'un ancêtre commun.

Comment sont construits les arbres phylogénétiques ?

    Les arbres phylogénétiques sont généralement basés sur une homologie morphologique ou génétique.

    Une comparaison des traits anatomiques peut révéler une relation évolutive entre les espèces.

    Des caractéristiques dérivées partagées sont utilisées pour construire un arbre appelé cladogramme.

Comment la systématique moléculaire change-t-elle notre vision de la taxonomie ?

    La taxonomie est un travail en cours.

    À mesure que de nouvelles espèces sont découvertes, les groupes taxonomiques peuvent ne plus être monophylétiques.


Variation topologique

Un des problèmes phylogénétiques analysés par Huerta-Cepas et al. [3] est la relation entre les primates, les rongeurs et les laurasiatherians (ces derniers comprenant les Cetartiodactyla, qui incluent les baleines et les artiodactyles, ainsi que les Carnivora et certains autres ordres de mammifères). Au moyen d'un algorithme qui scanne les topologies dans les arbres du phylome humain, les auteurs ont quantifié le nombre d'arbres supportant différentes relations. Ils ont trouvé, après avoir éliminé les arbres instables, 4 806 arbres phylogénétiques soutenant le regroupement de primates et de laurasiatherians dans un clade à l'exclusion des rongeurs, 3 459 arbres soutenant un regroupement de primates et de rongeurs (un clade connu sous le nom d'Euarchontoglires ou Supraprimates, et soutenu par des phylogénies moléculaires récentes [5] c'est l'arrangement représenté sur la figure 1), et 2 258 arbres regroupant rongeurs et laurasiatherians dans un seul clade. Ainsi, la variation topologique trouvée était extrême, pas loin du maximum possible, et représente un sérieux défi méthodologique, d'autant plus que tous ces arbres sont statistiquement bien supportés, avec une probabilité a posteriori bayésienne supérieure à 0,9 dans le nœud d'intérêt. Étant donné le grand nombre de gènes soutenant chacun des trois arrangements possibles de ces lignées de mammifères, il n'est pas surprenant que des études phylogénomiques récentes aient produit différents arbres reliant l'homme, la souris et le chien [11, 12]. Huerta-Cepas et al. [3] n'ont pas calculé d'arbre de consensus (ce n'était pas le but de cette étude), et il n'est donc pas simple de déterminer la « vraie » topologie de l'arbre reliant ces mammifères. Il ne suffit pas d'obtenir la topologie la mieux prise en charge, et même l'utilisation de tous les gènes d'un génome peut ne pas vous aider à trouver une solution sans ambiguïté. En effet, des gènes différents produisent des biais différents et des critères rigoureux de sélection des gènes à utiliser pour construire un arbre d'espèces sont nécessaires pour obtenir des résultats moins ambigus, comme cela a été fait dans d'autres travaux (voir [13] pour une revue). Le message important de cette partie de l'étude est que, quel que soit le véritable arbre, les arbres dérivés de gènes uniques sont plus susceptibles qu'improbables de pointer vers une mauvaise topologie.

Huerta-Cepas et al. [3] ont également examiné la relation entre les cordés, les arthropodes et les nématodes, un arbre qui a fait l'objet de nombreux travaux récents (voir références dans [3]). Dans ce cas, 2 431 arbres supportent un groupement de cordés et arthropodes (Coelomata), 1 759 arbres supportent un clade nématode-arthropode (les Ecdysozoa de la figure 1, ce groupe est inclus dans les protostomes) et 1 040 arbres supportent un groupement de cordés et nématodes . Une grande diversité de topologies a également été trouvée et l'on peut voir encore que, même sans connaître le véritable arbre, la plupart des arbres doivent être faux. Un troisième problème étudié par Huerta-Cepas et al. [3] regarding the position of several basal eukaryotic lineages is more difficult to interpret, as there are more than three possible topologies, but the results also point to a high variability among topologies.

It is true that the three examples discussed above are inherently difficult phylogenies, but the authors indicate that they found considerable levels of topological diversity in trees of other, undisputed, phylogenies. These very instructive results should make us realize that not all single-gene trees, even those with high support, must necessarily be coincident with the real species tree. Thus, the methodological approach of the pioneering work of Penny et al. [1], which implied a certain degree of topological variation among different genes without denying the existence of a unique tree, is largely supported from this much larger analysis using the most up-to-date methods of statistical analysis.


Forensic speciation: Splicing genetic and phylogenic trees of life

Evolutionary relationships of eutherian mammals. The phylogeny was estimated using the maximum-pseudolikelihood coalescent method MP-EST with multilocus bootstrapping. The numbers on the tree indicate bootstrap support values, and nodes with bootstrap support >90% are not shown. (Inset) The eutherian phylogeny estimated using the Bayesian concatenation method implemented in MrBayes. The ML (maximum likelihood) concatenation tree built by RAxML (search algorithm for maximum likelihood) is identical to the Bayesian concatenation tree in topology. Branches of the concatenation tree are coded by the same colors as in the MP-EST tree. The blue asterisks indicate the position of Scandentia (tree shrews), Chiroptera (bats), Perissodactyla (odd-toed ungulates), and Carnivora (carnivores),whose placement differs from the coalescent tree. The Bayesian concatenation tree received a posterior probability support of 1.0 for all nodes. Copyright © PNAS, doi:10.1073/pnas.1211733109

(Phys.org)—The Tree of Life is a beautiful and elegant metaphor that has proven deceptively difficult to reconstruct. The main culprit may be the overwhelming reliance on so-called concatenation methods, which combine different genes into a single matrix and so force all genes to conform to the same topology. Since these methods do not take into account differences between alternative gene trees, they have been thought to lead to uncertainty or incongruence in the phylogenic tree of the eutherian (placental) mammals. While historically this incongruence had not previously been confirmed by empirical studies, scientists at Shenyang Normal University, Tsinghua University, University of Georgia and Harvard University have recently demonstrated that this is indeed the case – and that concatenation-derived uncertainty may be found in other clades (biological groups derived from a common ancestor) as well. Moreover, the authors suggest that such uncertainty can be resolved by augmenting phylogenomic data with coalescent methods – that is, techniques for dealing with differences in genomic ancestral trees.

The research team – Prof. Shaoyuan Wu, Prof. Sen Song, Asst. Prof. Liang Liu, and Prof. Scott V. Edwards – faced a number of complex issues in conducting their study. "To demonstrate that concatenation methods are actually underlying the controversies in the phylogeny of eutherian mammals, we need to find out what is wrong with concatenation methods," Wu tells Phys.org. "This is a challenging topic since concatenation methods are to date the most dominant approach in the field of phylogenetics." Wu points out that It would be difficult for people to admit that these well-established methods are the cause of controversies in phylogenetic relationships, since for a long time people believe that controversial relationships among eutherian mammals and other clades in the Tree of Life would be resolved as more taxa – groups of one or more populations of organisms – and/or genetic data become available. "However," he notes, "the persistence of these controversies in recent concatenation studies despite the increasing sampling of taxa and genes lead us to believe that something must be wrong with concatenation methods."

Concatenation methods are based on the assumption that all genes have the same or similar phylogenies. However, the team's mammalian data set, gene tree heterogeneity can be found everywhere. While computational simulations have predicted that ignoring gene tree heterogeneity may result in misleading phylogenies, the challenge has been how to empirically test the effect of gene tree heterogeneity on estimating phylogenies.

To address this challenge, Wu explains, the researchers designed their experiment with the innovative approach of using subsampling analysis of loci and taxa – because if gene tree heterogeneity is indeed a confounding factor, the results of the concatenation method are expected to vary according to the histories of the genes represented in a particular subsample. "The subsampling portion of our analysis confirms the prediction that concatenation methods using different subsamples of our data set often conflict with each other, even though metrics such as the bootstrap indicate strong support for each topology – but trees generated from subsamples using the coalescent method are much more topologically consistent."

In addition, he adds, they developed two techniques in this study: estimating the scale of genetic data for accurately resolving a phylogeny based on taxon sampling, and testing if the multispecies coalescent model can explain the observed gene tree data set heterogeneity.

Beyond controversies in eutherian mammal phylogeny, similar phylogenetic controversies also exist in other clades – for example, the relationships among nemerteans, annelids, and molluscs with regards to arthropods. "Because the phylogenic reconstruction in the Tree of Life has so far been mostly based on concatenation methods," Wu adds, "it's likely that concatenation methods are the major cause of phylogenetic incongruence across the Tree of Life." Wu also describes the insights gleaned from the study. Firstly, the researchers showed using coalescent methods to deal explicitly with gene tree heterogeneity is preferable to applying concatenation methods to data sets with high gene tree heterogeneity. A second insight was that it is also critical to gather a sufficient number of loci to obtain an accurate phylogeny for mammals and other clades malgré the importance of taxon sampling for phylogenetic analysis. "For example," Wu illustrates, "the intensive taxon sampling employed in recent research 1 cannot compensate for the effect of insufficient genetic sampling in their data set."

Finally, Wu notes, incomplete linage sorting (ILS), a major source of gene tree heterogeneity, is relevant to deep-level phylogenies. "This is in contrast to the conventional assumption that ILS is only relevant to recent radiations," he stresses. "ILS is prevalent in coding sequences, which is in contrast to recent suggestion that coding sequences may be less subject to ILS than noncoding sequences due to frequent selective sweeps, which tend to remove ILS."

Wu expands on the paper's key conclusion – namely, that such incongruence can be resolved using phylogenomic data and coalescent methods that deal explicitly with gene tree heterogeneity. "The prevalence of gene tree heterogeneity in genomic data indicates that a good phylogenetic method should take this complexity into account when inferring species phylogenies," he points out. "It's clear that concatenation methods, which assume gene tree homogeneity, do not fit the complexity of phylogenetic reality – that is, that gene tree heterogeneity is common among all genes and taxa. In contrast, the multispecies coalescent model can explain 77% of gene tree heterogeneity observed in the mammal data set, indicating that the coalescent approach indeed gives a better picture of complex phylogenetic reality when gene tree heterogeneity is prevalent in the data sets."

Delving deeper, Wu notes that the erratic behavior of concatenation methods confirms that concatenation methods are not suitable for genomic data, which possess substantial levels of gene tree heterogeneity. "The robustness of coalescent methods to variable gene and taxon sampling demonstrates that coalescent methods are superior to concatenation methods in building species phylogenies based on phylogenomic data by accommodating gene tree heterogeneity – and the data suggests controversial relationships in the Tree of Life can be resolved as more data are collected. In other words, resolving the phylogeny of eutherian mammals and other clades in the Tree of Life will require a large amount of data at genomic scale."

To extend the current study, the scientists' next research step is to assess the suitability of tree-building models for different types of genomic data, and to examine how different characteristics of genomic data would affect the performance of tree-building methods. Moreover, the paper has implications for other areas of research as well. "Besides the field of evolutionary biology," Wu concludes, "a well-resolved phylogeny has important applications in the studies of comparative genomics and biomedical sciences. The major contribution of this study is to provide an example and a roadmap to help researchers to build accurate phylogenies using genomic data, which will certainly benefit studies in these areas."

1 Related: Impacts of the Cretaceous Terrestrial Revolution and KPg Extinction on Mammal Diversification, Science 28 October 2011: Vol. 334 no. 6055 pp. 521-524, doi:10.1126/science.1211028


Fond

A species phylogeny is a graphical model of the common evolutionary history of a group of species, and is most often represented as a phylogenetic tree or phylogenetic network [1]. A species phylogeny gives valuable information about protein functions [2–4], host-parasite relationships [5], etc.

However, species tree estimation is difficult, due to multiple biological processes, including recombination [6], duplication and loss [7], hybridization [8], incomplete lineage sorting (ILS) [9], and horizontal gene transfer (HGT) [10], that can cause a given genomic locus to have a tree that is different from the species tree. As a result, multiple loci are needed to estimate a species phylogeny with high accuracy.

Of the many sources of gene tree discord, the one that has received the greatest attention is ILS, which is modeled by the multi-species coalescent (MSC) model [11]. An MSC model tree has a rooted tree T , leaf-labelled by a set of species, and is given with branch lengths in coalescent units. Gene trees evolve within the species tree, in a backwards process described by the MSC thus, lineages "coalesce" on the branches of the tree, as they move from the leaves of the species tree towards the root. When two lineages fail to coalesce on the earliest branch in which they can coalesce, this can result in a gene tree having a different topology than the species tree.

Under the MSC model, each species tree defines a probability distribution on gene trees, and the species tree can be identified uniquely from this distribution. Hence, one type of technique (called a "summary method") for estimating species trees under the MSC operates by first estimating gene trees for a set of different loci, and then uses this estimated distribution on gene trees to estimate the species tree. A summary method is said to be statistically consistent under the MSC model if, as the number of loci and sites per locus go to infinity, the estimated species tree returned by the method will converge in probability to the true species tree [12]. Many statistically consistent summary methods have been developed for estimating species trees when gene discordance is due to ILS [13–19].

Despite advances in developing statistically consistent methods for species tree estimation that are robust to ILS, by far the most common technique for estimating a species tree is concatenation analysis, in which the sequence alignments for the different loci are combined into one large supermatrix, and then a phylogeny is estimated on the alignment using maximum likelihood [20, 21]. This type of approach, however, is sometimes not statistically consistent under the multi-species coalescent model [22, 12] in the presence of ILS. Hence, even though concatenation often has good accuracy (even under conditions with moderately high ILS levels) [23–25], a large effort has been made to develop alternative methods that are provably robust to ILS and have good accuracy on realistic conditions.

For very small datasets, Bayesian methods such as BEST [26], *BEAST [27] or BUCKy-pop [28] (the population tree from BUCKy) can provide excellent accuracy however, these methods are too computationally intensive to use on even moderate sized datasets with hundreds to thousands of loci and 30 or more species [29, 30].

Of the currently available coalescent-based methods, ASTRAL-2 [19], MP-EST [13], and NJst [17] have emerged as the most accurate of the methods that can run on datasets with 50 or more species and hundreds to thousands of loci. However, the comparison among these methods shows that MP-EST is typically not as accurate as NJst and ASTRAL-2 and is also much slower than both [19]. Some newer statistically consistent methods have also been developed (e.g., SVDquartets [31]), but have not yet been sufficiently evaluated in terms of their accuracy and scalability in comparison to other coalescent-based methods.

Some of the most commonly used coalescent-based methods estimate species trees by encoding each gene tree as a set of quartet trees (i.e., unrooted 4-leaf trees), and then estimate the species tree from the quartet tree frequencies. The mathematical basis of this approach is the following theorem, originally proved in [32]:

Théorème 1 Under the multi-species coalescent model, for every model species tree (T, θ) (where θ denotes the branch lengths of T in coalescent units) and for every set X of four leaves from T, the most probable unrooted gene tree topology on X is identical to the species tree T restricted to the leafset X.

Interestingly, nearly the same theorem was proven under two phylogenomic models that addressed horizontal gene transfer (HGT)! When HGT is present, the evolutionary history of the species is not really treelike, but rather requires a phylogenetic network [1]. Under HGT models, a phylogenetic network consists of an underlying species tree T with horizontal gene transfer edges (represented by directed edges) between branches in the tree, and each locus evolves down a tree (though not necessarily the species tree) within this network. Hence, while the species evolution is not purely treelike, the gene tree evolution est treelike. Furthermore, for this type of reticulate phylogeny, it is reasonable to ask whether the underlying species tree T can be reconstructed from gene trees estimated on the different loci.

This question has been partially answered for two models of HGT. The first models HGT events between lineages using a continuous-time Poisson process [33], and is called the stochastic HGT model. In a stochastic HGT model, the HGT events happen between contemporaneous lineages, either uniformly at random or with probability that depends on the distance between the lineages (so that events are less likely if the lineages are more distantly related). The second type of model assumes that there are HGT edges between specific pairs of branches in a species tree, commonly referred to as highways, along which HGT events are far more likely to occur than elsewhere in the tree this is called the highways HGT model [34].

The theoretical framework for estimating the underlying species tree under these two HGT models was established in [35] (for estimating rooted species trees from rooted gene trees) and in [36] (for estimating unrooted species trees from unrooted gene trees). Specifically, [36] proved theorems that under both the stochastic HGT model and highways model, but with bounded amounts of HGT per gene, the most probable quartet tree would be topologically identical to the species tree. Note that these theorems are the equivalents of Theorem 1 under the two bounded HGT models.

Some species tree estimation methods operate by computing gene trees, encoding each computed gene tree as a set of quartet trees, and determining the dominant quartet tree for every four species (i.e., the quartet tree that appears the most frequently of the three possible unrooted quartet trees). Then, these dominant quartet trees are combined using a quartet amalgamation method (e.g., Quartets Max Cut [37] or QFM [38]). This type of species tree estimation method can be statistically consistent under the MSC model, and also under these bounded HGT models - depending on the quartet amalgamation method, as we now show.

Theorem 2 Let M be a summary method (i.e., a method that constructs a species tree from an input set of gene trees). Suppose that M has the property that it is guaranteed to return the unique tree compatible with the dominant quartet trees defined by its input set of gene trees, whenever the dominant quartet trees are compatible. Then M is statistically consistent under the MSC model, and also under the bounded HGT models given in [36].

Proof To establish statistical consistency, we only need to prove that as the number of sites per locus and the number of loci both increase, the tree returned by the method converges in probability to the species tree. As the number of sites per locus and the number of loci both increase, the dominant quartet tree converges to the most probable quartet tree on every set X of four species. Under the MSC model and also under the bounded HGT models in [36], the most probable quartet tree on any set X is topologically identical to the species tree. Hence, for a large enough number of loci and large enough number of sites per locus, with probability converging to 1, the input to the quartet-based methods will be a set of gene trees such that the dominant quartet trees are all compatible with the species tree. Furthermore, the species tree will be the unique such compatibility tree, and so the method will return the true species tree.

Similarly, we can prove the following:

Theorem 3 ASTRAL and ASTRAL-2 are statistically consistent under the bounded HGT models of [36].

This proof uses Theorem 1, but is essentially identical to the proofs of statistical consistency for ASTRAL and ASTRAL-2 under the MSC model [19] see Methods for the proof of this theorem.

Very little is known about the theoretical guarantees of any species tree estimation methods under models in which both HGT and ILS can occur. In fact, to the best of our knowledge, no methods have yet been proven statistically consistent under these conditions. We also do not know much about the empirical performance of any species tree estimation methods under these conditions. As far as we know, the only simulation study to date of the impact of both ILS and HGT on the performance of species tree estimation methods is [39], which explored the performance of two coalescent-based methods, BUCKy and BEST, on data that evolved under both processes. However, both of these methods are computationally intensive, and cannot run on even moderately large datasets (e.g., BEST is slower than *BEAST, and *BEAST is too computationally intensive to use on datasets with more than about 100 loci) [30, 29].

We report on a study evaluating the accuracy of ASTRAL-2, NJst, and weighted Quartets Max Cut (wQMC) [40], as well as unpartitioned maximum likelihood concatenation analysis (CA-ML), on simulated datasets in which gene tree discord is due to both HGT and ILS. The simulation protocol evolved gene trees down 50-taxon species trees under the MSC model with a moderately high level of ILS, and allowed gene trees to then evolve with six different HGT rates (see Figure 1). HGT rate (1) has no HGT events, and HGT rates (2)-(6) have 0.08, 0.2, 0.8, 8.0, and expected HGT events per gene, respectively. Finally, sequences evolved down each gene tree under the GTR+Gamma model.

Properties of the simulated datasets. (Top) The histogram of the number of transfer events per gene across all 50,000 gene trees (50 replicates, each with 1000 genes) for all six model conditions. Note that the tree has only 51 species (50 ingroup species and one outgroup species), and therefore, model conditions (5) and (6) constitute high numbers of transfers per gene. (Bottom) The normalized Robinson-Foulds (bipartition) distance between the true gene trees and the species tree for all six model conditions. Note that the gene tree discordance generally increases as the transfer rate increases, but also that model condition (3) has less discordance than model condition (2) malgré having a slightly higher number of transfers.

We estimated gene trees on each locus using the FastTree-2 maximum likelihood software [41], and then used the summary methods on these estimated gene trees to estimate the species tree. We also concatenated the sequence alignments and ran unpartitioned FastTree-2 maximum likelihood on the concatenated super-alignment. Finally, we analyzed a Cyanobacteria dataset with 11 species and 1128 genes [42], which is believed to have evolved under high levels of HGT and has been used to evaluate methods for inferring species trees in the presence of HGT [43, 40]. See Methods for additional details.


Minimum species removal inference and reconciliation

By linking the species tree inference problem to a supertree problem we have been able to prove that deciding whether a gene tree T is an MD-tree can be done in polynomial-time[8]. We used a constructive proof based on a min-cut strategy, which has been largely considered in the context of supertrees[25–27]. In this section, we develop a greedy heuristic for MINSRI based on a minimum vertex cut strategy.

Let F = < T 1 , T 2 , … , T f >be a forest of gene trees on a genome set g. Define leve l 0 ( F ) to be the set of highest (c'est à dire. closest to the root) vertices of all T jes that are not AD-vertices. leve l j ( F ) is then the set of vertices of all T jes that are closest non-AD descendants of the vertices for leve l j − 1 ( F ) . For a given level j, forest F , and vertex x ∈ leve l j ( F ) , consider the bipartition B ( x ) = ( L ( x l ) , L ( x r ) ) . Then G j = ( V , E ) is the corresponding hypergraph[28] where V=g, and L ( x l ) , L ( x r ) ∈ E for x ∈ leve l j ( F ) .

In order for F to be an MD-forest, all the vertices of leve l j ( F ) , for any j, should represent speciation vertices with respect to some species tree S (as otherwise they would represent additional non-apparent duplication vertices, preventing the forest from being an MD-forest). In other words, the bipartitions B(X) for all Xleve je0(T) should reveal a first speciation event, which is possible if and only if the graph G 0 contains at least two connected components. Indeed, in this case for any species tree S with a root r splitting g into two disconnected subsets, all the vertices of leve l 0 ( F ) would be speciation vertices. Conversely, if G 0 contains a single connected component, then for any species tree S, at least one node of leve je0(T) would be a NAD node. The same reasoning applies to any leve l j ( F ) and G j .

On the other hand, if G j is connected for some leve l j ( F ) , there exists no species tree so that all x ∈ leve l j ( F ) represent speciation events. In this case, some number of species must be removed to make G j disconnected. This corresponds exactly to a vertex cut in G j . These observations leads to the following heuristic for the MINSRI problem.



Commentaires:

  1. Archibaldo

    Je suis désolé, mais je ne peux pas vous aider. Je sais que vous trouverez la bonne solution. Ne désespérez pas.

  2. Zujinn

    Je ne voulais pas développer ce sujet.

  3. Baigh

    Cela m'a étonné.

  4. Mezitaxe

    C'est une idée remarquable, plutôt précieuse

  5. Maki

    C'est dommage!

  6. Wahkan

    Je n'ai pas compris ce que tu veux dire?

  7. Yorr

    Argument opportun

  8. Elwood

    Sujet très satisfaisant

  9. Rexton

    Quant à moi, le sens n'est révélé plus loin, l'afftor a fait le maximum, pour lequel je le respecte!



Écrire un message