Informations

Pourquoi les régions riches en GC sont-elles moins condensées que les régions pauvres en GC ?

Pourquoi les régions riches en GC sont-elles moins condensées que les régions pauvres en GC ?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Pour autant que je sache, la chromatine se compose de deux types:

L'hétérochromatine est plus condensée, donc les facteurs de traduction ont moins accès à cette région, et cette région est pauvre en GC.

L'euchromatine est moins condensée, donc les facteurs de traduction ont plus accès à cette région, et cette région est riche en GC.

Je me demande comment le contenu en GC affecte l'état de condensation du chromosome ? Quel est le mécanisme derrière cette relation ?

Il est bien connu que les paires GC et AT diffèrent par le nombre de leurs liaisons hydrogène. Cette liaison hydrogène joue-t-elle le rôle clé dans la condensation des chromosomes ?


@ThoH.Ho et @Thawn. Lors du baguage des chromosomes, ils sont d'abord traités avec de la trypsine avant d'être colorés avec le colorant Giemsa. Ma compréhension, et j'ai travaillé dans le domaine de la cytogénétique pendant un certain temps, est que la condensation de la chromatine due au contenu des gènes EST la raison des motifs de bandes différentiels. Les zones riches en gènes/à teneur élevée en GC, avec une chromatine plus ouverte, sont plus facilement digérées par l'enzyme trypsine et donc moins de protéines sont alors présentes pour être colorées avec Giemsa. Vice versa pour les régions à faible teneur en gènes/à faible teneur en GC. C'est pourquoi les régions non codantes telles que l'hétérochromatine sont très sombres et les chromosomes riches en gènes tels que le chromosome 19 sont pâles. Ainsi, bien que les chromosomes puissent être à leur stade le plus condensé du cycle cellulaire en pro-métaphase, il existe évidemment encore une différence relative entre la condensation de la chromatine des régions riches en GC et pauvres en GC.


La condensation chromosomique semble être principalement due à des facteurs épigénétiques tels que la méthylation et les modifications des histones, et non la teneur en GC. Cependant, une teneur élevée en GC est associée à des régions riches en gènes et l'expression des gènes nécessite généralement une chromatine ouverte. En d'autres termes, une teneur élevée en GC est en corrélation avec les gènes, et les gènes exprimés sont en corrélation avec la chromatine ouverte, donc une teneur élevée en GC est en corrélation avec la chromatine ouverte, mais n'est pas nécessairement causale.


La composition nucléotidique des éléments transposables contribue probablement à l'homogénéité de composition AT/GC des génomes de poissons téléostéens

Il a été démontré à plusieurs reprises que la taille du génome des poissons téléostéens était en corrélation positive avec la proportion d'éléments transposables (ET). Cette découverte pourrait avoir des implications de grande envergure pour notre compréhension de l'évolution de la composition des nucléotides chez les vertébrés. Les génomes des poissons et des amphibiens sont GC homogènes, les gars non téléostéens étant la seule exception identifiée à ce jour, tandis que les oiseaux et les mammifères sont hétérogènes AT/GC. La raison exacte de ce phénomène reste controversée. Étant donné que les ET représentent des proportions importantes de génomes et peuvent s'accumuler rapidement à travers les génomes, ils peuvent potentiellement influencer le génome hôte avec leur propre contenu en GC (GC%). Cependant, le GC% des TE de poisson a jusqu'à présent été négligé.

Résultats

La proportion génomique des TE est en effet corrélée avec la taille du génome, bien que pas aussi linéairement que précédemment avec moins de génomes, et GC% est corrélée négativement avec la taille du génome dans les 33 assemblages de génomes de poissons analysés ici (hors salmonidés). Le % GC des séquences consensus TE de poisson est en corrélation positive avec le % GC génomique correspondant chez 29 espèces testées. De même, les teneurs en GC de l'ensemble des fractions génomiques répétitives et non répétitives sont positivement corrélées chez 54 espèces de poissons de l'Ensembl. Cependant, parmi ces espèces de poissons, il existe également une grande variation de GC% entre les principaux groupes d'ET. Les transposons d'ADN de classe II, TE prédominants dans les génomes des poissons, sont significativement plus pauvres en GC que les rétrotransposons de classe I. Le génome hétérogène du gar AT/GC contient moins de TE de classe II, une situation similaire au fugu avec son génome extrêmement compact et également enrichi en GC mais homogène en AT/GC.

Conclusion

Nos résultats révèlent une corrélation auparavant négligée entre le GC% des génomes des poissons et leurs ET. Ceci s'applique à la fois aux séquences consensus TE ainsi qu'à la totalité de la fraction génomique répétitive. D'un autre côté, il existe une grande variation de GC% entre les groupes de poissons TE. Ces résultats soulèvent la question de savoir si le GC% des TE évolue indépendamment du GC% du génome de l'hôte ou s'il est induit par la localisation des TE dans le génome de l'hôte. Répondre à ces questions aidera à comprendre comment le GC% génomique est façonné au fil du temps. L'accumulation à long terme de transposons d'ADN de classe II pauvres en GC (plus) pourrait en effet avoir influencé l'homogénéisation AT/GC des génomes de poissons et nécessite une enquête plus approfondie.


Introduction

Chez les plantes, la composition nucléotidique moyenne de la séquence codante (CDS) (g + C teneur ci-après notée GC-content) est très variable entre les espèces et varie de 40 % à 60 % (Serres-Giardi et al. 2012). Les génomes végétaux hébergent également plus de 100 000 introns dans leurs gènes qui occupent environ un quart de l'espace génique. Comme chez les autres eucaryotes, les introns végétaux ont tendance à être pauvres en GC par rapport aux régions codantes, et les différences entre les deux types de régions semblent être liées à l'efficacité de l'épissage (Goodall et Filipowicz 1989, 1991 Carle-Urioste et al. 1997 Carels et Bernardi 2000 Zhu et al. 2009 Amit et al. 2012). L'architecture intron𠄾xon chevauche également l'organisation de la chromatine, les nucléosomes occupant préférentiellement les exons alors que les lieurs sont principalement formés par les introns (Andersson et al. 2009 Chodavarapu et al. 2010 Amit et al. 2012). L'occupation des nucléosomes elle-même est principalement déterminée par le contenu en GC de la séquence (Tillo et Hughes 2009). En conséquence, l'alternance de séquences non codantes et codantes coïncide chez les plantes avec une mosaïque de régions pauvres en GC et riches en GC qui correspond à des domaines de chromatine différents.

Les introns ou l'épissage sont impliqués dans un large éventail de processus critiques concernant l'expression des gènes (Lynch 2002 Maniatis et Reed 2002 Moore et Proudfoot 2009 Carmel et Chorev 2012). Les processus d'épissage affectent l'expression des gènes depuis l'initiation de la transcription et le coiffage 5′ jusqu'à la poly-adénylation, l'exportation depuis le noyau et même jusqu'au premier cycle de traduction. Tous ces aspects fonctionnels sont associés à une gamme de pressions sélectives non liées à la séquence protéique qui affecte indirectement les taux moléculaires d'évolution des protéines (Warnecke et al. 2009 Shabalina et al. 2013 Weatheritt et Babu 2013). Par exemple, un épissage correct ou un épissage alternatif est requis pour la production d'un transcrit fonctionnel. Par conséquent, les motifs d'épissage canoniques (5 & 3 & 3 sites d'épissage) ainsi que les motifs amplificateurs situés près des jonctions d'épissage sont en cours de sélection et affectent l'utilisation des codons dans les CDS voisins chez une variété d'eucaryotes (Comeron et Guthrie 2005 Parmley et al. 2007 Warnecke et Hurst 2007 Ke et al. 2008 Larracuente et al. 2008 Denisov et al. 2014 Falanga et al. 2014). De plus, la variation du nombre d'introns, de leur emplacement et/ou de leur longueur est rapportée de manière récurrente comme étant associée à des différences de contenu en GC des introns et des exons (Carels et Bernardi 2000 Wang et al. 2004 Guo et al. 2007 Zhu et al. 2009 Amit et al. 2012 Clément et al. 2015).

Alors que les génomes végétaux pauvres en GC ont tendance à afficher un faible niveau de variation entre les gènes, l'augmentation de la teneur en GC à l'échelle du génome est associée à une augmentation de la variabilité de la teneur en GC parmi les gènes au sein des génomes conduisant à une distribution bimodale de la teneur en GC de CDS dans génomes riches en GC. Au sein des génomes végétaux, la teneur en GC de la région codante varie également le long des gènes, suivant un gradient de GC décroissant de 5′𠄳′ dont la pente augmente avec la teneur en GC à l'échelle du génome (Wong et al. 2002 Serres-Giardi et al. 2012 Cl& #x000e9ment et al.2015). En effet, une partie de la variation de la teneur en GC entre les gènes pourrait s'expliquer par des variations de l'amplitude du gradient associées à la variation de la longueur des gènes (Wong et al. 2002 Glémin et al. 2014).

Récemment, deux études chez les plantes ont révélé l'existence d'une association étroite entre les modèles de variation de la teneur en GC dans les régions codantes, les introns et les taux de recombinaison (Choi et al. 2013 Hellsten et al. 2013). Cette association fournit un mécanisme potentiel pour expliquer comment l'architecture intron𠄾xon des gènes peut influencer la composition des nucléotides via la conversion génique biaisée par GC (gBGC) (Duret et Galtier 2009 Glémin et al. 2014). La gBGC est un processus associé à la recombinaison chez plusieurs eucaryotes qui favorise la transmission des allèles G et C à la méiose (Duret et Galtier 2009). Les introns pourraient contribuer à la formation de gradients de teneur en GC soit indirectement, car ils éloignent les CDS en aval des endroits où gBGC se produit, soit directement, par exemple, en perturbant le tractus de conversion. Cependant, il n'est pas clair comment gBGC peut interagir ou non avec des contraintes sélectives potentielles sur le contenu GC des exons par rapport aux introns. Dans les gènes végétaux, trois niveaux de structuration entremêlés sont décrits : 1) les différences systématiques entre les introns et les régions codantes (Goodall et Filipowicz 1989, 1991 Carle-Urioste et al. 1997), 2) les différences systématiques entre la position des codons au sein des régions codantes (Wong et al. al. 2002 Shi et al. 2006), et 3) la diminution des gradients GC de 5′ à 3′ d'amplitudes variables (Wong et al. 2002 Zhu et al. 2009 Serres-Giardi et al. 2012). En effet, les modèles complexes de variation de la teneur en GC le long des gènes des plantes ont empêché une compréhension claire des forces évolutives agissant sur elle. De plus, jusqu'à présent, ces motifs étaient généralement décrits sans tenir compte du nombre d'introns du gène ou de l'architecture précise du gène.

Pour étudier le rôle potentiel des introns dans la variation de la teneur en GC dans les gènes végétaux, nous avons réanalysé les données génomiques de Arabidopsis thaliana et du riz (Oryza sativa), deux espèces représentant chacune des génomes végétaux pauvres en GC ou riches en GC et offrant les structures géniques les mieux annotées parmi les plantes. Par rapport au génome pauvre en GC de A. thaliana, le génome du riz est caractérisé par une forte augmentation à l'échelle du génome du contenu en GC du gène (Carels et Bernardi 2000 Serres-Giardi et al. 2012). Nous nous sommes concentrés sur le lien entre la présence d'intron et les gradients de GC, en analysant les modèles de variation du contenu en GC à différentes échelles, du niveau nucléotidique à l'échelle des gènes au sein de chacun des deux génomes. Au sein des deux génomes, nous avons observé des liens étroits entre la présence d'intron et la variation du contenu en GC au niveau de la séquence qui ont été traduits à l'échelle du gène en une corrélation négative entre le nombre d'intron et le contenu en GC. Des comparaisons entre ces génomes très divergents ont révélé que la plupart des différences de contenu en GC sont concentrées dans des régions de gènes externes, en amont du premier intron ou en aval du dernier intron. En revanche, les régions centrales des gènes, entourées d'introns, sont étonnamment similaires, ce qui suggère que les introns ont un effet barrière chez les deux espèces, confinant l'augmentation de la teneur en GC du génome du riz dans les régions externes des gènes. De plus, des corrélations négatives entre les positions des codons à l'intérieur des régions codantes internes suggèrent une sélection stabilisante pour un niveau de teneur en GC similaire chez les deux espèces. Enfin, il a été démontré que l'architecture intron/exon affecte toutes les positions de codon et révèle un impact omniprésent de l'architecture intron et exon du gène sur les compositions de nucléotides, de codons et d'acides aminés.


Matériaux et méthodes

Séquences génomiques et données NGS

Pour évaluer le biais GC dans les données NGS réelles, nous avons téléchargé à partir de la base de données NCBI Sequence Read Archive [20] quatorze bibliothèques Illumina de six génomes bactériens (tableau 1), ainsi que leurs séquences génomiques de la base de données NCBI Genome. Pour étudier les impacts du biais GC sur l'assemblage du génome, nous avons simulé des bibliothèques de PE (voir ci-dessous) à partir des séquences génomiques de trois génomes bactériens et de deux génomes végétaux (tableau 2), qui ont également été téléchargées à partir du NCBI.

Quantification du biais GC

Pour explorer le biais GC dans les données NGS réelles, nous avons aligné les lectures Illumina PE sur le génome de référence par Novoalign [21], qui a été sélectionné en raison de ses bonnes performances en général [22]. Nous avons demandé à Novoalign de signaler tous les alignements d'une lecture si celle-ci a plusieurs accès à la référence. Novoalign a calculé la longueur des fragments et a rapporté la valeur moyenne, qui a ensuite été utilisée pour quantifier le biais GC. Nous avons obtenu les profondeurs de couverture à travers le génome en analysant les résultats d'alignement.

Pour étudier la relation entre le biais GC et la couverture de lecture, nous avons scanné un génome avec une fenêtre glissante de taille égale à la longueur moyenne du fragment et la taille du pas a été fixée à la moitié de la taille de la fenêtre. Dans chaque fenêtre, nous avons calculé le contenu en GC, c'est-à-dire le pourcentage de bases G et C dans la fenêtre, ainsi que la couverture moyenne en lecture. Cela a entraîné de nombreux points de données du contenu du GC et de la couverture de lecture (voir la figure 1 pour un exemple). La couverture de lecture a été normalisée à la valeur moyenne afin que les résultats ne s'adaptent pas à la quantité de données. Nous avons éliminé les points de données dont la couverture était plus de deux fois supérieure à la couverture moyenne, car ils représentaient probablement des répétitions. Nous avons ajusté les points de données restants par une ligne droite et défini la pente comme le degré de biais GC dans les données réelles.

Les ensembles de données proviennent de S. aureus USA300 (A) et S. aureus génomes de MRSA252 (B). La couverture de lecture est normalisée à la valeur moyenne, qui est représentée par une ligne pointillée horizontale. Une ligne pointillée verticale indique la teneur moyenne en GC. Les points de données sont ajustés par une ligne droite et la pente est définie comme le degré de biais GC. Les deux cas représentent respectivement un biais GC négatif et positif.

Simulation de la bibliothèque Illumina PE

Les données de séquençage sont considérées comme biaisées par GC si plus (ou moins) de lectures ont tendance à provenir d'une région avec un contenu GC plus élevé. Pour simuler des lectures PE avec un biais GC, nous avons d'abord défini la probabilité de générer un fragment d'ADN d'un certain contenu GC à partir d'un génome. La formule 1 décrit que la probabilité, P, de générer un fragment d'ADN, F, est proportionnelle à la teneur en GC du fragment d'ADN, GC(F). Plus précisément, il calcule la différence entre GC(F) et la teneur moyenne en GC, GCm, selon laquelle il fixe l'écart de la probabilité de génération par rapport à la valeur moyenne. La pente, s, est définie comme le degré de biais GC dans ce travail. La constante C est un facteur de normalisation. Cette probabilité est utilisée pour générer des lectures PE avec un biais GC linéaire de manière aléatoire. (1)

En plus du biais GC, notre simulation a pris en compte les profils d'erreur dépendant de la position et la distribution des longueurs d'insert comme dans les données NGS réelles. À partir des scores de qualité des lectures réelles d'Illumina, nous avons calculé le taux d'erreur moyen à chaque position de base des lectures, qui a ensuite été utilisé pour introduire des erreurs dans les lectures simulées. Les longueurs des inserts ont été simulées pour suivre une distribution normale avec une valeur moyenne de 180 pb et un écart type de 10 pb. Selon ces critères, nous avons simulé des lectures de PE d'une longueur de 100 pb à une couverture de 50X ou plus.

Notre simulation s'est déroulée selon les étapes suivantes : (i) collecter tous les fragments d'ADN possibles de taille 180 pb à partir du génome, c'est-à-dire qu'un fragment d'ADN commençant à chaque position de base est généré, (ii) calculer la teneur en GC pour chaque fragment d'ADN et le valeur moyenne de tous les fragments d'ADN, (iii) sélectionner au hasard une position de départ et générer une longueur de fragment d'ADN suivant une distribution normale, (iv) décider de conserver ou non le fragment d'ADN selon la probabilité calculée à partir de sa teneur en GC en utilisant la formule un, (v) répéter (iii) et (iv) jusqu'à ce que la quantité de lectures atteigne une couverture souhaitée, par exemple 50X ou 100X, (vii) extraire des paires de lectures, chacune d'une longueur de 100 pb, des deux extrémités des fragments d'ADN, (vi ) répartir les erreurs dans les deux lectures selon les profils d'erreur de manière aléatoire.

Étant donné qu'ALLPATHS-LG nécessite des lectures de paires mate pour l'assemblage, nous avons en outre simulé une bibliothèque MP sans biais GC avec une couverture d'un facteur avec une longueur d'insertion moyenne de 3,5 Ko et un écart type de 500 pb pour l'assemblage par ALLPATHS-LG.

Trouver des répétitions dans le génome

Nous avons défini les répétitions comme les séquences dupliquées dans un génome dont la longueur est supérieure à la longueur moyenne de l'insert. Nous avons utilisé PALS, un outil d'alignement local adopté par PILER [23], pour détecter des répétitions dans un génome. Par défaut, PALS signale un alignement lorsque l'identité est supérieure à 94 %.

Assemblage du génome

Dans cette étude, nous avons appliqué sept assembleurs NGS : ALLPATHS-LG [24], [25], ABySS [26], Edena [27], SOAPdenovo [28], SSAKE [29], Velvet [30], [31] et Velours-SC [14]. Velvet-SC est une extension de Velvet, conçue pour traiter les données de séquençage d'une seule cellule, ce qui est très non uniforme. SOAPdenovo est livré avec un package appelé GapCloser, qui augmente encore la complétude de l'assemblage. Cependant, les performances de GapCloser ne sont pas claires en général. Dans cette étude, nous avons utilisé SOAPdenovo sans et avec GapCloser (noté SOAP+GC), et avons indiqué que nous utilisions huit assembleurs.

Parce que l'assemblage peut être grandement affecté par les paramètres, nous avons optimisé l'assemblage en scannant les valeurs possibles pour les paramètres cruciaux. Quatre assembleurs, ABySS, SOAPdenovo, Velvet et Velvet-SC adoptent l'approche du graphe de de-Bruijn, qui définit un paramètre crucial, k-mer, lors de l'assemblage. Pour les quatre assembleurs, nous avons parcouru les valeurs k-mer possibles pour la plus grande longueur N50 de contigs. Edena et SSAKE permettent aux utilisateurs de définir le chevauchement minimum entre les lectures lors de l'assemblage. Encore une fois, nous avons essayé divers chevauchements minimaux pour obtenir la longueur de contig N50 optimisée. Pour les autres assembleurs, nous avons utilisé les paramètres par défaut. Notez que nous avons éliminé les contigs de moins de 100 pb de tous les assemblages pour une comparaison équitable.

Mauvais assemblage

Nous avons appliqué GAGE ​​[32] pour détecter les erreurs dans les contigs assemblés. GAGE aligne les contigs sur le génome de référence à l'aide de NUCMER [33], qui génère plusieurs types d'incohérences qui sont probablement des erreurs d'assemblage. Ceux-ci incluent les régions des INDEL, l'effondrement des répétitions en tandem, les séquences de référence non alignées, la relocalisation, l'inversion, les translocations et les SNP. Nous avons analysé ces informations à partir des sorties intermédiaires de GAGE, « out.rdiff », « out.1delta », « out.mdelta » et « out.snps ». Les données acquises ont ensuite été tracées à l'aide du package R.


Discussion

Nous avons montré que la corrélation de X = GCi − GC12 et oui = GC4 − GCi à travers différents isochores est cohérent avec le modèle TE.Nous avons également montré que ce modèle prédit correctement que les petits introns ont une différence minimale entre GC4 et GCi et que le degré de différence entre GC4 et GCi devrait être atténué lorsque l'on examine uniquement les extrémités des introns. Bref, nous n'avons pas réussi à falsifier le modèle TE.

De plus, nous pouvons probablement rejeter un modèle sélectionniste qui suppose que GCi est l'optimum sélectif. Alors que nous nous efforçons d'imaginer des explications sélectives pour les autres modèles que nous avons décrits, nous hésitons à rejeter purement et simplement un modèle sélectionniste. Ce que nous pouvons conclure en toute sécurité, c'est qu'il peut exister un modèle mutationniste alternatif viable pour tenir compte des modèles de covariance de GC4 et GCi. L'affirmation selon laquelle il faut évoquer la sélection pour expliquer GC4 > GCi parce que les enzymes de réparation ne peuvent pas agir différemment dans les introns et dans les exons semble donc peu sûre, car ce rejet ne tient pas compte des insertions TE.

Nos résultats, cependant, en disent relativement peu sur l'évolution des isochores. Il est important de noter que nous n'avons pas expliqué pourquoi les modèles de mutations/substitutions ponctuelles varient au sein du génome. Nous n'avons donc pas pris en compte la forte corrélation entre GC4 et GCi. Tout ce que nous avons fait est de fournir des preuves que la pente de la régression n'est pas égale à 1 en raison de l'impact des TE sur le contenu intronique local du GC.

Peut-être encore plus crucial, nous n'avons pas rendu compte des causes sous-jacentes des modèles de distribution TE. Le fait que les jeunes Alu (<4,5% de substitution) soient répartis uniformément dans tous les isochores ( Smit 1999 ) suggère que les Alu sont insérés de manière aléatoire. Pourquoi, alors, les anciens Alu montrent-ils le biais classique vers les isochores riches en GC ? Comme les jeunes Alu sont figés, cela ne peut être dû à une sélection contre eux une fois qu'ils se sont insérés. Au lieu de cela, le modèle semble le plus parcimonieusement expliqué par différents taux de décomposition dans différentes régions génomiques, pour lesquelles d'autres preuves sont disponibles ( Casane et al. 1997 ). Que cela soit dû à des différences dans la force de la sélection stabilisante ou à des différences dans le taux de mutation n'a pas été résolu. Pour cette raison, en outre, notre analyse ne contribue pas au débat sélectionniste contre neutraliste sur le maintien des isochores.

La question de savoir si les isochores sont le résultat d'une sélection ou d'une mutation reste donc ouverte. Nos résultats ont néanmoins mis en évidence que s'il y a sélection, cette sélection se produit au niveau génomique (pas au niveau de l'ARN ou de la protéine), à ​​la fois dans les régions codantes et non codantes. Par conséquent, tout modèle de sélection sur les isochores devrait prendre en compte les ET.

Dan Graur, rédacteur en chef

Abréviations : GC4, teneur en GC aux sites quadruple redondants dans les exons GC12, teneur en GC aux deux premières positions dans les codons GCi, teneur en GC des introns TE, élément transposable.

Mots-clés : Contenu GC isochores éléments transposables introns

Adresse pour la correspondance et les réimpressions : Laurence D. Hurst, Département de biologie et de biochimie, Université de Bath, Claverton Down, Bath BA2 7AY, Royaume-Uni. [email protected]

Fig. 1.—La relation entre GC4 et GCi pour 1 396 gènes humains en utilisant la régression orthogonale. GC4 = -0,427 + 2,118GCi R 2 = 0.586, P < 0,0001

Fig. 1.—La relation entre GC4 et GCi pour 1 396 gènes humains en utilisant la régression orthogonale. GC4 = -0,427 + 2,118GCi R 2 = 0.586, P < 0,0001

Fig. 2.-La relation entre X = GCi − GC12 et oui = GC4 − GCi, en utilisant la régression orthogonale : oui = 0.167 + 3.399X R 2 = 0.046, P < 0,0001

Fig. 2.-La relation entre X = GCi − GC12 et oui = GC4 − GCi, en utilisant la régression orthogonale : oui = 0.167 + 3.399X R 2 = 0.046, P < 0,0001

Fig. 3.—La relation entre log (taille moyenne des introns) et GC4 - GCi pour les gènes riches en GC. Notez que les petits introns ont moins de divergence entre GC4 et GCi : Oui = −0.26 + 0.085X, R 2 = 0.26, P < 0,0001, N = 452

Fig. 3.—La relation entre log (taille moyenne des introns) et GC4 - GCi pour les gènes riches en GC. Notez que les petits introns ont moins de divergence entre GC4 et GCi : Oui = −0.26 + 0.085X, R 2 = 0.26, P < 0,0001, N = 452

Fig. 4.-La différence entre GC4 et GCi dans les trois types d'isochores pour les extrémités des introns et l'intérieur des introns. A noter que l'écart entre GC4 et GCi est très réduit aux extrémités. Les extrémités sont les premiers et derniers 50 pb d'introns à l'exception des signaux pour le donneur d'épissage (positions +1 à +6) et l'accepteur d'épissage (positions -20 à -1 par rapport à la jonction intron/exon). Le nombre moyen d'introns dans l'ensemble de données (à l'exclusion des gènes avec un seul intron) est de 7,6 et la longueur moyenne des extrémités est de 551 nt

Fig. 4.-La différence entre GC4 et GCi dans les trois types d'isochores pour les extrémités des introns et l'intérieur des introns. A noter que l'écart entre GC4 et GCi est très réduit aux extrémités. Les extrémités sont les premiers et derniers 50 pb d'introns à l'exception des signaux pour le donneur d'épissage (positions +1 à +6) et l'accepteur d'épissage (positions -20 à -1 par rapport à la jonction intron/exon). Le nombre moyen d'introns dans l'ensemble de données (à l'exclusion des gènes avec un seul intron) est de 7,6 et la longueur moyenne des extrémités est de 551 nt


Résultats

Changements systématiques dans les GC3 en Saccharomyces Espèces et entre C. albicans et C. dubliniensis

Saccharomyces paradoxus, S. mikatae, et S. bayanus sont les plus proches parents connus de S. cerevisiae (Kurtzman et Robnett 2003). En termes de niveaux de divergence de séquences nucléotidiques synonymes (Ks) ou leurs niveaux de divergence de séquence d'acides aminés, le Saccharomyces les espèces sont à peu près aussi différentes les unes des autres que les humains le sont des rongeurs ( Kellis et al. 2003 Dujon 2006). Le 4 Saccharomyces les espèces ont toutes 16 chromosomes et ceux-ci sont colinéaires à l'exception de 9 translocations réciproques et 20 inversions entre eux ( Fischer et al. 2000 Kellis et al. 2003).

Nous avons identifié des gènes orthologues entre chacun des autres Saccharomyces espèces et S. cerevisiae, ont calculé les GC3 pour une moyenne mobile de 15 gènes adjacents dans chaque espèce et ont tracé ces valeurs en fonction de l'ordre chromosomique des gènes dans S. cerevisiae. Pour S. cerevisiae, ceci est identique à l'approche précédemment utilisée par Sharp et Lloyd (1993) et Bradnam et al. (1999), sauf que nous n'avons pas pondéré les gènes en fonction de leur longueur. En général, les emplacements des pics et des creux des GC3 chez les quatre espèces coïncident ( fig. 1), de sorte que, par exemple, la région la plus riche en G + C dans chacun des quatre génomes se trouve sur le bras droit du chromosome III . Il existe cependant des différences remarquablement cohérentes entre les espèces. Saccharomyces bayanus a les valeurs GC3s les plus élevées et S. mikatae a les valeurs les plus faibles dans tout le génome. Les différences interspécifiques sont les plus importantes dans les zones autour des pics de GC3, alors que dans les creux, toutes les espèces ont des valeurs de GC3 plus similaires. Lorsque les valeurs GC3s pour les gènes individuels sont comparées entre S. bayanus et S. cerevisiae, les valeurs sont considérées comme fortement corrélées (r = 0,86), mais la pente de la droite de meilleur ajustement est significativement différente de 1 (tableau 1 fig. S1 supplémentaire, matériel supplémentaire en ligne). Une pente différente de 1 indique que la différence de composition de base entre les espèces n'est pas uniforme pour tous les gènes, mais varie plutôt systématiquement, avec une plus grande divergence dans les gènes riches en GC que dans les gènes pauvres en GC. Les gènes les plus riches en GC S. bayanus ont des GC3 d'environ 90 %, alors que leur S. cerevisiae les orthologues ont des GC3 d'environ 67% seulement (fig. S1 supplémentaire, matériel supplémentaire en ligne). De même, les pentes des droites de régression les mieux ajustées pour toutes les autres paires de Saccharomyces espèces sont significativement différentes de 1 (tableau 1), indiquant des modèles de divergence systématiques et statistiquement significatifs.

Les modèles de variation des GC3 dans Candidose espèces n'ont pas été examinées auparavant. Nous avons utilisé la même approche de la fenêtre coulissante et avons constaté que bien que le C. albicans le génome est globalement plus pauvre en GC que le S. cerevisiae génome (valeurs médianes de GC3s 26% et 36%, respectivement), le C. albicans le génome contient un modèle similaire de régions alternées avec des contenus différents en GC3 ( fig. 2). Les creux de cette espèce atteignent 11 % de GC3, alors que les pics « riches en GC » ne sont généralement qu'environ 35 % de GC3, sauf près des télomères où les GC3 atteignent 40 à 45 %. L'élévation des GC3 à proximité des télomères n'est pas limitée aux familles de gènes subtélomériques (qui sont moins étendues que dans S. cerevisiae van het Hoog et al. 2007) mais s'étend bien dans les régions chromosomiques qui contiennent des gènes à copie unique avec une synténie conservée dans d'autres Candidose espèce. Par exemple, près de l'extrémité gauche de C. albicans chromosome 1, le premier gène avec GC3s <35% est orf19.6090 qui est à 28 kb (16 gènes annotés) du début de la séquence chromosomique.

L'étendue de la divergence de séquence entre C. albicans et C. dubliniensis est à peu près le même que chez les Saccharomyces espèces ( Jackson et al. 2009). Pour comparer leurs profils GC3, nous avons trié les C. dubliniensis gènes dans le même ordre chromosomique que leur C. albicans orthologues puis appliqué une fenêtre glissante de 15 gènes ( fig. 2). Les pics et les creux des deux Candidose espèces sont à des emplacements chromosomiques similaires, mais les creux dans C. dubliniensis sont encore plus pauvres en GC (atteignant un minimum de 6% de GC3).

Variation des GC3 parmi les espèces dans le Candidose Clade

Nous avons examiné l'évolution du contenu en G + C de la levure et des structures isochores à une échelle évolutive plus large en utilisant les séquences du génome de neuf espèces dans le "Candidose clade »—le clade d'espèces qui traduisent le codon CTG par sérine au lieu de leucine ( Butler et al. 2009). Les valeurs GC3s de ces Candidose les espèces varient assez largement. L'espèce la plus pauvre en GC est C. tropicalis avec un GC3 médian de 22%, et le plus riche en GC est C. lusitaniae avec une médiane de 49 % ( fig. 3). Du point de vue phylogénétique ( Butler et al. 2009), les espèces qui sont plus étroitement apparentées les unes aux autres ont tendance à avoir des teneurs en G + C plus similaires. Il existe un clade pauvre en GC (C. tropicalis, C. albicans, et C. dubliniensis), un clade intermédiaire (C. parapsilose et Lodderomyces elongisporus), et un clade riche en GC (C. lusitaniae, C. guilliermondii, et P. stipitis). Debaryomyces hansenii est la seule exception à cette tendance : ses valeurs GC3s sont intermédiaires mais il se regroupe phylogénétiquement au sein du clade à GC élevé, ce qui suggère que D. hansenii peut être en baisse dans la teneur en G + C.

Espèce au centre de la distribution de la figure 3, comme L. elongisporus, montrent une variance relativement faible des valeurs GC3s entre les gènes. En revanche, les espèces aux extrémités montrent à la fois une plus grande variance et une distribution asymétrique, avec une longue queue de gènes riches en GC3s dans C. lusitaniae et de longues queues de gènes pauvres en GC3s dans C. tropicalis et C. dubliniensis. Tracés à fenêtre coulissante du contenu des GC3 pour les particuliers Candidose les espèces de clade sont incluses dans la figure supplémentaire S2 (Matériel supplémentaire en ligne). Les différences entre les espèces dans la quantité de variance GC3s sont illustrées par la comparaison de la parcelle pour L. elongisporus, qui est presque plat, à celui pour C. tropicalis, qui contient des creux profonds ( fig. supplémentaire S2I et J, Matériel supplémentaire en ligne ). Nous ne connaissons pas la teneur en G + C de l'ancêtre commun du Candidose clade, mais il est clair que la teneur en G + C d'au moins certains Candidose les lignées doivent avoir considérablement changé depuis que cet ancêtre existe et que le contenu en G + C des groupes de gènes voisins sur le chromosome a tendance à changer de concert.

GC-Pauvres creux et emplacements des centromères

Les profils chromosomiques GC3s de certains des plus riches en GC Candidose les espèces de clade sont très distinctives. Le modèle sur les plus gros chromosomes de C. lusitaniae est particulièrement intéressant ( fig. 4). GC3s est relativement faible au niveau des télomères (∼45%), augmente progressivement vers le centre des chromosomes atteignant des pics de ∼70%, puis plonge jusqu'à un creux étroit de ∼40%. Les huit chromosomes de cette espèce présentent des schémas similaires, avec un creux évident à faible teneur en GC sur chaque chromosome, mais pour certains chromosomes, le creux est proche d'une extrémité (chromosomes 2, 4 et 8) et la région télomérique correspondante n'est pas aussi GC pauvre comme sur les autres chromosomes. Pichia stipite montre un modèle similaire d'un creux profond pauvre en GC par chromosome ( fig. 5), mais cette espèce ne montre pas le même modèle de teneur élevée en G + C de chaque côté du creux qui a été vu dans C. lusitaniae.

Parce qu'il y a un creux frappant par chromosome dans les deux C. lusitaniae et P. stipitis, nous avons émis l'hypothèse que ces creux pourraient marquer l'emplacement des centromères. Le centromère est la seule caractéristique génomique connue qui se produit exactement une fois par chromosome, il n'y a donc pas d'autres causes candidates évidentes des creux. Notre approche utilise une fenêtre glissante (pour réduire l'erreur d'échantillonnage), de sorte que chaque creux dans C. lusitaniae et P. stipitis ne peut pas être mappé directement à une seule région intergénique spécifique, mais plutôt à une fenêtre de 15 gènes consécutifs. Cependant, pour chaque creux, nous avons pu identifier une région intergénique inhabituellement grande dans la fenêtre avec les GC3 les plus bas, et nous les proposons comme emplacements candidats des centromères (tableau 2). Les emplacements des centromères n'ont été déterminés expérimentalement chez aucune espèce de la Candidose clade ( fig. 3) sauf C. albicans et C. dubliniensis ( Sanyal et al. 2004 Padmanabhan et al. 2008). Même si les centromères de C. albicans et C. dubliniensis ne se situent pas dans des creux pauvres en GC ( fig. 2), nous suggérons néanmoins que les centromères de C. lusitaniae et P. stipitis ont été soumis à un processus mutationnel qui a formé les creux en rendant l'ADN dans la région autour du centromère devenu pauvre en GC (voir Discussion).

Emplacements des fenêtres GC-Poorest 15-Gene dans Pichia stipitis et Candida lusitaniae et les tailles des plus grandes régions intergéniques en leur sein

Chromosome Fenêtre a Le plus long intergénique b
GC3 (%) Démarrer pb c Fin pb c Nadir d De À Longueur
P. stipitis chromosome 1 35.4 2,230,753 2,332,231 PICST_53251 PICST_28862 PICST_53466 14,594
P. stipitis chromosome 2 35.4 1,661,496 1,736,483 PICST_30000 PICST_70083 PICST_41273 38,214
P. stipitis chromosome 3 34.9 1,399,674 1,477,779 PICST_35641 PICST_30981 PICST_30986 24,208
P. stipitis chromosome 4 37.3 1,011,423 1,076,401 PICST_58121 PICST_58121 PICST_31542 26,877
P. stipitis chromosome 5 33.4 624,197 682,494 PICST_46516 PICST_32086 PICST_46124 17,264
P. stipitis chromosome 6 36.8 856,936 916,894 PICST_32891 PICST_78946 PICST_32901 30,150
P. stipitis chromosome 7 36.9 235,679 324,031 PICST_33311 PICST_14352 PICST_73528 16,278
P. stipitis chromosome 8 37.0 265,747 351,425 PICST_50504 PICST_91563 PICST_33721 36,077
C. lusitaniae chromosome 1 38.3 1,045,088 1,078,544 CLUG_00526 CLUG_00522 CLUG_00523 4,853
C. lusitaniae chromosome 2 40.5 1,791,934 1,818,051 CLUG_02107 CLUG_02104 CLUG_02105 3,283
C. lusitaniae chromosome 3 38.6 1,146,534 1,178,953 CLUG_02875 CLUG_02872 CLUG_02873 4,375
C. lusitaniae chromosome 4 39.9 121,683 157,316 CLUG_03260 CLUG_03262 CLUG_03263 4,681
C. lusitaniae chromosome 5 44.0 270,454 316,945 CLUG_04242 CLUG_04241 CLUG_04242 3,924
C. lusitaniae chromosome 6 41.3 260,220 298,959 CLUG_04968 CLUG_04966 CLUG_04967 4,919
C. lusitaniae chromosome 7 39.1 358,422 394,057 CLUG_05422 CLUG_05420 CLUG_05421 3,248
C. lusitaniae chromosome 8 38.2 147,355 176,623 CLUG_05668 CLUG_05669 CLUG_05670 5,773
Chromosome Fenêtre a Le plus long intergénique b
GC3 (%) Démarrer pb c Fin pb c Nadir d De À Longueur
P. stipitis chromosome 1 35.4 2,230,753 2,332,231 PICST_53251 PICST_28862 PICST_53466 14,594
P. stipitis chromosome 2 35.4 1,661,496 1,736,483 PICST_30000 PICST_70083 PICST_41273 38,214
P. stipitis chromosome 3 34.9 1,399,674 1,477,779 PICST_35641 PICST_30981 PICST_30986 24,208
P. stipitis chromosome 4 37.3 1,011,423 1,076,401 PICST_58121 PICST_58121 PICST_31542 26,877
P. stipitis chromosome 5 33.4 624,197 682,494 PICST_46516 PICST_32086 PICST_46124 17,264
P. stipitis chromosome 6 36.8 856,936 916,894 PICST_32891 PICST_78946 PICST_32901 30,150
P. stipitis chromosome 7 36.9 235,679 324,031 PICST_33311 PICST_14352 PICST_73528 16,278
P. stipitis chromosome 8 37.0 265,747 351,425 PICST_50504 PICST_91563 PICST_33721 36,077
C. lusitaniae chromosome 1 38.3 1,045,088 1,078,544 CLUG_00526 CLUG_00522 CLUG_00523 4,853
C. lusitaniae chromosome 2 40.5 1,791,934 1,818,051 CLUG_02107 CLUG_02104 CLUG_02105 3,283
C. lusitaniae chromosome 3 38.6 1,146,534 1,178,953 CLUG_02875 CLUG_02872 CLUG_02873 4,375
C. lusitaniae chromosome 4 39.9 121,683 157,316 CLUG_03260 CLUG_03262 CLUG_03263 4,681
C. lusitaniae chromosome 5 44.0 270,454 316,945 CLUG_04242 CLUG_04241 CLUG_04242 3,924
C. lusitaniae chromosome 6 41.3 260,220 298,959 CLUG_04968 CLUG_04966 CLUG_04967 4,919
C. lusitaniae chromosome 7 39.1 358,422 394,057 CLUG_05422 CLUG_05420 CLUG_05421 3,248
C. lusitaniae chromosome 8 38.2 147,355 176,623 CLUG_05668 CLUG_05669 CLUG_05670 5,773

Fenêtre de quinze gènes avec la plus faible valeur moyenne de GC3 sur le chromosome. Seuls les gènes avec C. albicans les orthologues sont pris en compte dans ces colonnes.

Région intergénique la plus longue dans la fenêtre de 15 gènes. Tous les gènes annotés sont pris en compte dans ces colonnes.

Coordonnées de début et de fin des gènes aux extrémités de la fenêtre.

Gène avec la valeur de GC3 individuelle la plus basse dans la fenêtre.

Emplacements des fenêtres GC-Poorest 15-Gene dans Pichia stipitis et Candida lusitaniae et les tailles des plus grandes régions intergéniques en leur sein

Chromosome Fenêtre a Le plus long intergénique b
GC3 (%) Démarrer pb c Fin pb c Nadir d De À Longueur
P. stipitis chromosome 1 35.4 2,230,753 2,332,231 PICST_53251 PICST_28862 PICST_53466 14,594
P. stipitis chromosome 2 35.4 1,661,496 1,736,483 PICST_30000 PICST_70083 PICST_41273 38,214
P. stipitis chromosome 3 34.9 1,399,674 1,477,779 PICST_35641 PICST_30981 PICST_30986 24,208
P. stipitis chromosome 4 37.3 1,011,423 1,076,401 PICST_58121 PICST_58121 PICST_31542 26,877
P. stipitis chromosome 5 33.4 624,197 682,494 PICST_46516 PICST_32086 PICST_46124 17,264
P. stipitis chromosome 6 36.8 856,936 916,894 PICST_32891 PICST_78946 PICST_32901 30,150
P. stipitis chromosome 7 36.9 235,679 324,031 PICST_33311 PICST_14352 PICST_73528 16,278
P. stipitis chromosome 8 37.0 265,747 351,425 PICST_50504 PICST_91563 PICST_33721 36,077
C. lusitaniae chromosome 1 38.3 1,045,088 1,078,544 CLUG_00526 CLUG_00522 CLUG_00523 4,853
C. lusitaniae chromosome 2 40.5 1,791,934 1,818,051 CLUG_02107 CLUG_02104 CLUG_02105 3,283
C. lusitaniae chromosome 3 38.6 1,146,534 1,178,953 CLUG_02875 CLUG_02872 CLUG_02873 4,375
C. lusitaniae chromosome 4 39.9 121,683 157,316 CLUG_03260 CLUG_03262 CLUG_03263 4,681
C. lusitaniae chromosome 5 44.0 270,454 316,945 CLUG_04242 CLUG_04241 CLUG_04242 3,924
C. lusitaniae chromosome 6 41.3 260,220 298,959 CLUG_04968 CLUG_04966 CLUG_04967 4,919
C. lusitaniae chromosome 7 39.1 358,422 394,057 CLUG_05422 CLUG_05420 CLUG_05421 3,248
C. lusitaniae chromosome 8 38.2 147,355 176,623 CLUG_05668 CLUG_05669 CLUG_05670 5,773
Chromosome Fenêtre a Le plus long intergénique b
GC3 (%) Démarrer pb c Fin pb c Nadir d De À Longueur
P. stipitis chromosome 1 35.4 2,230,753 2,332,231 PICST_53251 PICST_28862 PICST_53466 14,594
P. stipitis chromosome 2 35.4 1,661,496 1,736,483 PICST_30000 PICST_70083 PICST_41273 38,214
P. stipitis chromosome 3 34.9 1,399,674 1,477,779 PICST_35641 PICST_30981 PICST_30986 24,208
P. stipitis chromosome 4 37.3 1,011,423 1,076,401 PICST_58121 PICST_58121 PICST_31542 26,877
P. stipitis chromosome 5 33.4 624,197 682,494 PICST_46516 PICST_32086 PICST_46124 17,264
P. stipitis chromosome 6 36.8 856,936 916,894 PICST_32891 PICST_78946 PICST_32901 30,150
P. stipitis chromosome 7 36.9 235,679 324,031 PICST_33311 PICST_14352 PICST_73528 16,278
P. stipitis chromosome 8 37.0 265,747 351,425 PICST_50504 PICST_91563 PICST_33721 36,077
C. lusitaniae chromosome 1 38.3 1,045,088 1,078,544 CLUG_00526 CLUG_00522 CLUG_00523 4,853
C. lusitaniae chromosome 2 40.5 1,791,934 1,818,051 CLUG_02107 CLUG_02104 CLUG_02105 3,283
C. lusitaniae chromosome 3 38.6 1,146,534 1,178,953 CLUG_02875 CLUG_02872 CLUG_02873 4,375
C. lusitaniae chromosome 4 39.9 121,683 157,316 CLUG_03260 CLUG_03262 CLUG_03263 4,681
C. lusitaniae chromosome 5 44.0 270,454 316,945 CLUG_04242 CLUG_04241 CLUG_04242 3,924
C. lusitaniae chromosome 6 41.3 260,220 298,959 CLUG_04968 CLUG_04966 CLUG_04967 4,919
C. lusitaniae chromosome 7 39.1 358,422 394,057 CLUG_05422 CLUG_05420 CLUG_05421 3,248
C. lusitaniae chromosome 8 38.2 147,355 176,623 CLUG_05668 CLUG_05669 CLUG_05670 5,773

Fenêtre de quinze gènes avec la plus faible valeur moyenne de GC3 sur le chromosome. Seuls les gènes avec C. albicans les orthologues sont pris en compte dans ces colonnes.

Région intergénique la plus longue dans la fenêtre de 15 gènes. Tous les gènes annotés sont pris en compte dans ces colonnes.

Coordonnées de début et de fin des gènes aux extrémités de la fenêtre.

Gène avec la valeur de GC3 individuelle la plus basse dans la fenêtre.

Analyse de la Y. lipolytica Le génome soutient l'hypothèse selon laquelle les creux pauvres en GC3 peuvent, pour certaines espèces, indiquer l'emplacement des centromères. Yarrowia lipolytica est un groupe externe à la fois Candidose et Saccharomyces clades ( Dujon et al. 2004 Butler et al. 2009) et est l'une des rares espèces de levures dans lesquelles des centromères ont été identifiés expérimentalement ( Vernis et al. 1997, 2001). Nous constatons que les profils GC3s de Y. lipolytica les chromosomes contiennent chacun un creux distinct pauvre en GC et que ceux-ci coïncident avec les emplacements des cinq centromères déterminés expérimentalement sur les chromosomes A–E ( fig. 6). Le chromosome F est le seul Y. lipolytica chromosome pour lequel aucun centromère n'a été cloné ( Vernis et al. 2001). Un emplacement de centromère pour le chromosome F a été prédit de manière bioinformatique lorsque le génome a été séquencé ( Dujon et al. 2004), mais cette prédiction ne coïncide pas avec l'emplacement du creux pauvre en GC. Nous suggérons que l'emplacement prédit par Dujon et al. (2004) est incorrect et que le centromère du chromosome F se trouve au fond du creux adjacent ( fig. 6).

profils GC3s de Yarrowia lipolytica chromosomiques. Les points marquent les positions des centromères connus sur les chromosomes A–E ( Vernis et al. 2001). Sur le chromosome F, la flèche marque la position du centromère proposée par Dujon et al. (2004), et le cercle marque l'emplacement suggéré par notre analyse (près du gène YALI0F14619g).

profils GC3s de Yarrowia lipolytica chromosomiques. Les points marquent les positions des centromères connus sur les chromosomes A–E ( Vernis et al. 2001). Sur le chromosome F, la flèche marque la position du centromère proposée par Dujon et al. (2004), et le cercle marque l'emplacement suggéré par notre analyse (près du gène YALI0F14619g).

Emplacements des rétroéléments et des centromères

Dans P. stipitis, Jeffries et al. (2007) ont noté que toutes les copies du rétrotransposon de type Ty5 Tps5 se sont produites en grappes et qu'il y a une grappe sur chaque chromosome. Ces clusters sont facilement visualisés dans les tracés matriciels et contiennent généralement un mélange d'éléments intacts, d'éléments tronqués et de longues répétitions terminales en solo (fig. supplémentaire S3A, matériel supplémentaire en ligne). Nous constatons que les creux pauvres en GC dans P. stipitis coïncident avec ces amas de rétrotransposons ( fig. 5). Les cadres de lecture ouverts au sein des éléments Tps5 ne sont pas la cause des creux de GC pauvres que nous observons car notre analyse GC3s a ignoré tous les rétroéléments. Plusieurs sous-familles d'éléments Tps5 existent, mais ils sont tous structurellement les plus similaires à Tdh5 de D. hansenii et Tca5 de C. albicans ( Plant et al. 2000 Neuveglise et al. 2002). Les éléments Tdh5 de D. hansenii forment également un groupe par chromosome (fig. supplémentaire S3B, matériel supplémentaire en ligne), nous suggérons donc qu'il s'agit d'emplacements possibles de centromères chez cette espèce. En comparant ces clusters Tdh5 aux tracés de profil GC3s pour D. hansenii (fig. S4 supplémentaire, matériel supplémentaire en ligne) montre que bien que tous soient situés dans ou à proximité de creux locaux pauvres en GC, les creux ne se distinguent pas et ne sont souvent pas les plus profonds de leur chromosome. Chez les espèces plus éloignées C. albicans, il n'y a que deux copies de l'élément Tca5 dans le génome séquencé (souche SC5314), et celles-ci ne sont proches des emplacements connus d'aucun de ses huit centromères. Bien que nous émettions l'hypothèse que les clusters Tps5/Tdh5 dans P. stipitis et D. hansenii sont associés aux centromères, nous ne suggérons pas que la séquence du rétrotransposon elle-même ait un quelconque rôle dans la fonction des centromères. Nous suggérons plutôt que l'association est causée par l'intégration préférentielle des rétrotransposons dans la chromatine centromérique dans P. stipitis et D. hansenii et que cette association est récente, car elle ne se produit que chez ces deux espèces étroitement apparentées.

En utilisant le Candida Gene Order Browser ( Fitzpatrick et al. 2010), nous avons constaté qu'il y a une conservation partielle de la synténie, à la fois parmi certains des emplacements de centromères que nous avons proposés dans P. stipitis, D. hansenii, et C. lusitaniae et entre ces centromères putatifs et certains des centromères connus de C. albicans et C. dubliniensis. Par exemple, neuf gènes proches du centromère connu de C. albicans le chromosome 5 a des orthologues dans la fenêtre la plus pauvre en GC sur P. stipitis chromosome 5, et cette fenêtre contient également un cluster Tps5 ( fig. 7). Quatre de ces gènes ont également des orthologues dans la fenêtre la plus pauvre en GC sur C. lusitaniae chromosome 3, et quatre autres gènes à proximité C. albicans CEN5 ont des orthologues situés à proximité du cluster Tdh5 sur D. hansenii chromosome D. La conservation de l'ordre des gènes dans ces régions n'est pas parfaite, mais on sait que de petites inversions brouillent fréquemment l'ordre local des gènes dans Candidose espèces ( Seoighe et al. 2000). Au total, nous avons trouvé des relations de synténie impliquant 4 des 8 C. albicans/C. dubliniensis centromères, fournissant des connexions aux creux pauvres en GC ou aux amas de rétrotransposons sur 4 P. stipitis chromosomes, 2 D. hansenii chromosomes, et 2 C. lusitaniae chromosomes ( fig. 7 et fig. supplémentaire S5 , Matériel supplémentaire en ligne). Ces observations soutiennent l'hypothèse selon laquelle les creux pauvres en GC marquent les centromères chez certaines espèces. Cependant, ces quatre exemples étaient les seuls que nous avons pu trouver les autres creux dans P. stipitis et C. lusitaniae ne se trouvent pas dans des régions de conservation de l'ordre des gènes entre ces deux espèces ou avec C. albicans/C. dubliniensis centromères.

Conservation partielle de la synténie entre CEN5 de Candida albicans et C. dubliniensis et les centromères proposés dans Pichia stipite, C. lusitaniae, et Debaryomyces hansenii. Les lignes verticales indiquent les gènes orthologues. Les ovales gris montrent la fenêtre de 15 gènes la plus pauvre en GC dans P. stipitis, D. hansenii, et C. lusitaniaei, et le nom du gène avec la valeur individuelle de GC3s la plus faible dans cette fenêtre est entouré d'une case en gras (certains gènes aux extrémités des fenêtres ne sont pas affichés).

Conservation partielle de la synténie entre CEN5 de Candida albicans et C. dubliniensis et les centromères proposés dans Pichia stipite, C. lusitaniae, et Debaryomyces hansenii. Les lignes verticales indiquent les gènes orthologues. Les ovales gris montrent la fenêtre de 15 gènes la plus pauvre en GC dans P. stipitis, D. hansenii, et C. lusitaniaei, et le nom du gène avec la valeur individuelle de GC3s la plus faible dans cette fenêtre est entouré d'une case en gras (certains gènes aux extrémités des fenêtres ne sont pas affichés).

Nous avons également examiné le modèle de variation du contenu intergénique en G + C (fig. supplémentaire S6, matériel supplémentaire en ligne), par opposition aux GC3 dans les gènes. À la fois C. lusitaniae et P. stipitis, le G + C intergénique varie dans une plage beaucoup plus petite (environ 36 à 44 % G + C) que celle observée dans les GC3. Une approche par fenêtre glissante montre que dans C. lusitaniae, les centromères putatifs (régions intergéniques les plus longues du tableau 2) sont situés dans des creux locaux de régions intergéniques pauvres en G + C, mais ces creux sont beaucoup moins spectaculaires que ceux observés pour les GC3. Les centromères putatifs de C. lusitaniae sont également situés dans certains des espaceurs intergéniques les plus pauvres en G + C de son génome (fig. supplémentaire S6E, matériel supplémentaire en ligne). Pichia stipite ne montre pas la même tendance, mais la teneur en G + C de ses régions intergéniques putativement centromériques est affectée par la présence des puces Tps5.


Matériaux et méthodes

Alignements multiples et modèles de substitution

Nous avons calculé les modèles de substitution dans les lignées humaines et murines en utilisant des alignements triples à l'échelle du génome comme suit. Nous avons divisé tous les autosomes humains et de souris en fenêtres non chevauchantes de 1 Mbp. Nous avons récupéré les alignements multiples d'amniotes Pecan 10 disponibles dans la base de données Ensembl (version 56) correspondant à chaque fenêtre et les avons restreints à l'analyse des espèces suivantes : humain, chimpanzé et macaque pour l'analyse de la lignée humaine, souris, rat, et humain pour l'analyse de la lignée de souris. Pour les deux analyses, nous avons masqué tous les exons de nos alignements en utilisant l'annotation de la base de données Ensembl (version 56, version du génome de la souris mm9, version du génome humain hg19). Nous n'avons pas masqué les éléments répétés de nos alignements.

Nous avons déduit les taux de substitution pour chaque fenêtre comme suit. Nous avons utilisé une méthode basée sur le maximum de vraisemblance (Arndt et al. 2003 Arndt et Hwa 2005 Duret et Arndt 2008), qui ne suppose pas que le processus de substitution est réversible dans le temps, ni que la composition de la séquence a encore atteint l'équilibre. Il prend également en compte le fait que la cytosine méthylée d'un dinucléotide CpG est hypermutable : les mutations C→T et G𡤪 surviennent environ dix fois plus fréquemment dans les CpG que dans les non-CpG (Bird 1978 Giannelli et al. 1999). La méthode que nous avons utilisée ajoute un paramètre de taux supplémentaire pour représenter ce processus de substitution CpG. Nous avons supposé que les taux complémentaires étaient égaux (A→G = T𡤬 = AT→GC) et calculé 7 taux de substitution : 2 taux de transition (AT→GC, GC𡤪T), 4 taux de transversion (AT𡤬G, AT→TA , GC→TA, GC𡤬G) et un taux CpG (CpG→TpG/CpA). Les taux de substitution AT→GC et AT𡤬G ont été regroupés en taux de substitution faible (W) → fort (S). Les taux de substitution GC𡤪T et GC→TA ont été regroupés en taux de substitution S→W. Un schéma de substitution comprend tous les taux de substitution. Nous avons calculé pour chaque modèle de substitution une teneur en GC d'équilibre ou une teneur en GC future (désignée plus tard par GC*), qui est la teneur en GC finale attendue si la séquence évolue avec un modèle de substitution constant dans le temps. Il peut être considéré comme la valeur récapitulative du modèle de substitution.

Nous avons calculé les caractéristiques génomiques suivantes dans chaque fenêtre : contenu GC, la distance au télomère, le rapport de cotes des dinucléotides CpG (la fréquence CpG observée divisée par la fréquence CpG attendue, désignée plus tard comme CpGodds), la densité d'exons (proportion de paires de bases occupés par des exons dans une fenêtre, plus tard appelés Exons) ainsi que les densités d'éléments transposables SINE, LINE et LTR (plus tard appelées SINE, LINEs et LTR). Nous avons extrait les taux de croisement de cartes génétiques de haute qualité disponibles pour le génome humain (International HapMap Consortium et al. 2007) et le génome de la souris (Shifman et al. 2006). Les taux de croisement (CO) ont été calculés comme la moyenne pondérée des taux de CO des régions chromosomiques qui chevauchent la fenêtre. Nous avons pu extraire les taux de CO moyennés par sexe dans le génome humain, les taux de CO moyens par sexe ainsi que les taux de CO spécifiques aux mâles et aux femelles dans le génome de la souris. Parce que dans la lignée de souris, les taux de CO et la distance au télomère présentent une distribution non normale (fig. supplémentaire 1, Matériel supplémentaire en ligne), nous avons calculé le logarithme de chacun des taux de CO (dénommé plus tard LCO) ainsi que chacun des la distance au télomère (désignée comme LDT) et les a utilisées pour le reste de l'étude. Nous avons calculé les valeurs de temps de réplication (RepTime) à partir de profils de temps de réplication haute résolution disponibles pour les cellules souches embryonnaires de souris (Hiratani et al. 2008) et les cellules souches embryonnaires humaines (Ryba et al. 2010), en tant que médiane pondérée de la réplication. valeurs de synchronisation des régions chromosomiques qui chevauchent la fenêtre. Toutes les positions génomiques dans les cartes génétiques et les profils de temps de réplication ont été converties en versions du génome humain (hg19) et le génome de la souris (mm9) à partir duquel les alignements ont été calculés à l'aide de l'outil liftOver disponible à l'UCSC (http://genome.ucsc.edu/cgi-bin/hgLiftOver).

Nous avons filtré les fenêtres comme suit : nous avons éliminé les fenêtres avec moins de 100 kpb de sites où les trois espèces ont un nucléotide aligné, les fenêtres qui chevauchaient des régions centromériques, ainsi que les fenêtres sans suffisamment d'informations pour calculer les taux de CO ou d'autres caractéristiques génomiques. Les taux de substitution et les facteurs génomiques ont été normalisés pour avoir une moyenne de 0 et un écart type de 1.

Régression de la composante principale

Nous avons analysé le lien entre les modèles de substitution et neuf facteurs génomiques (contenu en GC, taux de CO, distance au télomère, Exons, RepTime, SINEs, LINEs, LTRs, CpGodds) en utilisant la régression en composantes principales (analyse en composantes principales suivie d'une régression linéaire) comme décrit ci-dessous. Nous avons d'abord effectué une analyse en composantes principales dans les lignées humaines et murines sur les neuf facteurs génomiques. Dans cette étape, tous les facteurs ont été projetés sur neuf axes orthogonaux ou composantes principales. Chaque composante principale est caractérisée par une valeur propre qui détermine la part de la variance totale du facteur expliquée par cette composante et par un vecteur propre, avec une entrée par facteur, chaque entrée déterminant l'importance du facteur dans la composante principale. Les entrées d'un vecteur propre ont été normalisées de telle sorte que la somme du carré des entrées soit égale à 1. Toutes les composantes principales sont indépendantes et sont classées en fonction de la proportion de la variance des facteurs qu'elles expliquent. Nous avons effectué deux projections indépendantes pour les lignées de souris et humaines. Nous avons ensuite effectué des régressions linéaires, en utilisant les composantes principales précédemment calculées comme facteurs et les taux de substitution calculés dans chaque lignée comme variables. Nous avons calculé pour chaque régression linéaire le R 2 de cette régression, ainsi que le R 2 pour chaque composant principal individuel.

Toutes les statistiques ont été réalisées à l'aide de R (http://www.r-project.org/). Nous avons utilisé le package R pls pour effectuer une régression en composantes principales (Mevik et Wehrens 2007). Nous avons utilisé le code R de Drummond et al. (2006) pour générer des figures et des tableaux pour la régression en composantes principales.


Matériaux et méthodes

Ensembles de données.

Nous avons analysé trois ensembles de données génétiques de population indépendants. Données Sanger : nous avons analysé environ 16,5 ko d'exons choisis au hasard et séquencés à l'aide de la technologie Sanger à partir de 48 diploïdes A. mellifera ouvrières (96 chromosomes par locus) (31). Nous avons complété cet ensemble de données en séquençant les mêmes régions chez un travailleur de A. cerana, A. dorsata, et A. florea (Fig. S1). Nous avons également inclus des séquences de trois gènes associés au comportement dans A. mellifera (Vg, Erk7, et pour Californie. 7 ko) (30) obtenus des mêmes individus. La PCR, le séquençage, l'alignement et la détection de variants génétiques dans cet ensemble de données ont été décrits précédemment (30). Pour réduire l'influence de la démographie et de la gestion humaine sur notre étude, nous avons restreint notre analyse à 12 A. mellifera scutellata ouvrières (24 chromosomes par locus) échantillonnées à partir d'une population africaine sauvage importante et stable (30, 31). Cet ensemble de données a été utilisé pour estimer la diversité génétique au sein de A. mellifera, et la divergence entre les Apis spp., en plus de déterminer le spectre de fréquences alléliques des mutations fortes ou faibles dérivées. Données SNP : nous avons analysé 704 SNP génotypés dans 341 A. mellifera travailleurs et dans A. cerana, A. dorsata, et A. florea (29, 32). Cet ensemble de données a été utilisé pour déterminer le spectre de fréquence allélique des mutations fortes ou faibles dérivées. Données Baylor : nous avons analysé plus d'un million de SNP découverts dans le génome séquencé de l'abeille mellifère, qui a été dérivé du séquençage des fils haploïdes d'une seule reine (12) à l'aide de la technologie Sanger. Les séquences SNP sont disponibles auprès du Baylor College of Medicine. Des scripts Perl ont été utilisés pour analyser l'ensemble de données Baylor afin d'examiner la relation entre la densité de SNP et la teneur en GC à travers le génome de l'abeille mellifère. Les estimations de la densité de SNP par gène ont utilisé le nombre total de SNP découverts entre le début du premier exon et la fin du dernier exon, y compris les introns.

Mise en phase et recombinaison.

Nous avons utilisé PHASE v2.1 (Matthew Stephens Lab) (46) pour déduire des haplotypes à partir de génotypes diploïdes non phasés à partir des données de Sanger. Le programme a été exécuté à l'aide de l'option -MR0 pour spécifier l'utilisation du modèle de recombinaison ajusté avec 1 000 itérations et 100 étapes de rodage, avec l'option -X10 pour effectuer 10 exécutions indépendantes. Les priorités pour les analyses étaient les valeurs par défaut (46), à l'exception du paramètre de recombinaison, qui a été défini 10 fois plus haut que la valeur par défaut pour refléter le taux de recombinaison moyen plus élevé chez les abeilles par rapport aux humains (10). Les fichiers de sortie ont été post-traités dans R 2.10.1 (47) pour déterminer les estimations de fond médianes de la recombinaison entre les sites adjacents. Les résultats ont été recoupés avec les estimations de DNAsp 5 (48). L'utilisation de méthodes de génétique des populations pour estimer la recombinaison est bien établie et résiste aux écarts par rapport aux hypothèses de génétique des populations (39, 40). Néanmoins, pour éviter d'éventuels biais dans nos estimations de recombinaison, nous avons utilisé les mesures suivantes. Les erreurs de séquençage ont été réduites grâce à la redondance, chaque base a été séquencée dans deux réactions indépendantes en utilisant des amorces directe et inverse (30). Nous avons éliminé les effets de confusion de la structure de la population, des changements de taille de la population et d'une éventuelle sélection artificielle en limitant nos analyses aux populations africaines grandes, stables et sauvages de A. mellifera scutellata (30, 31). La plupart des gènes utilisés ici ont été choisis au hasard dans le génome de l'abeille mellifère, et cet ensemble de gènes aléatoires est peu susceptible de subir des pressions sélectives cohérentes, comme indiqué précédemment (30, 31).Nous n'avons pas inclus de gènes avec moins de quatre sites polymorphes dans les analyses de recombinaison, pour éviter d'échantillonner des gènes avec une sélection purificatrice omniprésente.

GC-Classification du contenu.

Les gènes avec une teneur en exon GC >38% ont été classés comme riches en GC, tandis que d'autres ont été classés comme pauvres en GC. Cela correspond à une teneur moyenne en GC3 de 33 % et est cohérent avec les études précédentes (13).

Construction de l'État ancestral.

Les états ancestraux ont été déterminés par la parcimonie maximale, seuls les sites avec des appels de parcimonie sans ambiguïté pour des codons complets ont été inclus. Sur plus de 1 500 SNP dans A. mellifera, nous avons pu déterminer sans ambiguïté l'état ancestral à 681 SNP. La couverture était plus faible en A. dorsata, intermédiaire en A. florea, et plein de A. cerana. Ainsi, dans certaines comparaisons interspécifiques, seules les statistiques A. cerana et A. florea sont donnés.

La fréquence élevée de mutations dérivées fortes (G/C) observées ici peut résulter d'erreurs de séquençage ou d'erreurs dans la construction de l'état ancestral (49). Nous avons exclu toute erreur de séquençage en réexaminant les données brutes pour 14 mutations W→S à haute fréquence : toutes ont été couvertes par deux réactions de séquençage indépendantes, les trois congénères présentant l'allèle ancestralement faible, et A. mellifera travailleurs présentant l'allèle fort.

Si les mutations A/T surviennent plus fréquemment que les mutations G/C, comme nous l'avons observé pour A. mellifera, il est possible que les rétromutations puissent provoquer des erreurs dans la construction de l'état ancestral (50, 51). Considérez le modèle suivant de changement dans A. mellifera: A→G, suivi d'une mutation subséquente en A. Si la population est polymorphe pour A et G, nous en déduirions à tort que G est dérivé et que A est ancestral. Le nombre d'appels erronés peut être estimé à partir de nos données génétiques de population (données Sanger). En raison de fortes asymétries dans les taux de fixation et de polymorphisme S→W versus W→S, nous avons estimé les erreurs d'appel séparément pour ces deux groupes, et séparément pour les gènes dans les moitiés inférieure et supérieure de la distribution du contenu en GC. Nous avons estimé le nombre d'appels erronés selon des méthodes établies (50), avec les modifications suivantes. Nous avons utilisé deux modèles avec huit ou quatre paramètres de taux de mutation par ensemble de gènes. Pour le premier, nous avons estimé le taux de fixation par paire de bases ancestrales pour les transitions et le taux de polymorphisme pour la transition inverse (ie, A→G fixation, G→A polymorphisme G→A fixation, A→G polymorphisme C→T fixation, T →C polymorphisme T→C fixation, C→T polymorphisme). Dans le modèle à quatre paramètres, nous avons regroupé les mutations A/T et les mutations G/C (c'est-à-dire fixation W→S, polymorphisme S→W fixation S→W, polymorphisme W→S). Ces paramètres de taux de mutation ont été utilisés pour estimer de manière probabiliste l'incidence des rétromutations dans notre ensemble de données (remarque : le taux de mutation relatif, et non absolu, pour les différentes classes de mutation a été utilisé ici). Les deux modèles ont donné des résultats presque identiques, nous avons donc utilisé le modèle à quatre paramètres. Dans l'ensemble, nous nous attendons à avoir mal appelé 12,6% de W→S et 0,5% de S→W SNP. Nous avons corrigé nos spectres de fréquence des allèles dérivés des données Sanger et SNP (Fig. 1, Fig. S2) en déplaçant de manière conservatrice 12,6 % des mutations W→S de la fréquence élevée vers la rare S→W, et 0,5 % des mutations S→W de haute fréquence à rare W→S. Tous les spectres de fréquences alléliques présentés ici ont été corrigés à l'aide de ces méthodes.

Diversité et divergence.

Mesures des valeurs moyennes de GC3 de l'exon entier, diversité synonyme (πs), et la divergence à la fois synonyme et non synonyme (Ks, Kune) ont été déterminés en utilisant DNAsp 5 (48). Des scripts Perl ont été utilisés pour estimer le contenu moyen en GC dans les fenêtres entourant les SNP.

Ontologie des gènes et GC.

Nous avons utilisé des orthologues de gènes d'abeilles mellifères prédits (12) chez l'homme et la mouche (tels que déterminés à l'aide de la meilleure correspondance réciproque de blastp) pour effectuer une analyse GO (42) à l'aide des annotations GO de la base de données Biomart Ensembl (humain GRCh37.p3, mouche BDGP5.22 ). Nous avons utilisé une correction du taux de fausses découvertes (43, 52), comme décrit ailleurs (53), pour effectuer des comparaisons statistiques du contenu GC des groupes GO. Pour les comparaisons des groupes GO parmi Un mellifère, Nasonia vitripennis, échiniateur Acromyrmex, et Pogonomyrmex barbatus, nous avons téléchargé les protéines et les séquences codantes de la base de données du génome des hyménoptères et leur avons attribué A. mellifera orthologues comme décrit ci-dessus.

Méthodes statistiques générales.

Des tests non paramétriques ont été utilisés sauf lorsque des transformations de normalisation sont indiquées dans le texte. Les tests de somme des rangs de Wilcoxon ont été utilisés pour tester les différences dans les moyennes des groupes. Pour les données de comptage avec plus de 10 entrées par cellule, le test du 2 a été utilisé, tandis que pour les tableaux avec des comptages inférieurs, le test G avec la correction de Williamson a été utilisé. Les tests statistiques ont utilisé le logiciel de statistiques R version 2.10 (47).

Association entre la conversion génique biaisée et la recombinaison/GC.

Données de polymorphisme : Les gènes ont été divisés en groupes élevés ou faibles selon qu'ils étaient supérieurs ou inférieurs au taux de recombinaison médian trouvé dans notre étude. Nous avons comparé le nombre total d'allèles synonymes dérivés faibles dans notre étude (données de Sanger) divisé par le nombre de bases non variables synonymes ancestrales fortes (à partir desquelles des mutations faibles peuvent survenir) au nombre d'allèles synonymes dérivés forts divisé par le nombre d'allèles synonymes dérivés forts bases non variables synonymes dans le groupe de recombinaison élevée et faible en utilisant un test du 2 . Données de fixation : Le nombre de fixations synonymes fortes et faibles a été compté, ainsi que le nombre de sites synonymes ancestraux faibles et forts pour chaque gène. Les gènes ont été regroupés en groupes élevés ou faibles en fonction des données de recombinaison ou de la teneur en GC comme décrit ci-dessus. Les taux de fixation des mutations dérivées fortes et faibles ont été estimés en divisant le nombre de ces mutations par le nombre de sites ancestralement faibles ou forts, respectivement. Un test du χ 2 a été utilisé pour évaluer l'hypothèse nulle d'absence de différence dans les biais de fixation entre le groupe haut et bas.

Analyse du contenu GC et de la recombinaison à travers quatre génomes d'hyménoptères.

Pour la figure 3, nous avons calculé le contenu GC de la séquence codante pour chaque gène prédit dans le génome de chaque espèce à partir des séquences publiées, ainsi que l'écart absolu médian (une estimation non paramétrique de la propagation) du contenu GC des gènes. Pour chaque espèce, nous avons estimé le contenu médian du gène GC des orthologues dans un groupe GO donné et en avons soustrait le gène médian GC pour tous les gènes de cette espèce et standardisé cette différence en divisant par l'écart absolu médian du contenu GC pour cette espèce, créer l'équivalent non paramétrique d'un z-score. Les quatre espèces ont des taux de recombinaison connus (9, 10, 54 ⇓ -56) [note : P. barbatus fait partie du complexe barbatus/rugosus et les hybrides se produisent entre les espèces pour lesquelles nous avons utilisé le taux de recombinaison déterminé pour Pogonomyrmex rugosus (56) pour approximer le P. barbatus taux]. L'effet du taux de recombinaison sur le contenu en GC a été examiné avec le groupe GO en tant que facteur aléatoire en utilisant la probabilité maximale restreinte (REML) avec la fonction R lmer, et la signification a été déterminée en comparant deux fois la différence des probabilités maximales du modèle réduit et du modèle complet à un 2 avec un degré de liberté.

Analyse des études sur les puces à ADN.

Deux ensembles de données publiés ont été utilisés pour examiner les gènes exprimés de manière différentielle dans le cerveau des abeilles : l'un a comparé l'expression génique des reines et des ouvrières à l'aide d'une puce à ADNc dérivée d'une bibliothèque d'EST du cerveau (réf. 33, données traitées présentées dans la référence 41), et un autre a comparé l'expression des gènes chez les faux-bourdons et les ouvrières, ainsi que chez les infirmières et les butineuses, en utilisant l'oligo array du génome entier de l'abeille (34). Nous avons analysé uniquement les sondes de puces qui correspondaient à un gène prédit dans l'ensemble de gènes officiel de l'abeille domestique (12), représentant 1 765 gènes dans l'étude reine/ouvrière et 4 811 gènes dans l'étude drone/ouvrière. Conformément aux conventions établies (33, 41, 44), les gènes liés à la caste ont été définis comme ceux ayant des niveaux d'expression significativement plus élevés (taux de fausses découvertes < 0.05) dans une caste spécifique par rapport aux autres. Nous avons regroupé les gènes liés aux castes dans les cerveaux des travailleurs par rapport aux cerveaux des reines et des drones. Les gènes de contrôle dans chaque étude étaient ceux qui n'avaient pas d'expression biaisée en faveur de la caste ou du sexe (m = 1 099 et m = 2 937 pour l'étude reine/ouvrière et bourdon/ouvrière, respectivement). Nous avons comparé le contenu en GC de chaque ensemble de gènes liés à la caste ou au sexe par rapport aux témoins en utilisant le test de Wilcoxon.


Pourquoi les régions riches en GC sont-elles moins condensées que les régions pauvres en GC ? - La biologie

Nous proposons une nouvelle hypothèse pour expliquer les modèles de teneur en GC des gènes chez les plantes.

Les gradients de recombinaison le long des gènes pourraient expliquer les gradients de teneur en GC.

Les gradients géniques et les structures géniques pourraient conduire à des distributions de contenu GC.

La méthylation et le positionnement des nucléosomes pourraient également jouer un rôle.

Chez les angiospermes (comme dans d'autres espèces), la teneur en GC varie le long et entre les gènes, au sein d'un génome et entre les génomes de différentes espèces, mais la raison de cette distribution reste une question ouverte. Les génomes des graminées sont particulièrement intrigants car ils présentent une forte distribution bimodale du contenu en GC génique et un gradient de contenu en GC fortement décroissant de 5′ à 3′ le long de la plupart des gènes. Ici, nous proposons un modèle unificateur pour expliquer les principaux schémas de variation du contenu en GC à l'échelle du gène et du génome. Nous soutenons que les modèles de contenu GC pourraient être principalement déterminés par les interactions entre la structure des gènes, les modèles de recombinaison et la conversion génique biaisée par GC. Des études récentes sur les cartes de recombinaison à petite échelle chez les angiospermes appuient cette hypothèse et les résultats antérieurs correspondent également à ce modèle. Nous proposons que notre modèle puisse être utilisé comme hypothèse nulle pour rechercher des forces supplémentaires qui affectent le contenu en GC dans les angiospermes.


Renseignements à l'appui

Graphique S1.

Biais GC pour chaque plate-forme pour l'échantillon MB24, y compris Complete Genomics à couverture complète. Couverture de base Log2 dans des fenêtres de 1 Ko par rapport au contenu GC pour les données HiSeq2000, SOLiD 4, 5500xl SOLiD et Complete Genomics. Le premier panneau montre une superposition des quatre technologies. Le panneau supérieur droit montre uniquement HiSeq2000 (bleu), le SOLiD 4 et 5500xl inférieur gauche (respectivement rouge et orange) et le panneau inférieur droit Complete Genomics avec une couverture 30x complète et sous-échantillonnée (vert et vert clair). Des courbes de loess lissées sont ajustées à chaque ensemble de données pour représenter la tendance de la couverture locale.

Graphique S2.

Biais GC pour chaque plate-forme pour l'échantillon BL24, y compris Complete Genomics à couverture complète. Couverture de base Log2 dans des fenêtres de 1 Ko par rapport au contenu GC pour les données HiSeq2000, SOLiD 4, 5500xl SOLiD et Complete Genomics. Le premier panneau montre une superposition des quatre technologies. Le panneau supérieur droit montre uniquement HiSeq2000 (bleu), le SOLiD 4 et 5500xl inférieur gauche (respectivement rouge et orange) et le panneau inférieur droit Complete Genomics avec une couverture 30x complète et sous-échantillonnée (vert et vert clair). Des courbes de loess lissées sont ajustées à chaque ensemble de données pour représenter la tendance de la couverture locale.

Graphique S3.

Biais GC pour chaque plate-forme pour l'échantillon MB14, y compris Complete Genomics à couverture complète. Couverture de base Log2 dans des fenêtres de 1 Ko par rapport au contenu GC pour les données HiSeq2000, SOLiD 4, 5500xl SOLiD et Complete Genomics. Le premier panneau montre une superposition des quatre technologies. Le panneau supérieur droit montre uniquement HiSeq2000 (bleu), le SOLiD 4 inférieur gauche (rouge) et le panneau inférieur droit Complete Genomics avec une couverture 30x complète et sous-échantillonnée (vert et vert clair). Des courbes de loess lissées sont ajustées à chaque ensemble de données pour représenter la tendance de la couverture locale.

Graphique S4.

Biais GC pour chaque plate-forme pour l'échantillon BL14, y compris Complete Genomics à couverture complète. Couverture de base Log2 dans des fenêtres de 1 Ko par rapport au contenu GC pour les données HiSeq2000, SOLiD 4, 5500xl SOLiD et Complete Genomics. Le premier panneau montre une superposition des quatre technologies. Le panneau supérieur droit montre uniquement HiSeq2000 (bleu), le SOLiD 4 inférieur gauche (rouge) et le panneau inférieur droit Complete Genomics avec une couverture 30x complète et sous-échantillonnée (vert et vert clair). Des courbes de loess lissées sont ajustées à chaque ensemble de données pour représenter la tendance de la couverture locale.

Graphique S5.

Biais GC pour HiSeq2000 avec la chimie v2 par rapport à HiSeq2000 avec la chimie v3. Couverture de base Log2 dans des fenêtres de 1 Ko par rapport au contenu du GC. Des courbes de loess lissées sont ajustées à chaque ensemble de données pour représenter la tendance de la couverture locale. Des données exemplaires de l'échantillon de patient MB24 (v2, bleu) sont comparées à un autre échantillon de patient de médulloblastome (v3, rouge).

Graphique S6.

Distribution de couverture de base cumulée pour les quatre plates-formes pour tous les échantillons répertoriés dans Tableau 1. Pourcentage du génome couvert par la profondeur de lecture. Chaque courbe correspond à un échantillon.

Graphique S7.

Pourcentage de bases sans couverture des éléments génomiques, y compris Complete Genomics à couverture complète. Une base est considérée comme non couverte lorsqu'elle est couverte par moins de trois lectures. Les barres d'erreur représentent un écart type obtenu à partir de l'analyse des échantillons répertoriés dans le tableau 1. ADN, LIGNE, Faible complexité, LTR, RC, ARN, Satellite, Répétitions simples et SINE sont des sous-catégories de Répétitions (tous).

Figure S8.

Pourcentage de bases sans couverture des éléments génomiques. Dans ce cas, une base est considérée comme non couverte lorsqu'elle est couverte par zéro lecture. Les barres d'erreur représentent un écart type obtenu à partir de l'analyse des échantillons répertoriés dans le tableau 1. ADN, LIGNE, Faible complexité, LTR, RC, ARN, Satellite, Répétitions simples et SINE sont des sous-catégories de Répétitions (tous).

Figure S9.

Distribution de la taille des régions sans couverture pour toutes les plateformes et échantillons répertoriés dans Tableau 1. Chaque courbe correspond à un échantillon. Basé sur le génome de référence hors N. Une base est considérée comme non couverte lorsqu'elle est couverte par moins de trois lectures. La taille de la plus grande région sans couverture est d'environ 110 000 pb pour les quatre plates-formes, à l'exception de HiSeq (766 173 pb). Ceci est dû à la région pseudoautosomique sur chrX/Y et est une conséquence des différences de cartographie.

Graphique S10.

Distribution des SNP de la matrice Affymetrix SNP6 dans les éléments génomiques analysés. Pourcentage du génome couvert par différents types d'éléments génomiques, par rapport à la distribution des SNP de la matrice SNP6 sur ces éléments génomiques.

Figure S11.

Distribution des SNP de la matrice Affymetrix SNP6 dans les types de répétition analysés. La taille des différentes régions de répétition a été analysée par rapport à la taille de répétition totale. Les régions répétées chevauchantes ont été réduites et non comptées deux fois. Tous les SNP mappés sur les régions de répétition ont été identifiés et leur distribution à travers les différents types de répétitions comparée au nombre total de SNP.

Graphique S12.

Courbes caractéristiques de fonctionnement du récepteur comparant la sensibilité et la spécificité de toutes les plateformes de séquençage pour les appels SNV. Toutes les courbes sont calculées pour un exemple d'échantillon de patient BL24. Lorsqu'aucune information de couverture supplémentaire n'est indiquée, les courbes sont calculées sur des données de couverture complète (pour les informations de couverture, voir le tableau 1). Des nombres supplémentaires indiquent soit des données sous-échantillonnées par calcul, soit des données combinées à une couverture additive spécifiée. (a) Spécificité tracée de 0 à 0,17. Toutes les courbes ont atteint leur plateau à ce stade et continueront comme des lignes droites. (b) Vue agrandie des courbes pour discriminer entre les différences subtiles de spécificité et de sensibilité pour toutes les courbes. Les courbes qui n'apparaissent pas dans cette vue agrandie ont atteint leur plateau en dessous du seuil de sensibilité de 94 % choisi pour cette fenêtre.

Graphique S13.

Courbes caractéristiques de fonctionnement du récepteur comparant la sensibilité et la spécificité de toutes les plateformes de séquençage pour les appels SNV. Toutes les courbes sont calculées pour l'exemple d'échantillon de patient BL14. Lorsqu'aucune information de couverture supplémentaire n'est indiquée, les courbes sont calculées sur des données de couverture complète (pour les informations de couverture, voir le tableau 1). Des nombres supplémentaires indiquent soit des données sous-échantillonnées par calcul, soit des données combinées à une couverture additive spécifiée. (a) Spécificité tracée de 0 à 0,17. Toutes les courbes ont atteint leur plateau à ce stade et continueront comme des lignes droites. (b) Vue agrandie des courbes pour faire la distinction entre des différences subtiles de spécificité et de sensibilité pour toutes les courbes. Les courbes qui n'apparaissent pas dans cette vue agrandie ont atteint leur plateau en dessous du seuil de sensibilité de 94 % choisi pour cette fenêtre.

Figure S14.

Courbes caractéristiques de fonctionnement du récepteur comparant la sensibilité et la spécificité de toutes les plateformes de séquençage pour les appels SNV. Toutes les courbes sont calculées pour un échantillon de patient exemplaire MB14. Lorsqu'aucune information de couverture supplémentaire n'est indiquée, les courbes sont calculées sur des données de couverture complète (pour les informations de couverture, voir le tableau 1). Des nombres supplémentaires indiquent soit des données sous-échantillonnées par calcul, soit des données combinées à une couverture additive spécifiée. (a) Spécificité tracée de 0 à 0,17. Toutes les courbes ont atteint leur plateau à ce stade et continueront comme des lignes droites. (b) Vue agrandie des courbes pour discriminer entre les différences subtiles de spécificité et de sensibilité pour toutes les courbes. Les courbes qui n'apparaissent pas dans cette vue agrandie ont atteint leur plateau en dessous du seuil de sensibilité de 94 % choisi pour cette fenêtre.

Tableau S1.

Exécutez les informations pour chaque plate-forme. Les informations sur le débit ont été obtenues à partir des pages d'accueil du fabricant.

Tableau S2.

Comparaison détaillée des appels de génotypes basés sur le séquençage avec des résultats basés sur des puces. Les appels SNP par la puce SNP6 ont été comparés en fonction du niveau de génotype. Divisés en appels basés sur un tableau homozygote (hom) et hétérozygote (het), les résultats basés sur le séquençage ont été appelés identiques (appels sur les deux allèles identiques), one_identical (appels uniquement sur un allèle identique), no_identical (appels sur aucun des allèles identique) et NA (appel manquant par tableau), respectivement. Chaque fois que les données de séquençage n'ont montré aucun appel à une position donnée, nous avons supposé le même génotype à cette position que pour le génome de référence. CG signifie Complete Genomics.

Tableau S3.

Paramètres testés lors de l'optimisation des appels SNP basés sur le mpileup de samtools. Les appels SNP pour chacun des ensembles de données (à l'exception des données de génomique complète) ont été optimisés à l'aide des combinaisons décrites et les appels offrant le chevauchement le plus important avec les appels SNP basés sur Affymetrix SNP6 ont été sélectionnés.

Tableau S4.

Comparaison de la sensibilité d'appel SNP. Testé par un test t à deux échantillons appariés.


Voir la vidéo: dança do et. 1 HORA da Dança do ET. Dame C cusita. 2018. HD. Letra dame tu cosita (Juin 2022).


Commentaires:

  1. Pityocamptes

    Ce que les mots avaient besoin ... super et brillante phrase

  2. Kinnell

    Vous avez frappé la marque. J'ai bien pensé, c'est d'accord avec vous.

  3. Edelmar

    Je pense que vous n'avez pas raison. Écrivez-moi dans PM, nous communiquerons.

  4. Shazilkree

    Votre phrase, juste adorable



Écrire un message