Informations

Quels outils peuvent m'aider à déterminer si une protéine homologue végétale interagit de la même manière avec un ARNnc ?

Quels outils peuvent m'aider à déterminer si une protéine homologue végétale interagit de la même manière avec un ARNnc ?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Premier post ici, donc à nu avec moi si je viole une étiquette ou des règles de formatage.

Disons que j'ai une protéine chez l'homme. Lorsqu'il interagit avec un ARNnc trouvé chez l'homme, il fait quelque chose qui m'intéresse beaucoup. Je vois une protéine hautement homologue (environ 85 % d'identité AA) dans les plantes, et elle est largement conservée. Je suis intéressé à susciter la même activité de cette protéine dans les plantes. Le seul problème est qu'il n'y a pas d'ARNnc natif produit par des plantes pour interagir de la même manière avec ma protéine d'intérêt. Alors j'ai eu une idée :

Et si j'introduisais un transcrit aux plantes qui résout ce problème ? Si la version végétale de cette protéine interagit avec cet ARN (introduit) de la même manière, ce sera vraiment cool. J'aimerais tester cette hypothèse avec quelques constructions synthétisées. Mais avant de dépenser des milliers de dollars sur quelques constructions, j'aimerais explorer tous les outils prédictifs ou analytiques pour renforcer le cas. Je suis conscient que les chances sont contre moi.

Merci!


La séquence d'ARNnc de l'homme peut se lier à la protéine végétale dans les cellules végétales, mais alors ? Vous pouvez peut-être dire que la protéine végétale fonctionne comme une protéine de liaison à l'ARN, mais pas plus que cela. Une autre préoccupation est que la protéine végétale peut ne pas reconnaître la même séquence d'ARN que la protéine humaine.

Il existe plusieurs façons de trouver des partenaires ARN de protéines de liaison à l'ARN.

SELEX

Cette méthode est utilisée pour trouver des séquences consensus que votre protéine reconnaît in vitro. Une fois que vous avez trouvé des séquences consensus, vous pouvez rechercher des ARNnc de la plante.

AGRAFE

Ceci est similaire au test Chip. Vous pourriez trouver de vraies cibles de vos protéines de liaison à l'ARN


Conférence 14 : Prédire les interactions entre les protéines

Téléchargez la vidéo depuis iTunes U ou Internet Archive.

La description: Ce cours porte sur la prédiction des interactions entre les protéines. Il discute des prédictions structurelles des interactions protéine-protéine. Il explique ensuite comment sont effectuées les mesures des interactions protéine-protéine et la prédiction Bayes Net des interactions protéine-protéine.

Instructeur: Pr Ernest Fraenkel

Cours 1 : Introduction à .

Cours 2 : Alignement local .

Conférence 3: Alignement Global.

Conférence 4 : Géno comparé.

Conférence 5 : Library Complexi.

Conférence 6 : Assemblage du génome

Cours 7 : Analyse ChIP-seq.

Conférence 8 : séquence d'ARN Ana.

Conférence 9 : Modélisation et Dis.

Conférence 10 : Markov et Hidd.

Conférence 11 : RNA Secondaire S.

Leçon 12 : Introduction à .

Conférence 13 : Prédire Prot.

Conférence 14 : Prédire Prot.

Conférence 15 : Régulation des gènes.

Conférence 16 : Protéine Interac.

Cours 17 : Modélisation Logique .

Conférence 18 : Analyse de Chr.

Conférence 19 : À la découverte de Qua.

Conférence 20 : Génétique humaine.

Conférence 21 : Biolo synthétique.

Conférence 22 : Causalité, Natu.

Le contenu suivant est fourni sous une licence Creative Commons. Votre soutien aidera le MIT OpenCourseWare à continuer d'offrir gratuitement des ressources éducatives de haute qualité. Pour faire un don ou consulter du matériel supplémentaire provenant de centaines de cours du MIT, visitez MIT OpenCourseWare sur ocw.mit.edu.

PROFESSEUR : D'accord. Nous avons donc parlé de prédire les protéines de structure. À la fin de la dernière conférence, nous avons commencé à parler un peu de la prédiction des interactions, et ce sera l'objet de la conférence d'aujourd'hui. Et nous avons identifié quelques défis de prédiction possibles différents.

L'une était des prédictions quantitatives de ce qui se passe lorsque vous faites des mutations spécifiques dans un complexe protéique connu. Nous avons parlé d'essayer de prédire la structure de, disons, juste une paire de protéines, puis d'essayer de le faire à l'échelle mondiale pour toutes les protéines connues.

Et donc la dernière fois, si vous vous en souvenez, nous avons pensé qu'au départ, ce serait peut-être un problème simple. Nous avons des protéines de structure connue avec un complexe. La structure du complexe est également connue. Et nous voulons faire des prédictions sur le changement d'affinité lorsqu'une mutation spécifique est effectuée.

En principe, cela devrait être facile car nous avons toutes ces différentes formulations pour la fonction d'énergie potentielle. Et donc si nous découvrons quels sont les changements structurels locaux qui sont dus à l'insertion ou à la suppression d'une chaîne latérale, alors nous devrions être en mesure de prédire le changement de l'énergie potentielle, et donc le changement de l'énergie du complexe. Mais en fait, il s'est avéré que c'était très, très difficile de le faire.

Et donc ce tracé comparait - les cercles noirs étaient les algorithmes de prédiction de ce problème, comparés à une simple matrice de substitution, la matrice de substitution BLOSUM définie en termes d'aire sous la courbe pour les mutations bénéfiques et les mutations délétères. Et vous pouvez voir que très, très peu de points noirs s'éloignent de ce qui est le modèle par défaut vraiment simple. Beaucoup d'entre eux font pire.

Alors d'accord, ce n'est peut-être pas un problème si simple car cela nécessite une prédiction hautement quantitative. Peut-être que nous ferons mieux en essayant simplement de prédire quelles protéines interagissent. C'est donc ce qui sera au centre de la conférence d'aujourd'hui.

Maintenant, cela posait également un problème, n'est-ce pas ? Car même si je connais la structure de deux protéines, je ne sais pas nécessairement quelles surfaces de ces protéines interagissent. Et donc je dois comprendre ce problème d'amarrage de quelle partie de la protéine A interagit avec quelle partie de la protéine B.

C'est le début de mon problème, et ensuite je dois prendre une série de décisions ultérieures. Je vais donc devoir trouver un partenaire potentiel de ma protéine, j'ai besoin de comprendre le problème d'amarrage, l'orientation de la position relative. Maintenant, dans ce petit dessin animé, il s'agit d'une protéine complètement statique qui s'approche d'une autre protéine statique. La seule chose qui change, ce sont les coordonnées relatives.

Mais bien sûr, il y aura des changements locaux de confirmation, peut-être même globaux. Et nous devons donc être en mesure de faire des estimations quant à ce que seront ces réarrangements structurels lorsque les deux protéines interagissent. Et ensuite, après avoir obtenu notre meilleure estimation des réarrangements structurels, ce n'est qu'alors que nous pourrons obtenir une estimation de l'interaction énergétique et décider si c'est mieux qu'un certain seuil.

D'ACCORD. Donc, l'un des problèmes qui ressort assez clairement de cela est que ce genre d'approche en principe, si nous le faisons rigoureusement à travers toutes les étapes, serait extrêmement lent. Maintenant, une autre partie qui est peut-être un peu moins évidente est que cela va être très sujet aux faux positifs. Et pourquoi pensez-vous que cela pourrait être? Qu'est-ce que je ne prends pas en compte ici ?

AUDIENCE : Ne tenez-vous pas compte de la désolvabilité [INAUDIBLE].

PROFESSEUR : Donc une réponse est que je ne prends pas en compte la désolvatation, mais en fait, je peux le faire. Droit? Ainsi, certaines des fonctions d'énergie potentielle que nous avons examinées, la version du statisticien plutôt que celle du physicien, facilitent l'intégration de la désolvatation. Avez-vous d'autres idées sur ce que je ne prends pas en compte ? Quelle autre protéine devrais-je considérer lorsque j'envisage un problème d'interaction ?

J'ai donc isolé, dans ce cas, deux protéines. Je dis, dans un univers où ce sont les deux seules protéines qui existent, auront-elles une interaction énergétique favorable ? Ce que j'ai vraiment besoin de savoir, c'est si cette interaction énergétique est plus favorable que toutes les interactions concurrentes qu'elles pourraient avoir.

Donc, même si je trouve quelque chose qui est potentiellement une bonne interaction, ce n'est peut-être pas la meilleure interaction possible. Et si je considère alors la concentration de cette protéine et la concentration de toutes les autres molécules qui ont une affinité plus élevée, alors il pourrait s'avérer qu'il s'agit en fait d'un substrat plutôt pauvre pour ma protéine, un partenaire d'interaction plutôt pauvre. Nous avons donc ce problème de faux positifs. D'ACCORD.

Mais concentrons-nous sur le problème de l'efficacité de calcul, car c'est au moins un problème que nous pouvons trouver avec de bons algorithmes à essayer de résoudre. Donc, ce que nous voulons faire, c'est essayer de limiter notre espace de recherche. Si je veux comprendre -- j'ai une protéine de requête et je veux demander avec quoi interagit-elle, au lieu d'essayer de faire la comparaison par paires de cette protéine avec toutes les autres protéines de la base de données, et de faire des calculs structurels très précis sur tout cela, il y a peut-être un moyen de préfiltrer l'ensemble de protéines avec lesquelles il pourrait interagir.

Et c'est ce que nous allons examiner. Nous allons donc essayer de choisir officiellement des partenaires potentiels avant de faire une comparaison structurelle. Et puis une fois que nous aurons ces partenaires, nous allons essayer d'éviter d'avoir à faire des calculs détaillés jusqu'à ce que nous ayons un degré de confiance relativement élevé que ces protéines pourraient interagir selon d'autres critères.

Et nous allons examiner deux articles qui décrivent des algorithmes pour résoudre ce problème, et ils sont tous deux téléchargés sur le site Web. La première chose que nous examinerons s'appelle PRISM qui utilise en fait des calculs structurels. Et puis nous examinerons PrePPI, qui traite de tout purement à - sans réellement calculer explicitement les structures.

D'ACCORD. Alors, que fait PRISM ? Eh bien, c'est basé sur l'idée qu'il existe un nombre limité d'architectures que nous pourrions examiner pour lesquelles les protéines peuvent interagir. Et donc si nous pouvons identifier ces architectures, alors nous pouvons essayer de déterminer si une protéine est un partenaire potentiel d'une autre avant de faire les calculs détaillés et coûteux.

De plus, dans ces architectures, tous les acides aminés ne seront pas égaux, mais il y en aura certains qui contribueront plus à l'énergie que d'autres. Ainsi, en identifiant ces résidus critiques, nous pouvons à nouveau concentrer notre énergie de calcul sur les complexes les plus susceptibles d'être importants.

D'ACCORD. Il a donc ces deux composants - une comparaison structurelle de corps rigide. C'est donc que deux protéines ne changent pas leurs propres coordonnées, elles sont simplement réunies dans des conformations différentes. Et puis une fois que les protéines ont passé une série de contrôles, nous permettons un raffinement flexible en utilisant les types d'énergies que nous avons examinés dans les conférences précédentes pour décider de la haute affinité de ce complexe.

Et l'essentiel est que nous allons prendre certaines de ces premières décisions après la comparaison des corps rigides en utilisant la similitude structurelle, la conservation évolutive et en particulier en examinant ces régions appelées points chauds. Ce sont des sites où la plupart de l'énergie libre d'interaction se produit au cours d'une interface. Donc, comme je l'ai dit, ce n'est pas uniformément réparti.

Je vous ai donc montré cette diapositive la dernière fois. Il montre la chymotrypsine en gris clair et son interaction avec certains partenaires protéiques. Ces deux-là partagent une certaine similitude globale les uns avec les autres, alors que ce partenaire est assez différent de l'un ou l'autre de ces deux globalement. Mais vous pouvez voir qu'à l'interface, c'est en fait assez similaire. Et donc cela vous donne l'espoir que même si vous ne pouvez pas trouver d'homologue direct -- donc si vous essayiez de comprendre, avec quoi cette protéine en jaune interagit, et vous avez cherché dans la base de données et vous n'avez rien trouvé qui était son homologue structurel, mais si vous pouviez trouver des homologues des régions inférieures qui interagissent, vous pourriez peut-être comprendre qu'il interagit avec la même protéine que celle-ci et celle-ci. D'ACCORD.

Alors qu'en est-il de cette idée de hotspots ? Et c'était une idée qui a été développée pour la première fois en 1995 par cet article, Clackson et Wells, où ils examinaient l'interaction d'un récepteur de surface cellulaire avec son ligand approchant. Et ils ont fait une mutagenèse systématique à travers la surface de l'interface pour voir quand je mute un seul acide aminé en alanine, à quel point cela affecte l'énergie d'interaction.

Ce qu'ils ont découvert, c'est que les choses n'étaient pas du tout uniformes. Ainsi, cette courbe inférieure montre le changement d'énergie libre lorsque vous mutez des acides aminés individuels particuliers en alanine. Et vous pouvez voir qu'il y a de grandes pertes d'énergie libre à certains endroits, et à d'autres endroits, il n'y a presque aucun changement dans la liaison d'énergie libre. Dans quelques endroits, vous bénéficiez réellement de la mutation d'une chaîne latérale en alanine.

Donc, dans ce cas particulier, et cela se maintient dans de très nombreux cas alors, l'énergie libre de liaison n'est pas uniforme sur toute la surface, mais elle est distribuée dans ce que l'on a appelé des points chauds. Voici donc une structure de l'hormone de croissance humaine et de son récepteur. Et en rouge se trouvent les quelques acides aminés qui contribuent de très, très grandes quantités - plus d'une kcal et demie par mole - à l'énergie d'interaction.

Et cela ne correspond à aucun paramètre structurel simple. Ce ne sont donc pas les acides aminés qui ont la plus grande surface, par exemple, ou quelque chose comme ça. Il n'est donc pas anodin de déterminer quelles sont ces régions, bien qu'il existe des algorithmes de prédiction.

Il y a donc des études, et les suivantes ont indiqué qu'environ 10 % des acides aminés à l'interface sont ceux qui ont la plus grande contribution. Il existe certaines tendances, mais aucune d'entre elles n'est une règle stricte. Ceux-ci ont tendance à être riches en ces trois acides aminés - le tryptophane, l'arginine et la tyrosine.

Si vous pouvez imaginer, ce sont des régions de la protéine qui sont très complémentaires. Il y aura donc un patch d'un côté qui est un hotspot correspondant à un autre patch sur l'autre protéine qui est également un hotspot. Et c'est une note intéressante qu'autour de ces régions où se trouvent les points chauds, il y a d'autres acides aminés qui excluent le solvant de l'interface. Et ils appellent ça un joint torique. Voici donc quelques-unes des caractéristiques qui ont tendance à se produire avec les interfaces protéiques.

Donc, dans cet algorithme PRISM, ce qu'ils font est le suivant. Ils partent d'un modèle - deux protéines qui sont connues pour interagir - et ils définissent l'interface simplement en approchant étroitement les acides aminés d'une chaîne avec les acides aminés de l'autre. Donc, dans ce cas, ces boules sont représentées par des régions des protéines qui interagissent.

Et puis ils isolent les résidus interfaciaux. Ignorez le reste de la protéine, car nous avons dit que les parties qui interagissent dans différentes protéines pourraient être homologues même si les structures globales des protéines ne le sont pas, n'est-ce pas ? Nous allons donc faire nos calculs de similarité structurelle uniquement sur les résidus d'interface et non sur l'ensemble de la structure.

Ainsi, avec ce modèle, vous pouvez ensuite examiner de nombreuses protéines et voir si elles ont une correspondance structurelle avec des pièces qui interagissent. Donc ici, ils ont identifié cette protéine, ASPP2, qui a une homologie structurelle avec I kappa b à l'interface. Même si globalement c'est assez différent.

Et maintenant, une fois qu'ils auront ce partenaire potentiel pour NF kappa b, cet ASPP2, ils vont tester s'il y a une bonne correspondance structurelle, que ce soit spécifiquement dans les régions qui sont des hotspots -- ils ont un algorithme pour prédire les hotspots -- si le match est bon, qu'il s'agisse de la conservation des séquences à ces points chauds. Et ce n'est qu'alors qu'ils procèdent au raffinement pour effectuer le raffinement flexible du type que nous avons examiné dans la conférence précédente, la minimisation de l'énergie et d'autres approches pour déterminer quelle serait la meilleure structure possible de ce complexe, puis ce qui est gratuit. l'énergie serait.

Voici donc leur description du problème. Ils ont des protéines modèles et des cibles. Ils font un alignement de structure. Ils ont demandé s'il dépasse certains seuils. Ce sont des calculs très, très rapides à faire. Et ce n'est que s'ils réussissent ces calculs rapides que vous faites des calculs plus détaillés. Et enfin, ce n'est que si cela réussit que vous effectuez le raffinement très coûteux en calcul.

Et puis une chose essentielle à retenir de cet algorithme est qu'il ne nécessite pas que le modèle et sa requête soient parfaitement adaptés dans la structure. En effet, les éléments de la structure à l'interface pourraient provenir de différentes parties de la chaîne. Ils ne tiennent donc pas compte de l'ordre de la chaîne.

Donc, si j'avais une structure de feuillet bêta dans une protéine qui ressemble à ceci, dans ma requête, ces deux protéines pourraient être très indirectement connectées. Je me fiche qu'il y ait un énorme écart dans l'insertion. Je me soucie juste que localement à l'interface, une protéine ressemble beaucoup à l'autre. Il y avait une question dans le dos.

PUBLIC : Comment recherchez-vous dans une base de données des structures 3D ? Regardez-vous simplement tous les [INAUDIBLE] ?

PROFESSEUR : C'est vrai. La question était donc : comment rechercher une structure 3D dans une base de données ? Vous effectuez des comparaisons de similarité structurelle basées sur les coordonnées 3D. La façon la plus simple de le faire, mais pas la plus efficace, est de trouver les superpositions de corps rigides qui minimisent la déviation quadratique moyenne, qui était une métrique que nous avons donnée dans l'une des conférences précédentes.

Il y a aussi des choses plus rapides que vous pouvez faire. Vous pourriez imaginer que vous pourriez regarder certaines caractéristiques globales d'éléments de structure secondaire et ainsi de suite. Et il y a eu beaucoup de travail pour rendre ces algorithmes très rapides. D'autres questions? Bonne question.

Ils donnent donc un exemple dans leurs articles qui part de ce complexe structurel connu, la kinase dépendante de la cycline, la cycline, et p27, l'inhibiteur. Et puis à la recherche de correspondances structurelles. Nous pouvons donc identifier cette correspondance de structure potentielle. Vous l'avez affiné, obtenez une énergie d'interaction. Essayez-en un autre qui n'a pas de similitude structurelle globale. Encore une fois, une fois toutes les vérifications réussies, vous calculez le raffinement et l'énergie. Et de même avec ce côté.

Et donc à partir de ce complexe initial, où nous avions ces deux protéines qui étaient connues pour interagir dans le PDP, ils peuvent prédire que ces autres protéines sont susceptibles d'interagir même si, encore une fois, au niveau mondial, il y a très peu de similitude de séquence. Est-ce clair?

D'ACCORD. Donc, l'avantage de ceci est qu'il fait finalement ces raffinements structurels qui nous permettent de déterminer la meilleure correspondance entre deux protéines potentielles en interaction. Mais c'est aussi sa faiblesse car cela prend beaucoup de temps de calcul.

Donc, cette autre approche appelée PrePPI ne fait jamais réellement ces raffinements structurels du type dont nous avons parlé dans la conférence précédente. Alors, si oui, comment savoir si les deux protéines sont susceptibles d'interagir ? Voici donc leur schéma, et nous allons passer en revue les étapes.

Vous commencez donc avec deux protéines de requête dont vous voulez savoir si elles interagissent. Et vous effectuez une similarité de séquence avec une base de données de structures connues. Vous trouvez donc des homologues de séquence à ces protéines. Et c'est ainsi qu'ils appellent ces modèles d'homologie. MA et MB.

Et maintenant, ils recherchent dans la base de données tous les homologues structuraux, pas les homologues de séquence, mais les homologues structuraux de MA et MB.Ils obtiennent donc une série de voisins qu'ils appellent NA 1 à n et NB 1 à n. Ce sont donc les voisins de ces homologues.

Et ils ont demandé si l'un de ces voisins, quoi que ce soit dans cette rangée, quoi que ce soit dans cette rangée, est connu pour interagir. Et cette interaction potentielle pourrait alors être un modèle pour l'interaction de la requête, n'est-ce pas ? Jusqu'ici tout va bien.

Ensuite, ils font un alignement de séquence. Ils séquencent l'alignement de MA et MB, qui sont les homologues structurels connus des requêtes, et les deux protéines qui sont connues pour interagir. Et maintenant, ils ont ce modèle potentiel pour l'interaction des requêtes composé de deux protéines de structure connue qui ont des homologues connus pour interagir. D'ACCORD? C'est donc à deux pas de l'interaction réelle.

Maintenant, alors que leur figure dit qu'ils font une superposition structurelle, ce n'est pas, en fait, ce qu'ils font. Si vous le regardez attentivement, c'est une analyse de séquence. Et je vais vous guider à travers les étapes dans une seconde. Ils signifient donc structurés de manière assez lâche. Donc, ils ne font que des comparaisons de séquences ici. Ils ne construisent jamais réellement un modèle d'homologie pour les requêtes. d'accord

Donc ce chiffre vient du supplément où, pour une raison mystérieuse, ils ont changé toute la nomenclature. Ainsi, les choses qui s'appelaient auparavant NA et NB sont maintenant appelées TA et TB. Prenez ce que vous obtenez. Il s'agit donc d'une paire de protéines en interaction dont la structure de l'interaction est connue. Et ce sont des voisins structurels de NA et NB, dont vous ne savez pas s'ils interagissent ou non.

Ils identifient des résidus en interaction dans cette structure. C'est pourquoi il est représenté par ces lignes noires reliant des points bleus. Ce sont donc des résidus en interaction des deux protéines matrices et des voisins NA et NB. Et ils ont demandé si les acides aminés dans MA et MB sont également de bonnes correspondances pour cette interface. Et ils ont un certain nombre de critères pour le faire.

Ils proposent donc cinq mesures. La première de ces mesures est une similarité structurelle entre ces protéines MA et les MA et MB et NA et NB. Alors la similitude-- OK, la similitude est la similitude structurelle. Ensuite, ils ont demandé combien d'acides aminés à cette interface et quelle fraction des acides aminés à l'interface peuvent être alignés ? Il s'agit donc d'un alignement basé sur une séquence de MA et - eh bien, il s'appelle ici TA, mais s'appelait auparavant MA. Juste pour se compliquer la vie. C'est donc l'alignement basé sur la séquence.

Ce sont des résidus en interaction, tous les bleus dans la structure de TA et TB interagissant. Et ils ont demandé quelle fraction et quel nombre de ces acides aminés sont alignés dans cet alignement de séquence ? Alors ici, ils arrivent avec un nombre. Dans ce cas, je suppose, il s'agit de quatre acides aminés - quatre paires, devrais-je dire, d'acides aminés - un, deux, trois et quatre, indiqués par ces quatre lignes - interagissent tous les deux dans la structure du complexe et peut être aligné sur des séquences dans MA et MB.

Et puis ils utilisent ces autres algorithmes qui sont principalement basés sur l'apprentissage automatique en examinant les interfaces des protéines pour décider si la séquence des acides aminés qui vont se trouver à ces endroits de l'interface est susceptible d'être des résidus qui se produisent généralement aux interfaces. C'est donc le genre de statistiques que je vous ai déjà montrées à partir de ces vieux papiers qui disaient que 10% des acides aminés se trouvent dans ces points chauds. Certains types d'acides aminés y sont prédominants. Donc le nombre d'algorithmes, et ils en listent un tas, qu'ils utilisent pour arriver à un score pour décider si ces résidus, en fait, sont statistiquement susceptibles d'être de bonnes correspondances. Donc, ils ont ces critères et ils décident alors qu'une certaine fraction des acides aminés à cette interface dans MA et MB sont susceptibles d'être raisonnables pour être à l'interface.

Donc, avec tout cela fait, ils utilisent ensuite tous ces différents scores avec un classificateur bayésien, et nous parlerons un peu plus tard dans cette conférence et probablement la prochaine conférence ainsi que de ce qu'est un classificateur bayésien. Mais ils branchent tous ces scores en ce qu'ils ont dérivé de ces protéines pour décider si ces deux protéines sont susceptibles d'interagir.

L'avantage de cette approche est donc qu'elle est extrêmement rapide. Tout ce dont nous avons parlé sont des calculs très, très rapides. Même les alignements structurels sont rapides. Les alignements de séquences, bien sûr, le sont. Nous parcourons donc toute la base de données très rapidement. Ils ont donc calculé les partenaires d'attraction potentiels de chaque paire de protéines dans divers génomes en se basant uniquement sur ces alignements.

L'inconvénient - alors quel est l'inconvénient de cette méthode ?

PUBLIC : Vous ne pouvez pas obtenir une interaction de novo ?

PROFESSEUR : Nous ne pouvons pas obtenir d'interaction de novo, donc s'il n'y a pas de structures voisines qui interagissent, elles ne le feront jamais. C'est donc un point important. Et puis l'autre problème est, parce qu'il n'a pas le raffinement structurel, il est abandonné sur ce calcul lent, donc perd aussi beaucoup de spécificité potentielle. Tous les changements de conformation qui peuvent se produire seront perdus pour un algorithme comme celui-ci.

Nous avons donc ces deux approches concurrentes. Oui, des questions dans le dos.

PUBLIC : Cette méthode ne pourrait-elle pas être utilisée comme entrée pour, disons, une étape de raffinement, par exemple ?

PROFESSEUR : La question était : pourriez-vous utiliser ce type d'approche comme contribution à l'étape de raffinement ? Et absolument on pourrait. Y a-t-il une autre question là-bas? D'autres questions?

D'accord. Nous allons donc prendre un léger tournant ici dans le cours magistral et nous éloigner d'une approche purement computationnelle et regarder en fait comment les mesures d'interaction sont effectuées. L'un des grands changements de la dernière décennie est que nous sommes passés d'une époque où les interactions étaient mesurées par paires à des interactions mesurées en masse. Donc grâce à des mesures à haut débit. Et nous verrons que cela nous amène à des problèmes statistiques qui nous ramènent finalement à des problèmes de calcul également.

Donc, si vous voulez mesurer toutes les protéines qui interagissent dans un organisme, cela s'avère évidemment très difficile. Une grande avancée qui a aidé à cela est l'idée de marquer les protéines et d'utiliser la spectrométrie de masse pour comprendre avec quoi elles interagissent. Ainsi, dans ces deux séries d'articles, qui figuraient parmi les premières à être réalisées sur la levure, ils ont pris une protéine à la fois et y ont attaché une étiquette. Et je vais parler de ce que sont exactement ces étiquettes, mais ce sont des étiquettes qui vous permettent de l'attacher à un support solide.

Et puis en vous attachant à un support solide, vous pourriez alors purifier toutes les protéines qui se sont collées à la protéine un ici. Et puis après les avoir purifiés, vous pouvez les exécuter sur un gel, les découper et déterminer quelle était l'identité de ces protéines en interaction par spectrométrie de masse. Cela semble donc très laborieux, mais c'est quand même beaucoup plus rapide que tout ce qui l'a précédé. Et avec cette approche, ils ont pu parcourir des génomes entiers, des protéomes devrais-je dire, et découvrir tous les partenaires d'interaction pour de très, très grandes fractions de toutes les protéines présentes.

Donc, avec cette approche, quels types de protéines pensez-vous être susceptibles d'être des faux positifs ? Des pensées? Oui.

PUBLIC : Protéines collées sur la colonne qui n'ont rien à voir avec l'interaction [INAUDIBLE].

PROFESSEUR : Exactement. Donc, une chose qui peut être assez problématique sont les protéines qui collent à la colonne, quelle que soit la protéine que vous y mettez. Et nous verrons une approche pour s'en débarrasser. D'autres types de problèmes ? Une variante de cela. Les pensées?

Qu'en est-il des protéines qui ont tendance à coller à d'autres protéines de manière non spécifique, n'est-ce pas ? Ceux-ci vont être assez problématiques aussi. Et quels sont les faux négatifs probables dans une approche comme celle-ci ? Les protéines qui interagissent vraiment avec la bleue mais ne sont pas captées. Oui.

PUBLIC : Partenaires d'interaction faibles [INAUDIBLE]

PROFESSEUR : Des partenaires d'interaction faibles, des choses, en particulier avec des demi-vies courtes. Parce que vous faites beaucoup de lavage, cela dépendra donc de la demi-vie. Très bon. Quoi d'autre? Oui.

PUBLIC : Peut-être quelque chose qui interagit dans la région des balises ?

PROFESSEUR : Quelque chose interagit dans la région du tag, c'est ça. Donc, quelque chose qui interagit ici serait perdu parce que cela interférerait stériquement. Très bon. Rien d'autre? Qu'en est-il de la concentration de protéines. Comment cela influence-t-il leur présence ici ?

D'accord. Donc, si j'ai une protéine à très forte concentration, elle peut interagir même si naturellement ce n'est pas le cas. Ils ne se voient jamais. Ils sont dans des compartiments différents. Mais quand [INAUDIBLE] et faites ceci. Mais les protéines à faible abondance vont être assez problématiques car il y en aura très peu dans ces complexes par rapport aux protéines à forte abondance. Il ne sera pas détecté par cette méthode. Ils n'atteindront jamais la spécification de masse, et ainsi de suite. Nous avons donc à la fois des faux positifs et des faux négatifs dans ces approches.

Maintenant, l'une des choses qui sont apparues était les protéines qui collent de manière non spécifique à la colonne. Et il y avait une approche intelligente dans l'un de ces premiers articles qui a été repris pour éviter cela. Et c'est ce qu'on appelle la purification par affinité en tandem, ou TAP-tags. Et l'idée est la suivante.

Nous avons un certain gène. Et nous utilisons la recombinaison homologue - cela a été fait dans la levure où c'est facile - pour insérer cette séquence, qui code pour la suivante. Morceau de protéine sans fonction particulière, pour autant que l'on sache, un espaceur, suivi de cette protéine de liaison à la calmoduline, suivi d'un site de reconnaissance de protéase, puis de la protéine A.

Donc, une fois que cette protéine est exprimée -- et elle est exprimée dans ses niveaux natifs parce que vous l'insérez dans le génome. Ce n'est donc pas sur un promoteur exogène. Il est dans sa position normale. Quelle que soit cette protéine, elle a alors comme terminus C tous ces morceaux. Alors, comment cela aide-t-il?

Dans la purification, nous commençons avec quelque chose, IgG IGG, qui se lie à la protéine A. Alors maintenant, c'est ce qui nous attache au support solide. Et attachés au support solide seront toutes ces choses qui sont des liants non spécifiques.

Et donc si j'ai un liant non spécifique qui aime juste mon support solide, ce sera ici. Non spécifique. Et si je nettoyais simplement à l'acide tout de la colonne et faisais passer mes gels avec ça, ou si je les faisais bouillir dans du SDS, j'obtiendrais aussi la protéine non spécifique. Mais ce qu'ils font à la place, c'est qu'ils se séparent ici avec une protéase très spécifique qui reconnaît ce site. C'est ce qu'on appelle une protéase du virus de la gravure du tabac. Il a une séquence de reconnaissance très longue. Vous pouvez vous assurer qu'il ne coupe nulle part dans aucune autre protéine.

Et maintenant, au lieu de faire allusion de manière non spécifique à l'acide ou au détergent, vous faites spécifiquement allusion à la TEV, et cette partie de la protéine va alors tomber. Et puis vous faites une deuxième purification qui repose sur ce morceau de protéine. Donc, vous ne retirez que les choses que vous voulez qui ont la CBP, la protéine de liaison à la calmoduline, en ayant différents types de support solide auxquels la calmoduline est attachée.

Et ainsi, grâce à ce processus, vous pouvez vous débarrasser de beaucoup de liants non spécifiques. Cela ne vous aide pas avec les faux négatifs, n'est-ce pas ? Vous avez rendu les conditions de lavage encore plus dures, vous allez donc perdre plus de protéines. Mais vous ramasserez moins de faux positifs.

Et puis enfin, la dernière procédure de purification utilise en fait l'EGTA, qui est un agent chélatant. Cette interaction entre la CBP et la calmoduline dépend donc du calcium. L'EGTA aspire le calcium de cette interaction. Et c'est donc, encore une fois, une manière très spécifique d'en faire allusion plutôt non spécifique, comme la chaleur, le sel, l'acide ou le détergent.

Il s'agit donc d'une technologie, la purification par affinité suivie d'une spécification de masse, qui nous a donné beaucoup d'informations sur les interactions protéine-protéine. Et une technologie informatique qui a également beaucoup contribué s'appelle la levure à deux hybrides.

Donc, dans cette approche, vous avez un gène rapporteur qui normalement ne va pas être transcrit. Il a un site de liaison à l'ADN de conception, une protéine de liaison à l'ADN et votre protéine d'appât. Et vous voulez découvrir toutes les protéines qui peuvent interagir avec cette proie. La proie est donc maintenant attachée à un domaine d'activation.

Si ces deux protéines n'interagissent pas, le domaine d'activation n'est jamais recruté par ce rapporteur, il n'y a pas de transcription. Mais si la protéine verte et la protéine bleue interagissent, alors le domaine d'activation va être recruté par ce promoteur et il va activer la transcription, et alors vous obtiendrez un signal.

Quels sont donc les avantages de cette approche ? Cela ne vous oblige pas à purifier quoi que ce soit. Il devrait donc être beaucoup plus sensible aux protéines de faible abondance. C'est donc certainement un avantage.

Il captera beaucoup de ces interactions transitoires. Vous n'obtiendrez peut-être pas une activation continue, mais vous obtiendrez une activation transitoire. Et si vous avez correctement configuré les conditions, vous pouvez activer l'activation transitoire.

Mais il a ses propres biais, donc aucune de ces techniques ne sera parfaite. Cela va être biaisé contre les protéines qui ne s'expriment pas bien. Ceci est, comme son nom l'indique, généralement fait dans la levure. Donc, si vous avez des protéines humaines et que vous les exprimez dans la levure, ou des protéines végétales que vous exprimez dans la levure, il pourrait y avoir des protéines qui ne s'exprimeront tout simplement pas bien dans cet organisme.

Quoi d'autre peut être un problème? Certaines protéines ne fonctionnent pas bien dans le noyau, n'est-ce pas ? Donc, si vous êtes intéressé par les interactions avec les protéines membranaires, il sera très difficile de les exprimer dans le noyau, et par conséquent, vous ne saisirez jamais ces interactions.

D'ACCORD. Nous avons donc ces deux technologies différentes - la spécification de masse de capture par affinité et le double hybride. Des questions sur ces technologies ? Oui.

PUBLIC : Un autre contrôle pourrait-il être pour la purification de la spécification de masse simplement pour soustraire tout ce qui fait allusion de manière non spécifique.

PROFESSEUR : La question était, pourriez-vous soustraire tout ce qui n'est pas spécifique. Et oui, si vous avez ce que vous pourriez appeler des voyageurs fréquents, des protéines qui apparaissent dans chaque purification, alors vous pouvez simplement les ignorer. Et cela se fait souvent. Cela vous aidera donc avec des choses qui ne sont pas spécifiques à la surface.

Ce qui est plus problématique, ce sont les protéines qui ont une certaine affinité pour votre protéine x mais qui ne sont pas vraiment très spécifiques pour elle. Ils ont donc tendance à se lier dans certains types de patchs. Ceux-ci seraient plus difficiles à comprendre car ils ne colleront pas à tout. Bonne question. D'autres questions?

D'accord. Nous avons donc ces différentes technologies. Ce que nous aimerions vraiment pouvoir faire, c'est de savoir qu'il y a des problèmes dans chaque approche. Nous aimerions pouvoir calculer la probabilité que deux protéines interagissent sur la base des données. Nous revenons donc maintenant aux approches computationnelles plus mathématiques.

Donc, si nous considérons juste une expérience-- et nous allons parler de l'étalon-or. Alors, qu'est-ce qu'un étalon-or ? Il s'agit d'un ensemble de protéines pour lesquelles nous avons un degré de confiance extrêmement élevé parce qu'il a été analysé par une autre technologie. Pas de spécification de masse de capture à deux hybrides sans affinité, mais des interactions beaucoup, beaucoup plus directes. Par des mesures physiques, peut-être le gros œuvre. Donc le nombre de critères qui entrent en ligne de compte.

Nous avons donc cet ensemble de données de référence où nous savons que les protéines interagissent définitivement, et nous avons notre expérience. Donc, clairement, tout ce qui se chevauche, nous pouvons compter comme de vrais positifs, n'est-ce pas ? Nous l'avons détecté. C'est dans la base de données des étalons or. Et les choses qui sont dans l'étalon-or que nous avons manquées sont évidemment de faux négatifs. Nous les signalons comme n'interagissant pas, mais en fait, ils le font.

La question est, dans quelle mesure cela est-il vraiment positif ? Tout ce qui est détecté dans l'expérience mais nous n'avons aucune information à ce sujet dans la base de données. Cela pourrait donc être pour l'une des deux raisons, non? Cela pourrait être qu'ils n'interagissent pas vraiment. Ou il se peut que personne ne l'ait mesuré. Le but de cette expérience est de trouver de nouvelles choses.

Existe-t-il donc un moyen d'estimer quelle fraction de toutes les choses qui sont uniques à cette expérience sont de vrais positifs, et quelle fraction sont des faux positifs ? Ceux que nous aimerions essayer de comprendre.

Maintenant, si nous n'avions qu'une seule expérience, ce serait très difficile. Mais que se passe-t-il lorsque nous avons deux expériences ? Nous avons donc ces deux expériences de spectrométrie de masse par capture d'affinité, ou peut-être une spectrométrie de masse par capture d'affinité et un hybride à deux. Alors maintenant, réfléchissons au chevauchement de ces deux expériences avec l'étalon-or.

J'ai donc cette région de chevauchement entre l'expérience 1 et l'expérience 2, puis cette région qui se chevauche entre les trois choses. Expérience 1, expérience 2 et l'étalon-or. Ce sont donc clairement deux points positifs, non? Ils ont une grande confiance parce que je les ai relevés dans les deux expériences, et ils sont dans l'étalon-or.

Qu'en est-il de toutes ces choses dans ce que j'ai appelé ici région 2 ? Eh bien, si nous pensons que ces deux expériences sont indépendantes l'une de l'autre d'une manière rigoureuse - disons donc que l'un est un hybride à deux et que l'autre est une spécification de masse de capture par affinité, il n'y a aucune raison particulière pour que les faux positifs pour l'un soient des faux positifs. dans l'autre. Dans ce cas, je peux appeler cette région 2 mon consensus de vrais positifs. J'ai une très grande confiance que ce sont de vrais interacteurs. Tout le monde achète ça ? Vous sembler raisonnable ?

D'ACCORD. Alors, c'est là que l'astuce entre en jeu. Quelle fraction de tous ces vrais positifs consensuels est prise en compte dans l'étalon-or ? Ce rapport, non? Région 1 sur région 2. OK.

Alors maintenant, j'ai cette région de choses qui sont ramassées - les vrais positifs de cette expérience, puis l'étalon-or. Et puis j'ai cette région qui est unique à l'expérience 2 et ce sera un mélange de vrais positifs et de faux positifs. Et les auteurs de cet article qui sont cités ici avancent l'argument suivant.

Nous allons supposer que le rapport de I à II est le même que le rapport de III à IV. Donc la fraction de vrais positifs consensuels qui sont choisis - ce sont des expériences indépendantes. Ainsi, la fraction de vrais positifs qui sont captés dans l'étalon-or va être constante, qu'ils soient dans le consensus ou non.

Ainsi, la fraction au rapport de I à II va être la même que le rapport de III à IV. Donc, à ce moment-là, je peux déterminer combien de cette région se compose de vrais positifs et combien se compose de faux positifs. Tout le monde achète ça ? Oui.

PUBLIC : Puis-je vérifier - ne sommes-nous pas en train de dire que l'étalon-or représente tous les vrais positifs ?

PROFESSEUR : Exact. Eh bien, nous disons que l'étalon-or consiste en des choses dont nous savons qu'elles interagissent--

PUBLIC : Mais il y en a peut-être plus.

LE PROFESSEUR : Mais il y en a peut-être plus. Et le but de notre expérience est de trouver ces autres. D'accord. Donc, si vous acceptez cette prémisse, qui semble plausible, alors vous pouvez calculer quelle fraction de toutes les choses qui sont ramassées dans chacune de ces expériences sont susceptibles d'être de vrais positifs.

Alors roulement de tambour s'il vous plaît. Il s'avère que le nombre n'est pas si élevé. Donc la fraction des choses dans le consensus était de 347 sur presque 2000. Et si vous faites le calcul alors, ce que vous obtenez, c'est que la vraie fraction dans cette région, pour laquelle nous n'avons pas de données, est de 1 123 sur... et le faux morceau dans tout ça va être près de 15 000.

Et ils sont allés de l'avant et ont fait cela pour un certain nombre d'expériences différentes et ont calculé la fraction de faux positifs dérivés pour ces données - cela pourrait être un peu difficile à voir sur cet écran. Mais les chiffres vont de 50 % de faux positifs à, dans certains cas, plus de 90 % de faux positifs. C'est un peu dérangeant, non ? Ces technologies sont donc bonnes pour capter les interactions, mais il y a lieu d'être très sceptique.

D'ACCORD. Alors maintenant, nous avons un sérieux problème, car comment allons-nous savoir à laquelle de ces interactions faire confiance quand nous savons qu'une très, très grande partie d'entre elles sont des faux positifs ? Alors que pourriez-vous faire? Eh bien, vous ne pouvez prendre que le peu de chevauchement. Vous pourriez dire, j'ai ce diagramme de Venn -- méthode 1, méthode 2. Ils se sont mis d'accord sur un tas de choses. Je ne pouvais donc prendre que ceux-là.

Cela jette évidemment beaucoup. Quelqu'un d'autre a suggéré que nous pourrions jeter les protéines collantes, n'est-ce pas ? Alors peut-être qu'il y a des protéines non spécifiques qui n'apparaissent pas dans toutes les expériences, mais elles apparaissent dans une très, très grande fraction de toutes les expériences. Peut-être que je les jette. C'est une autre possibilité.

Mais ce que nous voulons vraiment faire, c'est en fait arriver à une estimation de probabilité. Ne pas avoir à prendre de décision difficile, mais arriver à une estimation de la probabilité que les choses interagissent sur la base de toutes les données. Alors comment on fait ça ?

Alors tout d'abord, que se passe-t-il si vous avez juste besoin d'un consensus ? Ce graphique montre donc la précision et la couverture de l'étalon-or pour les expériences individuelles avec différents seuils pour décider de ce qui interagit, des seuils différents et des choses. Les expériences individuelles sont donc présentées ici.

Et puis si vous acquérez deux méthodes pour ramasser quelque chose, ou trois méthodes pour ramasser quelque chose, vous pouvez devenir de mieux en mieux dans votre précision. Il s'agit d'un tracé log-log. Donc, si vous avez besoin de trois méthodes pour vous mettre d'accord avant d'appeler quelque chose un vrai positif, vous pouvez aller jusqu'à-- Je ne sais pas exactement ce que c'est, mais 80 %, 90 % peut-être. Droit? Mais regardez où vous êtes sur l'axe des y. Vous n'obtiendrez qu'une couverture inférieure à 1% de l'étalon-or. Ce n'est donc pas une bonne approche.

Donc ce que nous voulons vraiment faire, comme je l'ai dit, c'est essayer d'estimer la probabilité que les protéines interagissent étant donné toutes nos données disponibles. Et les données pourraient être des expériences spécifiques. Disons les deux expériences de spectrométrie de masse différentes dont nous venons de parler. Ou comme nous le verrons un peu plus tard dans cette conférence et peut-être la suivante, d'autres types de données étrangères qui ne sont pas des mesures physiques directes d'interaction, mais pourraient nous donner l'assurance que les choses interagissent en fonction de la similitude dans l'annotation, ou de la similitude dans l'expression des gènes, etc. Et nous allons entrer dans les détails de cela.

D'ACCORD. Donc, pour ce faire, nous avons besoin d'un petit rappel sur les statistiques bayésiennes. Je veux donc mesurer la probabilité qu'une interaction soit vraie compte tenu des données disponibles. Droit? Et je peux estimer cela en fonction de la probabilité d'observer les données pour des choses que je sais être vraies et ces estimations antérieures. Quelle est donc la probabilité a priori qu'une interaction soit vraie et la probabilité a priori d'observer un ensemble de données particulier.

Maintenant, cela en soi n'est pas vraiment utile. Je ne vous ai pas encore dit comment calculer l'un des termes à droite. Mais supportez-moi. Si je veux décider de la probabilité qu'une protéine interagisse, quelle est-elle ? Est-il plus probable qu'il interagisse ou non? Je peux calculer ce rapport. La probabilité que l'interaction soit vraie compte tenu des données sur la probabilité qu'une interaction soit fausse compte tenu des données. C'est le rapport de vraisemblance.

Donc, par cette formule, j'annule ensuite cette probabilité des données, la probabilité a priori des données. Et si j'avais un moyen de calculer cela, et nous y arriverons dans une seconde, alors s'il est plus probable qu'improbable que ce soit une véritable interaction, je peux l'appeler une interaction, n'est-ce pas, si c'est moins probable. Donc si ce rapport est supérieur à 1, je l'accepte comme une véritable interaction. Si ce rapport est inférieur à 1, alors je le rejette.

D'ACCORD. Alors maintenant, notre défi est de comprendre comment calculer ces termes. Une autre chose à noter est que si tout ce que je veux faire est de pouvoir classer chaque interaction par ce rapport de vraisemblance, plutôt que de proposer un seuil strict, alors je n'ai pas besoin de tous ces termes. C'est donc le rapport de vraisemblance. Je peux le convertir en un espace de journal. Ce sera donc la somme de ces deux termes.

Et si je classe simplement tout par ce rapport de vraisemblance log, ce terme est le même pour chaque interaction. Il est juste composé de probabilités antérieures. Cela n'affectera donc pas du tout le classement. Des questions là-dessus ? Est-ce clair? Bon.

Donc, si je veux juste proposer une fonction de classement, tout ce que j'ai à faire--tout-- j'ai besoin de faire est d'être capable d'estimer la probabilité d'observer des données pour de vraies interactions et la probabilité d'observer cet ensemble de données pour les fausses interactions. Tout le monde achète ça ? Oui s'il vous plaît.

PUBLIC : Lorsque vous dites que la probabilité a priori est la même pour toutes les interactions, nous disons que nous supposons la même probabilité a priori pour toutes, ou est-ce [INAUDIBLE] ?

PROFESSEUR : C'est sa définition. Nous voulons dire, quelle est la probabilité a priori que les protéines interagissent par rapport à la probabilité a priori ? C'est donc indépendant des protéines que nous examinons. D'autres questions?

D'accord. Nous avons donc besoin d'un moyen de calculer cette partie de toutes les choses que nous avons examinées auparavant. Alors, comment obtenons-nous une estimation de la probabilité d'observer une configuration particulière des données ? C'est-à-dire que je le détecte dans l'expérience 1 et non dans l'expérience 2, mais dans l'expérience 3. Quelle est la probabilité qu'il s'agisse d'une véritable interaction ? C'est donc dans ce domaine que nous allons nous plonger maintenant.

D'ACCORD. Donc une chose que nous pourrions faire pour rendre la vie plus simple, et puis nous supprimerons cette simplification plus tard, mais supposons, pour le moment, que toutes mes données sont indépendantes. Ainsi, le double hybride va avoir des erreurs complètement différentes de celles de la spécification de masse de capture par affinité. Ces deux ensembles de données vont donc être complètement indépendants l'un de l'autre.

Je peux donc écrire ceci comme le produit d'une observation particulière - une expérience de spécification de masse particulière et une expérience à deux hybrides particulière pour les vraies attractions et les fausses interactions. C'est donc le produit de la probabilité qu'une expérience particulière détecte une interaction si l'interaction est vraie sur la probabilité que cette expérience particulière la détecte s'il n'y avait pas d'interaction. Je vais juste multiplier toutes ces probabilités. Oui.

PUBLIC : [INAUDIBLE]. C'est une paire d'interaction ?

PUBLIC : Et vous prenez le produit sur toutes les paires d'interaction au cours d'une exécution de l'expérience. Est-ce exact?

PROFESSEUR : Si je veux déterminer si une paire d'interaction particulière-- je veux calculer ce rapport de vraisemblance log, ou ce, en fait, le rapport de classement, parce que j'ai jeté les a priori. Je veux calculer ce ratio de classement pour une paire particulière. J'ai donc la protéine A et la protéine B. Et je veux déterminer si je pense qu'elle est plus susceptible d'interagir ou non, et la classer avec toutes les autres, n'est-ce pas ? Donc je fais ça pour une paire de protéines maintenant. Jusqu'ici tout va bien?

Maintenant, pour cette paire de protéines, j'ai une série d'observations, ou un manque d'observations, n'est-ce pas ? J'ai tout un tas d'expériences. Cette expérience l'a détecté, cette expérience ne l'a pas détecté, celle-ci l'a fait. Alors, quelle est la probabilité que ces protéines - ces A et B interagissent vraiment étant donné que oui, non, oui dans mes expériences ? Et puis pour la nouvelle protéine, ça pourrait être non, non, oui, et ce que je veux comprendre la probabilité pour cette paire.

PUBLIC : Alors, l'échelle de la grande lettre M est-elle de l'ordre de 10 expériences, 100 expériences ou des milliers d'expériences ?

PROFESSEUR : Ah. La question est donc de savoir quelle est l'ampleur de cela. Alors évidemment, cela va dépendre du type de données que j'apporte, mais dans ces cas, c'est petit. Nous avons donc une poignée de ces expériences à haut débit sur des génomes et des protéomes entiers. Il ne doit donc pas y en avoir beaucoup. Ainsi, dans certains de ces premiers articles, il y avait quatre expériences d'interaction qu'ils examinaient. Maintenant, les chiffres pourraient être un peu plus gros, mais pas beaucoup plus.

D'accord. Alors maintenant, pour calculer cela, nous avons besoin d'un ensemble d'étalons-or. Mais maintenant, nous n'avons pas seulement besoin d'interactions positives de référence, des protéines dont nous savons qu'elles interagissent réellement. Nous avons également besoin de protéines dont nous savons qu'elles n'interagissent pas vraiment. Parce que je veux calculer la probabilité d'une observation étant donné qu'une interaction est définitivement fausse.

Donc, précisément, la façon dont je calcule ces termes va dépendre des types de données. Les expériences dont je viens de parler, ces spécifications de masse à haut débit, qui étaient celles pour lesquelles nous avons examiné le rapport du consensus, les vrais positifs, et estimé que 96% de toutes les données étaient peut-être erronées. Les détails sur la façon de faire ces calculs sont ici. Je vous laisse chercher si ça vous intéresse.

Mais maintenant, ce que nous allons faire, c'est voir comment, si nous devions classer les interactions en fonction de ce terme, nous pouvons éviter d'avoir à jeter la plupart de nos données. Nous avons donc dit que si nous exigeons que toutes les expériences soient d'accord, nous aurons une couverture très, très faible. Maintenant, nous allons plutôt tout classer en fonction de ce rapport de vraisemblance, ou de quelque chose dérivé du rapport de vraisemblance.

Donc, dans cet article où ils examinaient simplement les ensembles de données d'interaction protéine-protéine pour calculer ces interactions, ils ont tout classé en fonction de cette fonction de classement que nous venons de décrire. Et alors que vous faites varier votre seuil, vous pouvez déterminer combien de vrais positifs vous avez et combien de faux positifs vous avez dans l'étalon-or. Les vrais interacteurs et les faux interacteurs. Et vous pouvez calculer cette courbe, n'est-ce pas ? Pour une valeur particulière de ce ratio de classement, quelle est ma sensibilité et quelle est ma spécificité ? Êtes-vous clair ce que signifie ce complot?

Et ici, ils ont tracé les valeurs pour des expériences individuelles. Et c'est la valeur d'une base de données indépendante d'interactions de référence. Et maintenant, où trouvent-ils leurs vrais positifs et leurs faux positifs ? Cela dépendra en grande partie de leur représentativité. Et tous ces chiffres sont sujets à révision si vous décidez que les vrais positifs et les faux positifs que les gens utilisent ne sont pas assez précis.

Ils ont donc utilisé deux bases de données d'interactions bien annotées. Un de MIPS et un de SGD. Et vous pouvez les opposer les uns aux autres comme base de données de vrais positifs. À certains égards, c'est la chose la plus facile parce que les gens aiment signaler que les protéines interagissent. Ils ont tendance à ne pas aimer signaler que les protéines n'interagissent pas. Vous ne voyez pas beaucoup d'articles sur la nature disant que la protéine x n'interagit pas avec la protéine y.

Alors, comment allez-vous découvrir, alors, quels sont vos vrais points négatifs ? Donc les stratégies qu'ils ont utilisées -- eh bien, une possibilité est qu'elles soient annotées pour être dans des complexes, et ces complexes sont différents les uns des autres. C'est pas mal, non ? Mais ce n'est pas une garantie non plus.

Ou c'est un peu mieux. Ils sont annotés pour être dans différentes parties de la cellule. Bien sûr, si ces annotations ne sont pas parfaites, de faibles concentrations, vous pouvez toujours vous tromper. Ou qu'ils ont une expression génique anti-corrélée. J'aime bien celui-ci. C'est donc une chose de ne pas être corrélée, mais si vous êtes anti-corrélée, cela semble assez suggérer que ces deux protéines ne sont jamais dans un complexe ensemble.

Encore une fois, ce n'est pas une garantie car, comme nous en parlerons en détail plus tard, les niveaux d'ARN ne sont pas de très bons prédicteurs des niveaux de protéines. Mais si vous appliquez suffisamment de ces critères, vous pouvez arriver à un ensemble de protéines dont vous avez une assez grande confiance pour qu'elles n'interagissent vraiment pas. Vous combinez cela avec les bases de données de protéines avec une très grande confiance qu'elles interagissent, et vous pouvez obtenir les vrais positifs et les faux positifs dont vous avez besoin pour cette analyse.

d'accord. C'est donc une façon de combiner certaines informations. Nous allons voir une généralisation de ce qu'on appelle les réseaux bayésiens. Nous l'avons déjà mentionné dans au moins deux contextes différents, et cela reviendra également plus tard dans le cours.

Ce sont donc des méthodes très générales de raisonnement probabiliste. Nous les verrons ici dans le cadre de la prédiction des interactions. Nous les verrons plus tard dans le contexte de la régulation et de la signalisation des gènes également.

Ce dont nous avons fondamentalement besoin pour créer un réseau bayésien, c'est une structure graphique qui représente notre compréhension de la relation entre les causes et les effets. Et un ensemble de probabilités qui nous permettent de calculer des choses sur ce réseau. Nous allons vous montrer des exemples où ces réseaux sont dérivés de notre compréhension préalable du problème, mais aussi ceux où la structure du réseau est apprise à partir des données.

Et nous allons voir deux contextes principaux. Nous avons d'abord cette question de savoir si les protéines interagissent. C'est de cela que nous venons de parler. Voici donc quatre expériences, les expériences de pulldown in vitro et les expériences sur deux hybrides de levure, qui nous donnent des informations relativement indépendantes sur l'interaction des protéines. Et nous allons examiner un article qui a utilisé ces données avec un réseau bayésien pour calculer la probabilité que deux protéines interagissent réellement en fonction de la combinaison de toutes les données, plutôt que de jeter tout ce qui ne tombe pas dans le chevauchement , ce qui pourrait être un très, très petit nombre.

Et puis plus tard, nous verrons des exemples d'utilisation de réseaux bayésiens pour comprendre les réseaux biologiques. Il pourrait donc s'agir d'un ensemble de facteurs de transcription qui régulent un ensemble de gènes exprimés de manière différentielle. Et la structure du réseau graphique pour un réseau bayésien a beaucoup de similitudes avec la façon dont nous pensons normalement aux réseaux de régulation transcriptionnelle. Il y a donc une sorte de manière naturelle de transférer notre problème de réglementation dans un problème de réseau graphique.

Mais nous allons d'abord nous concentrer sur ces problèmes de prédiction des interactions protéine-protéine. Maintenant, si je veux juste calculer la probabilité de détecter une interaction dans diverses expériences, étant donné qu'elle est vraie ou fausse, je pourrais explicitement calculer cette probabilité. Et nous en avons vu des exemples tout à l'heure.

Mais certains de ces problèmes de réseau bayésien deviennent beaucoup, beaucoup trop importants pour cela. C'est un tout petit morceau d'un réseau bayésien qui est censé représenter, je crois, son réseau de régulation transcriptionnelle. Vous ne pourriez jamais écrire tous les termes de cette probabilité, où chaque nœud pourrait, en principe, dépendre de tous les autres nœuds du réseau. Ce serait juste un problème ridiculement important.

En fait, quelle serait la taille si j'avais N variables binaires, mon gène est activé ou désactivé, mon interaction est vraie ou fausse, j'ai 2 sur les N états possibles ? Droit? Et la seule contrainte que j'ai, en principe, c'est que toutes les probabilités doivent totaliser une. J'ai donc 2 au N moins 1. 2 au N moins 1 variables possibles que je dois définir. C'est donc un nombre ridiculement élevé dans la plupart des contextes.

Alors, comment les réseaux bayésiens nous aident-ils à résoudre ce problème ? Eh bien, nous représentons notre compréhension du problème dans une structure graphique où nous avons des causes et des effets. Et il y aura une flèche directe d'une cause à un effet. Je ne connais pas toujours la cause. Donc, dans notre contexte, nous essayions de déterminer si deux protéines interagissent. Que mesurons-nous ?

En fait, nous ne mesurons pas les interactions. Nous mesurons le résultat d'une expérience particulière, qui est une combinaison d'interactions et de toutes sortes de bruits dont nous venons de parler. Ainsi, les effets que nous observons sont détectés dans l'expérience un ou détectés dans l'expérience deux. La cause est, a-t-il interagi ou non? Alors la cause est cachée, les effets sont observés.

Maintenant, dans le cas que nous examinions auparavant, nous avons traité toutes ces probabilités comme étant indépendantes. Mais nous pourrions savoir quelque chose sur la structure de nos expériences, les types d'expériences que nous faisons, qui pourraient nous amener à avoir une structure différente. Nous pourrions donc avoir une interaction qui donne lieu à toutes sortes de données différentes.

Mais selon que la protéine est une protéine membranaire ou fortement exprimée, cela peut influencer les résultats de certaines expériences et ne pas influencer les résultats d'autres, n'est-ce pas ? Donc, comme un bi-hybride serait très biaisé par lequel d'entre eux ? La membrane, non ? Et puis la spécification de masse de capture par affinité pourrait être très influencée par des protéines exprimées à des niveaux très élevés ou très faibles.

Si nous supposons que toutes les interactions sont indépendantes, alors nous multiplions les probabilités. Et nous allons entrer dans les détails, mais c'est ce que nous regardons jusqu'à présent. Dans les cas où nous pensons que toutes les observations ne sont pas indépendantes, alors nous n'allons pas simplement multiplier les choses. Nous verrons qu'il existe une manière plus précise de calculer les probabilités.

Maintenant, dans ce cas, j'ai dessiné la structure graphique parce que je crois que je sais ce qui se passe. Mais dans le cas plus général que nous examinerons, nous dériverons en fait la structure des données.

L'un des avantages des réseaux bayésiens est qu'ils suppriment le besoin d'avoir tous les 2 aux N moins 1 paramètres possibles, car ils nous indiquent qu'il existe certaines conditions d'indépendance. Le nœud est donc indépendant de ses ancêtres étant donné ses parents. Qu'est-ce que ça veut dire?

Si j'essaie de raisonner sur l'expression de l'un des gènes ici, et que je sais que ce facteur de transcription est activé, je me fiche de la probabilité qu'un parent particulier de ce facteur de transcription soit activé, n'est-ce pas ? Je n'ai donc pas besoin de savoir quoi que ce soit du facteur de transcription B1 si je connais l'état de B2. Si c'est activé, alors c'est la seule chose qui va affecter l'activation de ces gènes, quel que soit l'état d'activation de son parent. Est-ce clair? Oui.

PUBLIC : La diapositive indique TF B1. [INAUDIBLE] TF B2 ? C'est écrit TF A1.

PROFESSEUR : Oui, désolé. Cela devrait dire TF B1. Merci. D'ACCORD. Alors on va faire un petit exemple. C'est la saison d'admission à la fois pour les études supérieures et de premier cycle. Faisons donc un petit exemple de jouet où nous allons nous débarrasser des comités d'admission et nous contenter de faire des admissions automatisées.

Nous allons donc collecter diverses données sur les étudiants, puis nous allons construire un réseau bayésien.Et ce réseau va décider d'admettre ou non des étudiants dans cette version simplifiée. Et les seules informations qui entreront dans notre décision seront les notes sur le relevé de notes et les GRE. Espérons que ce ne soit pas le cas.

Et nous pensons que certaines choses ont influencé vos notes et vos GRE. Que l'élève soit intelligent ou non devrait certainement avoir une certaine influence, mais aussi la grande inflation à leur école aura une certaine influence.

Ainsi, un problème de prédiction dans un réseau bayésien va des causes aux effets. Donc si je veux prédire si un étudiant est admis, je n'ai qu'à regarder en amont. Donc nous voulons prédire-- nous observons les choses en haut. Disons, les notes et les GRE, et nous voulons prédire si cet étudiant doit être admis ou non.

Il existe un autre problème appelé problème d'inférence, c'est-à-dire lorsque nous observons l'effet et que nous voulons faire des inférences sur les causes. Un exemple de cela serait, vous postulez pour un stage et ils disent, oh, elle est étudiante au MIT. Je parie qu'elle est intelligente. Droit? Ils font un problème d'inférence.

Nous vous laisserons le soin de décider si vous et vos collègues êtes aussi intelligents que tout le monde le pense, mais j'espère que vous l'êtes. D'ACCORD. Nous avons donc ces deux types de problèmes différents. Nous avons des problèmes de prédiction de haut en bas et des problèmes d'inférence de bas en haut.

Et nous allons parler de probabilité conditionnelle. Donc, si j'ai un tout petit morceau de ce réseau avec seulement deux nœuds, je pourrais écrire toutes les probabilités possibles pour n'importe quelle paire de ces nœuds. Donc la probabilité qu'un élève ne soit pas intelligent étant donné que cet élève a de faibles notes, la probabilité que l'élève ne soit pas intelligent étant donné que l'élève a de bonnes notes, et ainsi de suite, pour toutes les comparaisons possibles par paires.

Ou je pourrais écrire cela comme une probabilité conditionnelle, ce qui tend à être un moyen plus facile de réfléchir au problème. Quelle est la probabilité conditionnelle qu'un élève soit intelligent étant donné qu'il a de bonnes notes ou qu'il a de mauvaises notes ? Ils ont les mêmes informations. Pour celui-ci, j'ai besoin d'informations supplémentaires sur la probabilité totale que les élèves soient intelligents ou non.

Et le nombre total de variables, comme je l'ai dit, dans les deux cas est le même. Ceux-ci sont donc complètement interchangeables, mais il est beaucoup plus facile de raisonner avec des probabilités conditionnelles qu'avec les tables de probabilités conjointes. Ceux que nous verrons dans une seconde.

Donc, comme je l'ai dit, vous n'avez pas besoin d'une table de probabilité complète pour un réseau bayésien. Vous n'avez pas besoin de deux variables N à moins 1. Et la raison fondamentale en est que la probabilité conjointe ne dépendra que des parents. Ainsi, dans cet exemple de jouet, les scores GRE ici ne dépendent pas de l'inflation des notes.

Maintenant, tout cela, espérons-le, a du sens. Des questions? Les réseaux bayésiens deviennent un peu obscurs ensuite, alors je vais essayer de vous parler de-- oh, oui. Question, s'il vous plait.

PUBLIC : Vous avez dit que les parents n'affectent pas leurs enfants, mais si l'inflation des notes affecte les notes, comment cela influencera-t-il la note [INAUDIBLE] ?

PROFESSEUR : Désolé, pouvez-vous répéter la question ?

PUBLIC: Je suppose que je suis juste confus par cet exemple particulier. Qu'entends-tu par probabilité conjointe ? La probabilité conjointe de quoi ?

PROFESSEUR : Donc, si je veux déterminer la probabilité d'une configuration particulière de tous les nœuds de mon réseau, je n'ai pas nécessairement besoin de considérer toutes les possibilités. Parce que, par exemple, si je veux considérer tous les échantillons de probabilité conjointe avec des paramètres pour les GRE, que l'élève ait ou non de bons scores GRE, cela ne sera pas influencé par les politiques d'inflation des notes de l'école de l'élève.

PUBLIC : Mais les notes ne seraient-elles pas influencées par le--

PROFESSEUR : Mais les notes le seraient. C'est exact. Donc, certaines des variables que je peux supprimer et d'autres - certaines des déclarations de probabilité conjointes dont je n'ai pas besoin de m'inquiéter et d'autres, je le fais. Et ceux que je dois prendre en compte sont déterminés par la structure du graphe. Oui.

PUBLIC : Comment la structure du graphe est-elle déterminée ?

PROFESSEUR : D'accord. Alors, comment la structure du graphe est-elle déterminée ? Il est donc déterminé de l'une des deux manières suivantes. Je peux le dessiner à l'avance car je crois que je sais quelque chose sur mon cadre, je crois que ces données sont indépendantes. Ensuite, il a cette structure comme celle-ci. Cause et un tas d'effets indépendants.

Ou peut-être que je prétends savoir qu'en fait deux de ces choses ont aussi un parent commun. Dans certains cas, je sais. Nous parlerons également de la façon d'apprendre la structure à partir des données, qui est le paramètre le plus courant dans les réseaux de réglementation. Ainsi, dans ce genre de problèmes, lorsqu'ils essaient de décider comment intégrer différents ensembles de données protéomiques, les gens prennent généralement des décisions arbitraires sur la structure en fonction de leur connaissance du système.

Mais si vous essayez de déterminer de novo quelles protéines interagissent avec quelles protéines, quelles protéines régulent quels gènes, alors vous devez l'apprendre à partir des données. Et nous allons parler de la façon de le faire dans une seconde. Grandes questions. D'autres questions? Quelque chose dans la moitié calme de la pièce ?

D'ACCORD. Donc, comme je l'ai dit, cette partie, je pense que vous pouvez généralement proposer des cas qui vous donnent une assez bonne intuition. L'une des choses vraies dans ces réseaux bayésiens que la plupart des gens trouvent un peu surprenantes au début, c'est ce qu'on appelle expliquer. Regardons donc ce réseau bayésien.

Je sors et je détecte que les choses sont glissantes sur l'herbe. Cela peut être dû à de nombreuses raisons, mais l'une des raisons possibles est que l'herbe est humide. D'ACCORD. Quelles sont les causes de l'humidité de l'herbe? Eh bien, il aurait pu pleuvoir ou les gicleurs auraient pu être allumés.

Et selon cet exemple, de nombreux réseaux bayésiens ont donc été développés à Stanford par Judea Pearl et ses collègues. Et bien sûr, en Californie, il ne pleut pas souvent. Donc là, la saison est un déterminant fort de ces choses. Pas tellement par ici.

Donc, dans cet exemple qu'ils aiment faire, la probabilité qu'il pleuve dépend-elle du fait que l'arroseur soit allumé ou non ? Maintenant, la réponse devrait être non, non ? Je veux dire, en réalité, quand vous pensez à... il n'y a pas de relation causale entre l'arrosage et la pluie. Mais en fait, lorsque nous raisonnons sur ces réseaux, nous sommes en fait influencés.

Dans un modèle probabiliste, si je sais qu'il pleut et que l'herbe est mouillée, alors que dois-je penser du fait que l'arroseur fonctionne ? Est-ce que je pense que c'est tout aussi probable? Non, je pense que c'est moins probable, non? Si je sors et que je vois que l'herbe est mouillée, qu'il y a des nuages, que la pluie tombe, l'arroseur est-il susceptible d'être activé ou non ? C'est probablement éteint, non?

Il n'y a donc pas de relation causale, mais il y a la relation probabiliste à travers la structure du graphe. Et cela s'appelle expliquer. Et vous pouvez suivre un cours complet sur la façon de comprendre quelles relations vous pouvez détecter et lesquelles ne le sont pas. Ce n'est pas ici le lieu d'essayer d'aborder cela, mais j'espère que vous serez familiarisé avec ce problème. Et je vais essayer de vous donner un exemple de jouet qui le rend un peu plus évident en termes d'équations d'où cela vient.

Alors imaginez ce jeu très idiot où nous jouons, nous jetons des pièces. Nous lançons une pièce deux fois. Et s'il fait face les deux fois, vous marquez un point. Si c'est pile les deux fois, vous marquez un point. Mais si l'un est une tête et l'autre une queue, vous n'obtenez aucun point.

Maintenant, est-ce que la probabilité que je lance la tête la première fois dépend du fait que je lance la queue la deuxième fois ? Donc causalement, évidemment non, non? Tout d'abord, c'est arrivé plus tôt dans le temps. Et deuxièmement, les tirages au sort sont complètement indépendants.

Mais que se passe-t-il quand je connais le résultat ? Et si je savais quel score tu as ? Donc, si je connais votre score, la probabilité que j'aie jeté les têtes la première fois est-elle indépendante du fait que j'aie eu une queue la deuxième fois ? Qu'est-ce que tu penses? Combien de personnes pensent qu'il est indépendant alors ?

Combien de personnes pensent que ce n'est pas indépendant. Très bon. Ce n'est pas indépendant. Et évidemment, voici les calculs pour le prouver, mais votre intuition fait la même chose. Alors, quelle est la probabilité que j'aie jeté une tête la deuxième fois étant donné que j'en ai eu une, j'ai marqué et j'ai jeté une queue la première fois ? Evidemment, c'est zéro, non ?

Voici donc la probabilité d'obtenir une tête la première fois et de marquer un, et pile la deuxième fois est exactement zéro. Alors ça s'appelle expliquer. Vous pouvez réduire votre croyance en certains parents en fonction de ce que vous savez des enfants. Pensez à cet exemple de tirage au sort ou à la pluie en Californie et aux arroseurs.

D'accord. Alors comme cela revient plusieurs fois, comment obtient-on la structure du réseau bayésien ? Il y a deux problèmes que nous devons être en mesure de résoudre. Nous devons être capables d'apprendre la structure, et nous devons être capables d'apprendre ces tables de probabilités.

Si nous connaissons la structure, comment obtient-on les probabilités ? Eh bien, nous devons identifier une fonction objectif que nous allons essayer d'optimiser, puis choisir des valeurs pour toutes les distributions de probabilité qui optimisent cette fonction objectif. Et c'est le genre de chose que nous avons toujours fait, comme dans le sampler de Gibbs. Nous avons besoin d'une fonction objective ou d'une structure protéique. Nous avons besoin d'une fonction objective que nous allons essayer d'optimiser.

Il y en a donc deux communs qui sont beaucoup utilisés. Il y a le maximum de vraisemblance et le maximum a posteriori. Ainsi, le maximum de vraisemblance est défini comme l'ensemble des paramètres, c'est-à-dire tous les paramètres, toutes les distributions de probabilité, la probabilité d'obtenir un score de un étant donné que vous aviez pile et face, quel qu'il soit. La probabilité d'être admis étant donné que vous aviez certains GRE et certains grades.

Nous voulons donc trouver l'ensemble de paramètres, toutes ces distributions de probabilités, qui maximisent cela. La probabilité des données, nos données d'entraînement, compte tenu de ces paramètres. C'est assez évident.

Et le postérieur maximum inclut certaines de nos croyances sur la probabilité a priori des données et la probabilité a priori des paramètres. C'est un peu moins intuitif car il faut se demander, d'où viennent ces chiffres ? Et cela, encore une fois, est tout un cours en soi.

D'ACCORD. Maintenant, comment trouvez-vous ces paramètres? Encore une fois, ce sont les types de problèmes de recherche que nous avons examinés auparavant, divers types d'escalade. Donc descente de gradient, maximisation des attentes, échantillonnage de Gibbs, que vous avez examiné explicitement. Et encore une fois, tous les détails sur la façon de le faire sont hors de notre portée aujourd'hui.

D'ACCORD. Donc, dans notre exemple de ce jeu de tirage au sort, nous utiliserions l'une de ces deux fonctions pour essayer de décider quelle est la probabilité d'obtenir pile ou face pour un score donné. C'est ce que sont les types de paramètres.

Maintenant, le problème de structure s'avère en fait être vraiment, vraiment difficile, car il y a un nombre très exponentiel de structures potentielles dans lesquelles puiser. Et à moins d'avoir des connaissances préalables, il peut être impossible, selon la quantité de données dont vous disposez, de construire réellement cette structure.

De nombreux algorithmes ont donc été proposés. Et beaucoup de nos paramètres, nous allons utiliser une sorte de connaissance préalable pour réduire l'espace de recherche. Donc, si nous essayons de parler de réseaux de régulation transcriptionnelle, il est très courant de supposer qu'il n'y a que certains types de nœuds qui peuvent être des causes et d'autres types de nœuds qui peuvent être des effets, n'est-ce pas ?

Donc, dans l'expression des gènes, ce serait un effet, et alors vous limiteriez vos causes à seulement des facteurs de transcription. Il s'agirait généralement de molécules de signalisation ou quelque chose du genre, et ne permettrait pas aux 20 000 gènes d'être des causes et aux 20 000 gènes d'être des effets.

Il existe donc de nombreuses ressources pour en savoir plus sur les réseaux bayésiens. Comme je l'ai dit, vous pouvez avoir des cours entiers là-dessus. Je pense qu'il y a beaucoup de bons tutoriels sur ce site. J'ai également mis dans les notes un petit exemple de jouet pour vous permettre de travailler sur toutes les probabilités, que je pense, dans l'intérêt du temps, nous ne parlerons pas en détail.

D'accord. Donc, pour motiver ce que nous allons faire dans la prochaine conférence, je veux juste parler d'autres types de données que vous pourriez apporter sur ce problème de prédire quelles protéines interagissent. Nous verrons ensuite comment cela s'introduit dans un réseau bayésien d'interaction pour faire les prédictions.

Nous avons donc parlé de capture par affinité et de double hybride, mais quels autres types de données pourrions-nous utiliser pour prédire l'interaction de probabilité ? Eh bien, une chose que vous pourriez utiliser serait les données d'expression génétique. Et l'idée est que si deux protéines interagissent, elles devraient être présentes dans la cellule en même temps, non ?

Alors on en a un peu parlé. S'ils sont anti-corrélés, il semble très peu probable qu'ils interagissent. Qu'en est-il s'ils sont corrélés, mais pas parfaitement corrélés ? Voici donc un graphique qui montre un histogramme de protéines dont on sait qu'elles interagissent, des protéines dont on sait qu'elles n'interagissent pas. Ainsi, les cercles vides sont des protéines interagissantes, les cercles noirs sont des protéines n'interagissant pas et les autres sont basés sur les données expérimentales.

Et la distance ici est la différence entre les profils d'expression. Et nous parlerons dans la prochaine conférence de la façon exacte de calculer la distance entre les profils d'expression. Mais plus il est à droite, moins les profils d'expression sont similaires dans de grands ensembles de données. Donc, ce que vous voyez, c'est que les protéines en interaction ont tendance à être décalées plus vers la gauche, des profils d'expression plus similaires que ceux qui n'interagissent pas.

Mais que remarquez-vous à ce sujet ? Il n'y a aucun moyen de tracer une ligne et de dire, tout ce qui se trouve à droite appartient à une classe et tout ce qui se trouve à gauche en est une autre, n'est-ce pas ? Donc, en soi, cela ne nous mènera pas très loin. Il existe de nombreuses protéines sans interaction qui ont une expression génique très fortement corrélée et de nombreuses protéines en interaction qui ont une expression génique faiblement corrélée. C'est donc une tendance, pas une règle.

Maintenant, qu'en est-il de l'évolution ? Donc, si je regarde beaucoup, beaucoup d'organismes, je pourrais m'attendre à quoi ? Les protéines qui interagissent les unes avec les autres vont apparaître dans la même espèce, non ? Voyons donc ces deux cas. Nous avons un tas de-- huit génomes différents. Et j'ai le gène 1 et le gène 2, qui, je pense, pourraient interagir, et le gène 3 et le gène 4, qui, je pense, pourraient interagir.

Maintenant, en regardant ces deux modèles d'évolution, dans lequel avons-nous le plus confiance en ce qu'il interagit ? Le rouge ou le vert ? Alors, que remarquons-nous à propos de la différence entre eux? Qu'est-ce qui est vrai du rouge par rapport au vert ? Oui.

PUBLIC : Le rouge n'est que dans une branche de l'arbre.

PROFESSEUR : La rouge n'est qu'une branche de l'arbre et la verte est éparpillée. Passons donc au vote. Croyons-nous que le rouge est une meilleure preuve d'interaction ou que le vert est une meilleure preuve d'interaction ? Rouge? Vert? Puis-je avoir un défenseur du vert. Quelqu'un explique sa raison d'être ? Quelqu'un dans le côté calme de la pièce ? D'accord, Éd.

PUBLIC : Étant donné que le rouge n'est présent que sur une branche de l'arbre, je m'attendrais à ce qu'ils soient naturellement plus corrélés les uns aux autres. Ils ont moins-- ils apparaissent ensemble dans [INAUDIBLE] donc je m'attendrais à [INAUDIBLE].

PROFESSEUR : D'accord. L'argument est donc que le rouge n'apparaît que dans une partie de l'arbre. Et donc il pourrait y avoir une explication très simple pour que tous les rouges soient dans une partie de l'arbre et pas une, ce qui serait un seul événement de perte et de gain. Droit? Quelque part très tôt, peut-être ici, je gagne ces deux protéines. Et puis ils sont hérités dans tout le génome, comme la plupart des gènes sont hérités dans tout le génome.

Alors qu'ici, nous avons des événements indépendants de gain et de perte. Et à chacun de ces événements indépendants, nous les faisons bouger conjointement, soit à l'intérieur soit à l'extérieur du génome. Il y a donc plus de preuves que le vert interagit plutôt que le rouge. Tout le monde achète ça ? Même certains des partisans du rouge ? Des questions? Oui.

PUBLIC : Pourrait-il y avoir un moyen de [INAUDIBLE] objectivement ou mathématiquement, ou est-ce simplement le raisonnement [INAUDIBLE] ?

PROFESSEUR : On peut faire les statistiques là-dessus avec des connus, non ? Je pense que c'est probablement la meilleure façon. Et nous verrons en fait cela dans l'un de ces articles qui utilise - eh bien, en fait, maintenant je ne me souviens pas s'ils utilisent cette co-évolution. Mais oui, il y a beaucoup d'articles qui ont fait des statistiques à ce sujet. Il est donc pris en charge.

Et un type de question connexe est ce qu'on appelle l'approche de Rosetta Stone. Malheureusement, le terme Rosetta est beaucoup trop utilisé en biologie computationnelle. Cela n'a donc rien à voir avec l'autre Rosetta dont nous avons parlé. Et cela a à voir avec la fréquence à laquelle vous trouvez la même paire de gènes dans le même génome par rapport à la division dans différents génomes. D'ACCORD.

Donc, ce que nous allons examiner la prochaine fois, c'est une approche qui combine ce type de données avec les mesures physiques d'interaction protéique via le double hybride et la spécification de masse de capture d'affinité qui utilise en fait les réseaux bayésiens dont nous avons parlé cette fois pour prédire si deux protéines sont susceptibles d'interagir sur la base de toutes les données disponibles. Ces arguments évolutionnistes, le [? sentiality ?] arguments, puis les données d'interaction. Une dernière question ? D'accord, à la prochaine.


Résumé

La floraison et la fructification sont des processus soumis à un contrôle complexe par des signaux environnementaux et endogènes. Les signaux endogènes comprennent, outre les phytohormones classiques, également des peptides et des miniprotéines de signalisation. Les miniprotéines à nœuds de cystine de tomate (TCMP), qui appartiennent à un groupe spécifique aux solanacées de la famille des protéines riches en Cys, ont récemment été impliquées dans le développement des fruits. TCMP-1 et TCMP-2 présentent un modèle d'expression hautement modulé au cours du développement des fleurs et des fruits. Une étude précédente a signalé qu'un changement dans le rapport des deux TCMP affecte le moment de la production de fruits. Dans ce travail, pour étudier le mode d'action de TCMP-2, nous avons recherché ses partenaires en interaction. L'un des interacteurs identifiés par un criblage à deux hybrides de levure était la protéine contenant le domaine B-box 16 (SLBBX16), dont l'homologue le plus proche est la microprotéine 1b d'Arabidopsis impliquée dans le contrôle du temps de floraison. Nous avons démontré la possibilité pour les deux protéines d'interagir in vivo dans les cellules épidermiques du tabac. Les plantes d'Arabidopsis surexprimant ectopiquement le TCMP-2 présentaient un niveau accru de FLORAISON LOCUS T (FT) ARNm et floraison anticipée. De même, dans des plants de tomates transgéniques précédemment générés avec une augmentation TCMP-2 expression dans les boutons floraux, nous avons observé une expression augmentée de FERME À UNE FLEUR gène, l'orthologue de la tomate de FT, alors que l'expression de l'antiflorigène AUTO-TASSAGE était inchangé. De manière cohérente, ces plantes transgéniques ont montré des altérations dans le schéma de floraison, avec une terminaison accélérée des unités sympodiales. Dans l'ensemble, notre étude révèle une nouvelle fonction pour TCMP-2 en tant que facteur régulateur qui pourrait s'intégrer, grâce à sa capacité à interagir avec SLBBX16, dans les voies de signalisation qui contrôlent la floraison, et convergent vers la régulation du florigène.


Résultats

Interactions inter-espèces de protéines humaines avec des fonctions conservées chez la levure

Les phénotypes conférés par les mutations d'un gène particulier peuvent souvent, mais pas toujours, être « creusés » par l'expression hétérologue d'orthologues d'espèces éloignées (Kachroo etਊl, 2015). Nous avons d'abord déterminé dans quelle mesure les protéines humaines capables de sauver fonctionnellement les mutations de levure (“rescuers”) retiennent les interactions mutuelles entre les espèces humaines et les orthologues de levure qu'elles sont capables de sauver (“rescuees”) (Fig� 2A). Utilisation du système de levure à deux hybrides (Y2H) (Dreze etਊl, 2010), nous avons sélectionné 172 sauveteurs humains (Appendice Méthodes supplémentaires) en tant que protéines hybrides du domaine d'activation Gal4 (AD) (AD‐XHumain) contre environ les deux‐tiers de toutes les protéines de levure exprimées sous forme d'hybrides de domaine DB (DB‐YLevure). Nous avons comparé l'ensemble obtenu d'interactions biophysiques inter-espèces à un ensemble de littérature de haute qualité d'interactions intra-espèces impliquant les levures correspondantes (tableau਎V1). Parmi les 46 interactions entre espèces humaines et levures identifiées,

25 % impliquent un acteur partagé entre les sauveteurs et les sauveteurs (10 fois plus que ce à quoi on pourrait s'attendre par hasard : empirique P‐value =਀.001, Fig  2 A, en bas). Sur les huit paires de sauveteurs et de sauveteurs récupérés en tant qu'interacteur(s) de levure partageant, sept (88 %) ont des fonctions similaires à celles de leurs intéracteurs mutuels (Fig  2 A). Par exemple, MLH1 humain et Mlh1 de levure, et leur interacteur mutuel Ntg2, sont tous impliqués dans la réparation de l'ADN (Fig  2 A). Ainsi, les interactions entre deux protéomes éloignés sur le plan de l'évolution peuvent dériver d'interactions « cancestrales » qui ont probablement eu lieu dans leur dernier ancêtre commun. Sur les onze protéines de levure récupérées en tant qu'interacteurs mutuels entre les sauveteurs et les sauveteurs, trois (27 %) n'avaient pas d'homologue chez l'homme (Fig. protéines.

Les interactions inter-espèces des sauveteurs humains révèlent onze interacteurs de levure partagés par les sauveteurs de levure. Fraction d'interacteurs partagés entre la levure et les orthologues humains par rapport aux contrôles randomisés, empirique P‐value =਀.001. Les ellipses en pointillés marquent les protéines ayant une fonction partagée. Trois protéines non conservées de la levure à l'homme sont soulignées.

Espace de recherche de la carte du réseau inter-espèces systématique correspondant à deux réseaux parent intra-espèces.

Fractions de paires récupérées par le test de validation orthogonal LUMIER pour : le contrôle positif, l'ensemble de référence positif humain (PRS) (Venkatesan etਊl, 2009) le contrôle aléatoire, l'ensemble de référence aléatoire humain (RRS) de levure (Venkatesan etਊl, 2009) et inter‐interactome (YHII𠄁) des paires d'échantillons dans l'espace de recherche complet ainsi que dans le sous-espace contenant uniquement des protéines non conservées entre l'homme et la levure. Barres d'erreur : erreur standard de la proportion. P‐valeurs déterminées à l'aide du test chi‐square avec correction de Yates.

Nombre prévu d'interactions interspécifiques entre les protéomes humains et de levure compte tenu de la couverture de l'espace de recherche YHII et de l'échantillonnage standard et de la sensibilité du dosage utilisant le même pipeline Y2H (Venkatesan etਊl, 2009).

Cartographie systématique des interactions entre les protéines et les protéines entre les espèces et les levures humaines

Pour déterminer systématiquement dans quelle mesure les interactions biophysiques se produisent entre des protéomes éloignés sur le plan de l'évolution, nous avons généré une carte du réseau inter-interactomes de haute qualité de l'homme.interactions binaires entre espèces de levure. Pour nous permettre de comparer les propriétés du réseau inter‐interactome résultant à celles des deux réseaux parent intra‐species, nous avons conçu un espace de recherche inter‐species (Fig� 2 B) qui correspond aux ensembles de protéines précédemment utilisés pour générer cartes d'interactomes intra-espèces pour l'homme (Rual etਊl, 2005) et la levure (Yu etਊl, 2008). Nous avons identifié les interactions inter-espèces par un seul écran Y2H suivi de tests par paires en quatre exemplaires et d'une validation orthogonale à l'aide du test d'interactome de mammifère basé sur la luminescence modifiée (“LUMIER”) (Taipale etਊl, 2012). Au total, nous avons effectué des criblages Y2H entre 7 240 humains (AD‐XHumain) (Ruel etਊl, 2005) et 3 778 levures (DB‐YLevure) protéines (Yu etਊl, 2008), correspondant à

28 millions de paires de protéines humaines de levure. Nous avons identifié 1 583 interactions inter-espèces entre 566 protéines de levure et 471 protéines humaines, dont 284 paires pour lesquelles aucune protéine n'était conservée entre les deux espèces (tableau਎V2). Les paires interspécifiques avaient un taux de validation comparable à celui d'un ensemble de référence positif d'interactions protéine-protéine intra-espèce humaine bien documentées (Venkatesan etਊl, 2009) (Fig  2 C). En supposant que la détectabilité des interactions (Venkatesan etਊl, 2009) est similaire entre les cribles intra et inter-espèces Y2H, et compte tenu de la taille de notre espace de recherche par rapport à l'espace inter-espèces complet, mais en laissant de côté la complexité des isoformes humaines à épissage alternatif, notre levure humaine inter‐species interactome (YHII𠄁) suggère que la levure et les protéomes humains pourraient médier 10 4 � 5 interactions biophysiques entre les espèces (Fig� 2 D). Ainsi, les réseaux intra et inter-espèces semblent avoir une taille similaire, excluant les modèles où le nombre d'interactions inter-espèces serait soit extrêmement faible en raison du manque de sélection pour les interactions fonctionnelles, soit extrêmement important en raison du manque de sélection contre les interactions délétères.

Origines ancestrales des interactions protéines entre espèces et protéines

Nous avons évalué dans quelle mesure les interactions inter-espèces peuvent provenir de mécanismes de liaison aux protéines conservés au cours de l'évolution. Premièrement, lorsque des relations d'homologie étaient présentes, les interactions YHII𠄁 étaient 15 fois plus susceptibles que prévu de se chevaucher par hasard avec les interactions des deux cartes parentes systématiques intra-espèces (Rual etਊl, 2005 Yu etਊl, 2008) (Fig  3 A). De telles interactions entre espèces impliquent probablement des propriétés de liaison conservées conservées dans les homologues de levure humaine. Il a été découvert que des paires d'homologues interagissent avec des protéines qui ne sont pas conservées entre l'homme et la levure (tableau ), ce qui est cohérent avec les sites de liaison des protéines ancestrales développant de nouvelles interactions avec des protéines non conservées phylogénétiquement. Deuxièmement, nous avons utilisé des preuves structurelles tridimensionnelles disponibles pour les interactions intra-espèces pour constater qu'un nombre petit mais significatif d'interactions inter-espèces correspond à des sites de liaison aux protéines conservés (annexe Méthodes supplémentaires et tableau). Troisièmement, si l'on considère les protéines qui ont des domaines d'interaction connus, près de 25 % des interactions inter-espèces de ces protéines peuvent être expliquées par des interactions entre les domaines et les domaines (tableau & x 02013). Ceci est significativement plus élevé que prévu par hasard (Fig  3 B, empirique P‐valeur =਀.001). Quatrièmement, les indices de similarité des profils d'interaction entre les homologues humains et de levure mesurés à l'aide d'interactions inter-espèces étaient significativement plus élevés que les autres paires de protéines partageant au moins un intéracteur commun (figure 3C). Conformément aux domaines d'interaction protéique conservés sous-jacents aux interactions inter-espèces, une similarité de profil d'interaction significativement plus élevée a également été observée pour les paires de protéines de levure humaine qui ne sont pas des homologues de levure humaine mais qui ont au moins un domaine protéique prédit en commun (Fig� 3 C) . Au total, une proportion importante des interactions entre espèces découlent d'interactions ancestrales, nonobstant l'existence possible d'interactions biophysiques non ancestrales ou adventives entre la levure et les protéomes humains.

Fractions d'interacteurs partagés entre les paires d'homologues humains et de levure (flèches) par rapport aux contrôles randomisés (zones ombrées en gris), en utilisant l'humain intra-espèce HI HI (en haut à gauche) ou la levure YI (en haut à droite) comme réseau de référence, empirique P‐valeurs =਀.001. Nœuds bleus : protéines humaines Nœuds oranges : protéines de levure bords gris : interactions intra𠄎spèce levure ou humaine–humain bords verts : interactions levure–humaine inter𠄎spèces.

Fractions d'interactions plausibles à travers des paires d'interactions de domaine à haut degré de confiance (Yellaboina etਊl, 2011) dans les réseaux humains (HI𠄁, flèche bleue), inter‐interactome (YHII𠄁, flèche verte) et levure (YI𠄁, flèche orange) par rapport aux contrôles de réseau randomisés (zones ombrées en gris), empirique P‐value =਀.001.

Similitude du profil d'interaction des paires de protéines humaines et de levure partageant au moins un interacteur commun humain (gauche) ou levure (droite). P‐valeurs déterminées par Mann–Whitney U‐test.

Les protéines essentielles de levure semblent avoir plus d'interacteurs interspécifiques que les protéines non essentielles (nombre moyen d'interacteurs pour les protéines de levure : essentiels, 3,3 non essentiels : 2,6 P‐value =਀.009 par Mann–Whitney U‐test). Les protéines essentielles de levure sont également enrichies parmi les protéines qui forment des interactions interspécifiques se chevauchant avec des interactions intraspécifiques (rapport de cotes 1,8, P‐value =਀.001 par le test exact de Fisher). Conformément aux interactions inter-espèces correspondant à des fonctions génétiques conservées au cours de l'évolution, nous avons trouvé un enrichissement significatif des protéines humaines dans l'interactome qui peut compléter les fonctions essentielles de leurs homologues de levure (Kachroo etਊl, 2015) (rapport de cotes 3,8, P‐valeur est de 0,03 par le test exact de Fisher). Ces observations appuient nos conclusions selon lesquelles les interactions inter-espèces correspondent de manière significative aux sites de liaison aux protéines ancestrales préservés dans les protéomes humains et de levure. Les interactions entre espèces conservées sous-tendent probablement l'hommecomplémentation fonctionnelle des espèces croisées de levure. La préservation des mécanismes de liaison ancestraux peut provenir de contraintes évolutives sur les fonctions essentielles des gènes.

Protéome‐large distribution des interactions inter-espèces protéines–protéine‐

Pour explorer les modèles mondiaux de l'hommeInteractions inter-espèces de levure à travers les deux protéomes éloignés, nous avons comparé les tendances générales des interactions entre YHII𠄁 et les deux espèces humaines intra‐ (Rual etਊl, 2005) et la levure (Yu etਊl, 2008) réseaux parents. Co𠄎volution (Moyle etਊl, 1994), qui modifie les interfaces de liaison aux protéines tout en préservant les interactions entre les protéines conservées, conduit à la perte de sites de liaison ancestraux et à des incompatibilités entre les protéines et les orthologues de leurs partenaires d'interaction (Fig  1 B). De telles incompatibilités interspécifiques peuvent sous-tendre les interactions de Dobzhansky et Muller, initialement supposées (Dobzhansky, 1936 Muller, 1942) et plus récemment vérifiées (Presgraves etਊl, 2003 Brideau etਊl, 2006 Tang & Presgraves, 2009) comme un mécanisme par lequel des variantes incompatibles ségrégeant au sein de la population entraînent la spéciation. Malgré une séparation évolutive éloignée, la densité des interactions trouvées dans l'espace de recherche interspécifique est comparable à celle des espaces de recherche parent intraspécifiques correspondants, même pour des paires de protéines telles qu'aucune protéine n'est conservée entre l'homme et la levure (Fig. x000a0 4A). La même tendance est vraie lorsque nous considérons des paires de protéines de levure humaines telles que les deux sont spécifiques à la lignée (c'est à dire., protéines humaines et de levure avec seulement des homologues métazoaires ou fongiques respectivement). Conformément à ces résultats, les interactions inter-espèces sont répandues et impliquent des protéines humaines et de levure avec peu ou pas de conservation de séquence dans les protéomes opposés (Fig  4 B).

Densité des interactions dans les espaces de recherche complets et les sous-espaces contenant des protéines humaines et de levure conservées ou non conservées. Barres d'erreur : erreur standard de la proportion.

Distribution étendue du protéome des interactions inter-espèces (points verts). Les protéines humaines et de levure sont arrangées et regroupées selon la fraction de leurs séquences trouvées dans les domaines protéiques présents à la fois dans les protéomes de levure et humains. Les histogrammes décrivent les fractions minimales de séquence dans les protéines humaines (à gauche) et de levure (en haut) dans chaque bac correspondant aux domaines protéiques conservés entre l'homme et la levure. La ligne pointillée indique la limite entre les protéines avec ou sans domaines protéiques présents à la fois dans les protéomes de levure et humains. L'encart (en haut à droite) montre la densité des interactions dans deux sous-espaces contenant des protéines avec ou sans domaines conservés, respectivement.

Propension à l'interaction spécifique au domaine mesurée par le rapport des degrés (k entre‐/k intra‐) de protéines individuelles humaines ou de levure contenant chaque domaine protéique. Les protéines sont classées par le rapport de leurs degrés inter-espèces sur les degrés intra-espèces (panneau de gauche, barres magenta). Les lignes magenta (trois panneaux de droite) indiquent le rang des protéines humaines ou de levure contenant les domaines (indiqués en haut) associés à des propensions d'interaction inter-espèces significativement plus élevées. Empirique P‐les valeurs obtenues en comparant à 10 000 contrôles de réseau randomisés pour les trois domaines sont : WD40, 0,02 zf�HC4, 0,04 Thioredoxine, 0,02.

Nous avons ensuite demandé si certaines protéines pourraient être plus à même de participer aux interactions biophysiques entre les protéomes divergents. Nous avons examiné chaque domaine protéique par rapport à sa propension à former des interactions inter-espèces versus intra-espèces (Fig� 4 C). Trois domaines présentent une plus grande propension aux interactions inter-espèces qu'intra-espèces. Parmi eux, le domaine WD40 est bien connu pour médier les interactions protéiques grâce à la reconnaissance de divers peptides courts et motifs linéaires (Stirnimann etਊl, 2010). Le domaine zf�HC4 est un sous-type à doigt de zinc trouvé principalement dans les ubiquitine–protéine ligases qui contribue à la spécificité de leur sélection de cible (Deshaies& Joazeiro, 2009). Étant donné que des motifs linéaires peuvent survenir de novo plus facilement que les interfaces de liaison de domaine complexes et spécifiques, de tels motifs linéaires pourraient expliquer des cas de liaison fortuite dans l'interactome. Cette hypothèse est cohérente avec l'observation selon laquelle la fraction d'interactions plausibles entre domaines et domaines dans l'inter-interactome est nettement inférieure à celle des réseaux intra-espèces intra-espèces YI de levure ou HI humain HI (figure 3 B). La propension réduite des protéines contenant les domaines WD40 ou zf�HC4 à former des interactions au sein des espèces (Fig� 4 C) suggère une sélection contre l'évolution de motifs linéaires non fonctionnels liant ces domaines dans les réseaux cellulaires, améliorant la spécificité de liaison et fonctionnelle de tels domaines protéiques de liaison motif‐ (Zarrinpar etਊl, 2003).

Les régions intrinsèquement désordonnées des protéines sont connues pour conférer une flexibilité conformationnelle aux partenaires de liaison (Dunker etਊl, 2005) et pour une tendance à former des interactions moléculaires de promiscuité par le biais d'effets d'action de masse (Vavouri etਊl, 2009). Nous avons constaté que les protéines humaines avec une teneur plus élevée en troubles ont une plus grande propension à former des interactions inter-espèces (corrélation de Pearson 0,17, PLa valeur ‐ est 0,0002). Une telle corrélation est absente pour les interactions intra-espèces dans le réseau HI humain (P‐valeur est de 0,2), compatible avec les régions désordonnées des protéines fournissant une tendance accrue aux interactions accidentelles entre les espèces.

Ensemble, ces observations suggèrent que les densités d'interaction équivalentes de l'interactome et de ses réseaux parentaux intra-espèces sont le résultat de forces évolutives opposées : émergence fréquente d'interactions biophysiques découplées des contraintes fonctionnelles préexistantes versus sélection évolutive qui préserve les interactions fonctionnelles et supprime les interactions dans les réseaux intra-espèces.

Propriétés du réseau de l'interactome humain de la levure

Les réseaux biologiques de diverses espèces à travers les royaumes de la vie partagent des propriétés locales et mondiales (Barabási etਊl, 2011 Vidal etਊl, 2011), qui résulteraient de contraintes universelles sur des systèmes complexes. Étant donné que les interactions entre les espèces n'ont pas été soumises à des pressions sélectives directes, l'interactome peut présenter des caractéristiques de réseau différentes. Au lieu de cela, les propriétés topologiques globales de l'inter-interactome sont indiscernables de celles des réseaux parentaux.Les trois réseaux présentent des propriétés similaires d'échelle libre, d'intermédiation, de disssortativité et de longueur de chemin le plus court (Fig. #x000a0 5B).

Propriétés topologiques de l'interactome (YHII𠄁, points verts) par rapport aux réseaux humains (HI𠄁, points bleus) et levure (YI𠄁, points orange).

Les protéines humaines (à gauche) et de levure (à droite) ont des degrés corrélés dans les réseaux inter‐interactome (YHII𠄁) et humain (HI𠄁) ou de levure (YI𠄁). Les corrélations de Spearman (rho) sont indiquées.

Nombre de phénotypes associés à la délétion du gène de levure codant au degré indiqué dans les ensembles de données de levure (YI𠄁, à gauche) et inter‐interactome (YHII𠄁, à droite). Les points orange (à gauche) et verts (à droite) sont des moyennes de points noirs à chaque degré de coupure. Les barres d'erreur indiquent l'erreur standard de la proportion. PLes valeurs ‐ sont pour le test de corrélation de Pearson.

Dans les cartes d'interactome, les protéines à haut degré, ou “hubs”, ont tendance à être hautement pléiotropes (Yu etਊl, 2008). L'interinteractome fournit une première vérification de ce concept en dissociant les propriétés d'interaction biophysique des caractéristiques fonctionnelles. Les corrélations de degré avec la pléiotropie pour les protéines de levure sont fortement diminuées au sein de l'interactome (figure 5 C). Cette découverte suggère qu'en dépit des caractéristiques topologiques communes du réseau, la coordination entre les interactions biophysiques et la fonction est fondamentalement altérée dans l'interactome.

Correspondance entre les réseaux fonctionnels inter‐interactome et intra𠄎spèces

Nous avons ensuite examiné les chevauchements de l'interactome avec les caractéristiques fonctionnelles attribuées aux gènes de levure. Les attributs fonctionnels de levure et non humains ont été sélectionnés car les annotations fonctionnelles et les cartes génomiques fonctionnelles systématiques sont plus facilement disponibles pour la levure. Pour permettre la comparaison de paires de protéines de levure connectées par une protéine humaine dans le réseau inter-espèces à des paires de protéines de levure dans le réseau intra-espèces, nous avons d'abord déterminé des niveaux de chevauchement fonctionnel pour des paires de protéines de levure situées à deux degrés de séparation les unes des autres. d'autres dans le réseau intra-espèces de levure. Comme prévu, les niveaux de co-fonctionnalité n'étaient pas aussi élevés que pour les protéines de levure interagissant directement (Gunsalus etਊl, 2005). Pour les trois mesures de co𠄏onctionnalité utilisées, une ontologie génétique partagée (GO) (Ashburner etਊl, 2000), les mesures du coefficient de corrélation de Pearson (PPC) des similitudes des profils de létalité synthétique (Costanzo etਊl, 2010) et les similitudes de co𠄎xpression (Yu etਊl, 2008), les niveaux de chevauchement entre les interactions biophysiques et la co𠄏onctionnalité ont été significativement réduits dans le réseau inter-interactome par rapport au réseau intra-espèces de levure (Figs  6 A et B, EV1 et EV2 ).

Augmentation du nombre de paires de protéines de levure en interaction partageant un GO spécifique dans les réseaux de levure inter-(YHII𠄁, vert) et intra-espèces (YI𠄁) par rapport aux contrôles de réseau randomisés, aux seuils indiqués de spécificité GO (à gauche). Les paires d'exemples inter-espèces sont montrées avec deux protéines humaines non conservées soulignées.

Enrichissements par rapport de cotes des paires de protéines de levure en interaction avec le profil d'interaction génétique Coefficients de corrélation de Pearson (PCC ≥਀.2). Les barres d'erreur indiquent une erreur standard. P‐valeurs d'enrichissement déterminées par le test exact de Fisher. Des paires d'exemples inter-espèces sont affichées.

Augmentation du nombre de protéines en interaction partageant des GO spécifiques dans les réseaux interactome (YHII𠄁, vert) et intra‐species (YI𠄁) avant et après la suppression des paralogues par rapport à 1 000 contrôles de réseau randomisés aux quatre seuils indiqués de spécificité GO (X𠄊xe). Les barres d'erreur indiquent les erreurs standard. Empirique PLes valeurs ‐ pour tous les cas sont 0,001.

Distribution des PCC de coexpression pour des paires de protéines interagissant directement et indirectement. Fraction de chaque distribution avec PCC >਀ (en haut à droite). Barres d'erreur : erreur standard de la proportion. P‐valeurs pour les comparaisons de distribution PCC déterminées par Mann–Whitney U‐test. Un exemple de paire inter-espèces est affiché.

Le chevauchement entre les réseaux fonctionnels biophysiques interspécifiques et intraspécifiques a révélé d'importants taux de cofonctionnalité par rapport aux attentes aléatoires des trois indices fonctionnels examinés (figures 6 A et B, EV1 et EV2). À divers seuils de spécificité du terme GO, par exemple, les interactions biophysiques inter-espèces étaient jusqu'à 10 fois plus susceptibles d'être cofonctionnelles que ce à quoi on pourrait s'attendre par hasard (figure 6 A). Un tel enrichissement des annotations GO parmi les paires de protéines interagissant entre les espèces reste important lors de la suppression des paralogues du réseau (Fig  EV1 ). Les protéines humaines non conservées semblent médier des interactions inter-espèces fonctionnellement significatives. Par exemple, ni MCMBP ni SMN2 n'ont d'homologues facilement détectables dans la levure, mais les deux protéines interagissent physiquement avec des paires de protéines de levure qui ont des fonctions étroitement liées (Fig  6 A).

Ces observations révèlent des restes de co-fonctionnalité entre la levure et les protéomes humains, malgré une coordination substantiellement perturbée entre les interactions inter-espèces et la co-fonctionnalité intra-espèces.

Communautés interconnectées dans l'interactome et les deux réseaux parents

Dans les cartes d'interactomes biophysiques, les protéines fonctionnellement apparentées ont tendance à former des réseaux hautement connectés 𠇌liques” ou 𠇌ommunities” (Barabási etਊl, 2011 Vidal etਊl, 2011). Pour étudier comment les restes de co𠄏onctionnalité pourraient être globalement organisés dans le réseau inter‐interactome, nous avons utilisé une méthode de regroupement de liens (Ahn etਊl, 2010 Arabidopsis Interactome Mapping Consortium, 2011) pour identifier les communautés d'interactions densément regroupées avec des niveaux significatifs d'enrichissement en GO (Fig  7 A et Tableau਎V6). La fraction des communautés interspécifiques enrichies pour les termes GO partagés est significativement plus élevée que celle des contrôles randomisés, similaire à ce qui est observé pour les deux réseaux parentaux intraspécifiques (figure 7 B). Parmi les 392 interactions inter-espèces dans les communautés enrichies en GO trouvées dans l'interactome (tableau਎V6), 292 (

70 %) impliquent des protéines de levure ou des protéines humaines non conservées. Par conséquent, la cofonctionnalité semble courante et s'infiltre dans tout le réseau interspécifique, impliquant des protéines non conservées phylogénétiquement.

Communautés de réseaux enrichies en fonction dans les réseaux inter-espèces (YHII𠄁) et intra-espèces humaines (HI𠄁) et de levure (YI𠄁). Les communautés sont connectées si elles partagent des nœuds protéiques communs, avec une épaisseur de ligne correspondant au nombre de nœuds partagés entre elles. Les communautés non connectées ne sont pas affichées. Chaque communauté est étiquetée avec une fonction enrichie représentative. Une communauté contenant Atg8 est agrandie montrant plusieurs annotations GO représentatives enrichies dans cette communauté. Les communautés au sein de la courbe noire en pointillés (en bas à gauche) sont enrichies pour les fonctions liées au trafic de protéines.

Fraction des communautés enrichies en GO‐ (flèches) dans les réseaux humains (HI𠄁), inter‐interactome (YHII𠄁) et de levure (YI𠄁) par rapport aux distributions de contrôles de réseau randomisés (histogramme gris). Un exemple représentatif de réseaux randomisés est montré. Empirique P‐valeurs =਀.002.

Le nombre total de communautés liées partageant des protéines communes des réseaux humains (HI𠄁), inter‐interactome (YHII𠄁) et de levure (YI𠄁) (flèche grise) par rapport aux distributions de contrôles de réseau randomisés (histogramme gris) . Empirique P‐value =਀.002.

Il existe de nombreuses communautés contenant des protéines non conservées dans l'interactome. Un exemple de communauté contient Atg8 (Fig  7 A), une protéine de levure essentielle à l'autophagie. L'autophagie est une voie eucaryote conservée pour la séquestration et le transport des protéines cytoplasmiques et organellaires vers le lysosome pour la dégradation (Shpilka etਊl, 2011). Atg8 interagit avec six protéines humaines, dont trois (BNIP3, BNIP3L, MLX) partagent les fonctions de l'apoptose et des réponses immunitaires. Deux des six interacteurs humains (BNIP3L, TBC1D5) sont connus pour interagir avec les homologues humains d'Atg8 (Rual etਊl, 2005 Novak etਊl, 2010 Popovic etਊl, 2012 Rolland etਊl, 2014). Ni BNIP3 ni BNIP3L n'ont d'homologue de levure. Cette communauté interspécifique suggère une voie par laquelle les fonctions spécifiques aux espèces médiées par des protéines non conservées sont couplées à des machineries cellulaires anciennes et hautement conservées.

Étant donné que des communautés distinctes enrichies en GO‐ peuvent se chevaucher et partager des protéines multifonctionnelles (Ahn etਊl, 2010), nous avons testé comment les communautés de réseaux intra-espèces parentales et inter-espèces inter-interactomes pouvaient être liées les unes aux autres en les reliant par le biais de protéines appartenant à au moins deux espèces distinctes, intra-levure, intra-humaine ou inter-espèces communautés. Ces liens donnent naissance à un réseau de communautés significativement connecté, par rapport aux contrôles aléatoires (figure 7C), suggérant que les vestiges de la cofonctionnalité et de la cofonctionnalité intraspécifique sont étroitement liés. Plusieurs communautés interactome et levure YI partagent des protéines et sont enrichies pour des fonctions liées au trafic de protéines (Fig� 7 A), un processus cellulaire hautement conservé entre la levure et l'homme (Wickner & Schekman, 2005).


BIOC221 - Biologie moléculaire

Pour déterminer cela en utilisant un bactériophage. Ils ont marqué l'ADN et les protéines avec deux radio-isotopes différents (leur donnant des couleurs distinctives) et ont trouvé :
- 82 % de l'ADN du bactériophage (virus de la bactérie) est entré dans la bactérie infectée
- Seulement 7% des protéines sont passées dans les bactéries.

En général, environ 70 à 80 % des candidats-médicaments échouent dans les essais cliniques et de nombreux médicaments approuvés sont retirés du marché en raison d'effets secondaires indésirables.

1.Origine de la réplication :
Une région riche en AT où s'amorce la réplication de l'ADN, là où les brins se séparent et où commence la synthèse d'un brin en retard et en tête. Il permet au vecteur de se répliquer indépendamment des cellules hôtes ADN chromosomique = augmentation du nombre.

2.Marqueur sélectionnable :
Gène qui permet d'identifier les cellules porteuses d'un vecteur (plasmide) qui est généralement un gène de résistance aux antibiotiques

Centromère :
Chez les eucaryotes, le centromère n'a généralement pas de séquence d'ADN définie car il se compose généralement de grands réseaux d'ADN répétitif (ADN répété en tandem).

2. Les nucléosomes interagissent avec l'Histone 1 les obligeant à s'enrouler davantage en une FIBRE DE CHROMATIN de 30 nm.

- ADN d'euchromatine - est un ADN qui est activement transcrit (activé) et qui est emballé de manière plus lâche pour permettre aux facteurs de transcription d'accéder à l'ADN et permettre à la transcription et à la traduction de se produire.
- Hétérochromatine - C'est l'ADN du génome qui n'est pas actif (désactivé) qui est associé à des protéines structurelles, ce qui le rend plus étroitement emballé.

2. ADN hélicase -
sépare les 2 brins d'ADN et forme la fourche de réplication

3. Protéines de liaison simple brin qui empêchent le réannelage des brins d'ADN avant la réplication

4. Primase - insère des amorces d'ARN pour permettre à l'ADN polymérase III de se lier.

5. ADN polymérase III - répliques à partir d'amorces

6. ADN polymérase I - supprime les amorces et réplique cette région

Domaine Palm :
Est le site catalytique qui crée l'environnement correct pour que la réaction (ajout de dNTP) se produise.
- Des chaînes latérales d'acides aminés spécifiques et deux ions Mg2+ sont nécessaires pour attirer les ions H+ et phosphate pour que la réaction se déroule correctement.
Seuls les nucléotides corrects peuvent être incorporés, si la mauvaise base est présente, la configuration du domaine palm ne change pas et la liaison ne se produira pas.
- capable de déterminer entre rNTPS et dNTPs
- contient également une activité exonucléase pour la relecture des bases mal liées.

Le domaine du doigt de l'ADN polymérase III ne changera de forme pour amener la base à se lier à la matrice que si elle est détectée comme étant la bonne.

La pince coulissante est ajoutée à l'ADN par le chargeur de pince. La pince coulissante a une fonction de colle qui lui permet de coller à l'ADN pendant que la réplication se produit pour augmenter la procesivité de l'enzyme ADN polymérase (peut ajouter plus de nucléotides par seconde et moins susceptible de se dissocier de l'ADN) au brin matrice.

2. SINGLE STRAND BINDING PROTEINES (SSB) empêchent les brins de se re-hybrider pendant que la réplication se produit.

3. Au fur et à mesure que les brins se déroulent, un superenroulement se produit au niveau de la fourche de réplication que les TOPOISOMÉRASE ENZYMES clivent, se déroulent et se re-hybrident pour réduire le stress sur l'ADN.

4. PRIMASE (ARN polymérase) ne nécessite pas de groupe 3' OH et ajoute donc des amorces d'ARN au début du brin principal et à chaque fragment d'Okazaki.

5. Le REPLISOME est doté d'une pince coulissante qui lui permet de coller au brin d'ADN lors de son déplacement. 2 ADN polymérase III - l'une réplique le brin principal en continu et l'autre le brin retardé de manière discontinue lorsque l'ADN est bouclé pour garantir que la réplication se produit dans la direction 5 - 3', ce qui forme des fragments d'Okazaki.

6. L'ADN POLYMÉRASE I contient une enzyme exonucléase dans son domaine palm et est capable de détecter les hybrides ARN/ADN. Il peut ensuite éliminer les amorces d'ARN dans le sens 3 - 5' tout en répliquant l'ADN dans le sens 5 - 3'.

7. L'enzyme LIGASE joint les fragments d'Okazaki nouvellement synthétisés avec des liaisons phosphdiester.

- Certaines enzymes supplémentaires sont utilisées chez les eucaryotes comme l'enzyme RNase H pour éliminer les amorces.

- Les eucaryotes ont des origines de réplication multiples qui sont généralement des régions riches en AT alors que les procaryotes n'en ont qu'une.

Il a découvert le dédésoxynucléotide triphosphate (ddNTP) qui sont des nucléotides qui n'ont pas de groupe hydroxyle OH sur leur emplacement 3'.
- il a utilisé des bases normales et des ddNTP pour déterminer la séquence d'une molécule d'ADN.

Comment a-t-il fait cela:
1. Il a ajouté des dCTP, des dGTP et des dTTP normaux, mais a ajouté des dATPS normaux ainsi que des ddATP dans des tubes à essai.
2. Une base normale ou la base altérée se lierait à l'ADN de manière aléatoire, mais une fois le ddNTP attaché, la synthèse s'arrêterait.
3. Il l'a fait avec les 3 autres nucléotides aussi.
4. Il a pu déterminer la séquence du génome en utilisant une électrophorèse sur gel avec chaque type de base dans un puits différent et en déterminant la longueur de chacune des molécules d'ADN.

2. Les fragments d'ADN séparés se lient chacun à des billes spéciales qui permettent l'amplification (PCR) de tout l'ADN dans des puits séparés.

- Une fonction possible d'un gène

2. Nous pouvons effectuer une recherche BLAST (Basic Local Alignment Search Tool) en utilisant une séquence d'ADN de l'enzyme connue sur nbci.nlm.nih.gov

3. Ce programme peut prendre la séquence connue et la mettre en correspondance avec de nombreux génomes similaires chez la souris qui sont stockés dans la base de données. Permet de trouver de nombreux gènes qui pourraient avoir la même fonction dans l'estomac
- les bases assorties sont étiquetées avec la lettre au milieu
- les bases non correspondantes sont affichées sous forme de lacunes
- les bases avec des fonctions similaires sont représentées comme. plus des signes.

4. Les chercheurs sont capables d'identifier des gènes potentiels qui ont de fortes régions de similitude avec l'enzyme connue dans laquelle des bases spécifiques ont été conservées entre les gènes, ce qui peut indiquer qu'ils sont fonctionnellement liés.

5. Ces enzymes potentielles sont isolées et une copie d'ADNc est réalisée à partir de chacune d'elles séparément.

6. Ils sont insérés dans des vecteurs à amplifier.

7. Toutes les enzymes sont testées pour voir si elles fonctionneraient pour ajouter un acide gras à la ghréline. (un a été trouvé)

8. La PCR en temps réel peut être utilisée pour déterminer si l'enzyme est exprimée aux mêmes endroits que dans le corps humain (image).
- plus de fluorescence signifie qu'il y a plus de copies d'ADN brin douteuses de la copie d'ADNc de l'ARNm (indique que l'enzyme GOAT est la plus importante dans les cellules gastro-intestinales)

9. Maintenant, nous sommes en mesure d'utiliser la nouvelle séquence de souris et la recherche BLAST pour trouver un gène similaire dans le génome humain.
- capable d'identifier le gène car les génomes murins et humains sont très similaires.


SOURCES ET TRAITEMENT DES DONNÉES

Ressources de données pour la reconstruction du réseau d'interaction

La puissance et l'expressivité de tout réseau résident en grande partie dans le modèle de données utilisé pour représenter les interactions moléculaires. D'un point de vue informatique, nous avons appliqué des références systématiques uniformes et des approches statistiques pour former spécifiquement notre réseau PPI pour Arabidopsis . De plus, pour assurer la qualité des données, nous avons traité chaque ressource séparément en tant que caractéristiques pondérées et reconstruit le réseau PPI grâce à l'intégration appropriée de divers ensembles de données d'interaction protéique selon la théorie du réseau bayésien naïf. De cette façon, des données biologiques significatives sont mises à disposition via AtPID. Ici, les données d'interaction protéique sont générées de la manière suivante : les résultats expérimentaux sont obtenus à partir d'articles connexes dans PubMed et d'autres bases de données et données disponibles sont rendues accessibles à partir de prédictions bioinformatiques. Les détails de la génération de données d'interaction sont décrits ci-dessous.

Les interactions de protéines collectées manuellement ont été extraites non seulement de milliers d'articles publiés, mais aussi de bases de données IntAct (44), BIND (45) et TAIR (13). Nous avons déposé des données d'interaction protéique possédant des preuves physiques ou des références expérimentales liées à l'association entre deux protéines dans AtPID. Afin d'assurer la fiabilité de ces données, nous avons également mené un processus de validation. Tout d'abord, nous avons mappé le PPI collecté dans la littérature sans identifiants de locus AGI à l'IPI (46) et supprimé les symboles sans correspondance. Nous avons appliqué des symboles AGI uniformes aux protéines dans AtPID pour une analyse plus approfondie. Nous avons trouvé 3866 paires de PPI impliquant 1875 protéines en utilisant ce processus de filtration.De plus, des paires de protéines dans des complexes enzymatiques ont également été déduites dans le cadre de la GSP en se basant sur l'hypothèse que les sous-unités d'un complexe enzymatique ont une association fonctionnelle élevée et des interactions physiques potentielles. Des complexes enzymatiques de KEGG (47) ont été obtenus pour extraire l'intersection des interactions de l'exploration de texte et des complexes d'enzymes directement recueillis à partir de la base de données KEGG. Nous avons ensuite utilisé l'arbre de décision pour déterminer combien de protéines appartenant à un complexe enzymatique ont entraîné moins de faux positifs et une plus grande précision. Étant donné que de nombreuses sous-unités ou composants d'un complexe enzymatique sont cartographiés à partir de la similitude de séquence avec d'autres espèces ou orthologues, nous avons comparé de véritables données d'interaction protéique pour réduire le bruit et les informations redondantes. Finalement, 800 paires uniques ont été obtenues grâce à un complexe enzymatique après avoir exclu les redondances des 3866 paires via l'exploration de texte. Par conséquent, un total de 4666 paires d'interaction impliquant 2285 protéines ont été générées (tableau 1). De telles ressources d'interaction protéique, appelées GSP (Golden Standard Positive) sont stockées dans AtPID et utilisées pour noter le réseau d'interaction qui attribue à chaque paire d'interaction prédictive des mesures quantifiées.

Aperçu des ressources GSP

. Ressources PPI. Nombre de paires .PPI . Nombre de protéines dans les paires PPI .
SPG IPP [ 1 ] Littératures de PubMed 1259 740
[ 2 ] InAct 1528 677
[ 3 ] LIER 1475 538
[ 4 ] TAIR 1073 698
[ 1 ]∼[ 4 ] 3866 1875
Complexes protéiques [ 5 ] KEGG (complexe enzymatique) 1700 856
Le total [ 1 ]∼[ 5 ] 4666 2285
. Ressources PPI. Nombre de paires .PPI . Nombre de protéines dans les paires PPI .
SPG IPP [ 1 ] Littératures de PubMed 1259 740
[ 2 ] InAct 1528 677
[ 3 ] LIER 1475 538
[ 4 ] TAIR 1073 698
[ 1 ]∼[ 4 ] 3866 1875
Complexes protéiques [ 5 ] KEGG (complexe enzymatique) 1700 856
Le total [ 1 ]∼[ 5 ] 4666 2285

[ 1 ] Les interactions protéiques collectées manuellement sont extraites directement de milliers d'articles publiés dans PubMed. [ 2 ] InAct fournit un système de base de données open source disponible gratuitement pour les données d'interaction protéique dans EMBL-EBI. Toutes les interactions sont dérivées de la conservation de la littérature ou des soumissions directes des utilisateurs. [ 3 ] BIND est une nouvelle ressource pour effectuer des recherches entre bases de données d'informations disponibles sur les séquences, les interactions, les complexes et les voies. Il intègre une gamme de bases de données de composants, notamment Genbank et BIND, la base de données du réseau d'interaction biomoléculaire. [ 4 ] TAIR fournit le fichier « Tair Protein Interaction » de Matt Geisler sur son FTP (ftp://ftp.arabidopsis.org/home/tair/Proteins/). [ 5 ] KEGG, une base de connaissances de référence reliant les génomes aux systèmes et environnements biologiques, fournit des informations ingénieuses sur les complexes enzymatiques. [ 1 ]∼[ 4 ] Après avoir mappé divers symboles sur AGI, nous avons trouvé 3866 paires de PPI impliquant 1875 protéines avec des supports de littérature. [ 1 ]∼[ 5 ] combiné avec des complexes enzymatiques de KEGG, le nombre total de GSP est jusqu'à 4666 impliquant avec 2285 protéines.

Aperçu des ressources GSP

. Ressources PPI. Nombre de paires .PPI . Nombre de protéines dans les paires PPI .
SPG IPP [ 1 ] Littératures de PubMed 1259 740
[ 2 ] InAct 1528 677
[ 3 ] LIER 1475 538
[ 4 ] TAIR 1073 698
[ 1 ]∼[ 4 ] 3866 1875
Complexes protéiques [ 5 ] KEGG (complexe enzymatique) 1700 856
Le total [ 1 ]∼[ 5 ] 4666 2285
. Ressources PPI. Nombre de paires .PPI . Nombre de protéines dans les paires PPI .
SPG IPP [ 1 ] Littératures de PubMed 1259 740
[ 2 ] InAct 1528 677
[ 3 ] LIER 1475 538
[ 4 ] TAIR 1073 698
[ 1 ]∼[ 4 ] 3866 1875
Complexes protéiques [ 5 ] KEGG (complexe enzymatique) 1700 856
Le total [ 1 ]∼[ 5 ] 4666 2285

[ 1 ] Les interactions protéiques collectées manuellement sont extraites directement de milliers d'articles publiés dans PubMed. [ 2 ] InAct fournit un système de base de données open source disponible gratuitement pour les données d'interaction protéique dans EMBL-EBI. Toutes les interactions sont dérivées de la conservation de la littérature ou des soumissions directes des utilisateurs. [ 3 ] BIND est une nouvelle ressource pour effectuer des recherches entre bases de données d'informations disponibles sur les séquences, les interactions, les complexes et les voies. Il intègre une gamme de bases de données de composants, notamment Genbank et BIND, la base de données du réseau d'interaction biomoléculaire. [ 4 ] TAIR fournit le fichier « Tair Protein Interaction » de Matt Geisler sur son FTP (ftp://ftp.arabidopsis.org/home/tair/Proteins/). [ 5 ] KEGG, une base de connaissances de référence reliant les génomes aux systèmes et environnements biologiques, fournit des informations ingénieuses sur les complexes enzymatiques. [ 1 ]∼[ 4 ] Après avoir mappé divers symboles sur AGI, nous avons trouvé 3866 paires de PPI impliquant 1875 protéines avec des supports de littérature. [ 1 ]∼[ 5 ] combiné avec des complexes enzymatiques de KEGG, le nombre total de GSP est jusqu'à 4666 impliquant avec 2285 protéines.

Pour prédire les IPP dans AtPID, nous avons appliqué des approches informatiques, y compris les interactions protéiques conservées (c'est-à-dire les interologues) (48), les données d'expression génique (49, 50), le contexte génomique (c'est-à-dire l'algorithme du voisin du gène) (51, 52), la fusion de gènes (Rosetta Stone method) ( 53 , 54 ), profils phylogénétiques ( 55 , 56 ) et annotation GO. Les profils phylogénétiques optimisés ont été construits et évalués à l'aide de la méthode de Sun et al. (57). IPP orthologues dans A. thaliana ont été obtenus selon le transfert de fonction orthologue. Des fichiers cartographiques orthologues dans Inparanoid (58) et des données d'interaction DIP pour d'autres organismes ont également été collectés (59). À déduire Arabidopsis interactions protéiques, nous avons cartographié plusieurs organismes modèles (par ex. S. cerevisiae, D. melanogaster, C. elegans et H. sapiens ) données d'interaction protéique et orthologues à Arabidopsis . De plus, nous avons utilisé l'atlas de Arabidopsis développement des données de microarray (Acc.no: ME00319) de la base de données TAIR (13) pour identifier les gènes co-exprimés.

Des protéines non redondantes avec annotation GO du Gene Ontology Consortium ont été identifiées. Ces données ont été utilisées pour calculer la valeur des plus petits processus biologiques partagés (SSBP) de chaque paire pour toutes les protéines utilisant des méthodes d'annotation GO (40). Les protéines en interaction fonctionnent souvent dans le même processus biologique. Par conséquent, les protéines impliquées dans le même processus sont plus susceptibles d'interagir que les protéines dans des processus distincts. De plus, les protéines présentant une spécificité fonctionnelle élevée sont plus susceptibles d'interagir que les protéines fonctionnant dans des processus plus complets. Sur la base de cette hypothèse, nous avons d'abord identifié tous les termes de processus biologiques partagés par deux protéines. Par la suite, nous avons compté combien d'autres protéines sont attribuées à chacun des termes communs et avons produit le terme de processus biologique partagé avec le plus petit nombre (SSBP). En général, plus le nombre de SSBP est petit, plus le terme du processus biologique est spécifique et plus la similitude fonctionnelle entre deux protéines est grande. De cette façon, nous avons utilisé SSBP pour prédire les IPP.

Nous avons également étudié l'hypothèse selon laquelle certains des opérons contenus dans un organisme particulier peuvent être conservés dans d'autres organismes sur la base de la méthode Gene Neighbors. La conservation de la structure d'un opéron fournit une preuve supplémentaire que les gènes d'un opéron sont fonctionnellement couplés et sont peut-être des composants d'un complexe ou d'une voie protéique.

Enfin, nous avons adopté la méthode de fusion de gènes. L'hypothèse sous-jacente de la méthode est que si une protéine composite est uniquement similaire à deux protéines composantes d'une autre espèce, les protéines composantes sont les plus susceptibles d'interagir (53). Les événements de fusion de gènes ont été identifiés dans des génomes complets, uniquement sur la base de comparaisons de séquences. Ces données permettent l'inférence d'associations fonctionnelles entre les protéines.

L'approche des réseaux bayésiens

Les ensembles de données prédictives de ces méthodes individuelles ont été intégrés à l'aide de réseaux bayésiens naïfs (40). L'approche des réseaux bayésiens a été utilisée pour intégrer plus de sept sources de données prédictives et pour construire par la suite un modèle pour déduire de nouveaux IPP pour Arabidopsis . L'essence de l'approche est de fournir une règle mathématique, compte tenu de certaines preuves prédictives, pour expliquer comment ajuster les chances qu'une paire de protéines interagisse, soit dans une véritable instance d'interaction (GSP), soit, de manière correspondante, dans des interactions protéiques négatives, appelées GSN (Golden Standard Négatif). Aucune information directe concernant l'absence d'interactions protéiques spécifiques n'est disponible. Cependant, les données de localisation des protéines fournissent des preuves indirectes, étant donné que nous supposons que les protéines dans différents compartiments cellulaires n'interagissent pas (60). Par conséquent, les valeurs GSN ont été construites sur la base de cette hypothèse en utilisant les données de localisation subcellulaire de la base de données SUBA (61). Les rapports de vraisemblance individuels ont été facilement calculés en comptant le nombre de paires de protéines avec des valeurs qui se chevauchent avec les ensembles GSP et GSN dans l'ensemble de données prédictives.

Les scores de confiance (LR) pour chaque paire PPI inférée étaient la somme de la forme logarithmique des sept rapports de vraisemblance individuels des méthodes correspondantes. La page des résultats de la requête AtPID représente le score LR de chaque méthode avec des cercles ouverts, partiellement ou complètement remplis qui indiquent des corrélations positives avec le niveau de confiance de la relation d'interaction. Le nombre détaillé de chaque ensemble de données prédictives est indiqué dans le tableau 2 et tous les ensembles de données prédictives peuvent être téléchargés à partir du site Web AtPID.

Aperçu du nombre de jeux de données prédictifs individuels

. Nombre de paires de PPI prédictifs . Nombre de protéines dans les paires PPI .
O : ensembles de données d'interaction orthologue 3045 1359
G : Fonction biologique partagée : GO Ontologie 553 523
E : Co-expression 14 837 8024
F : Méthode de fusion de gènes 6570 5671
N : méthode des voisins de gènes 2008 1637
P : Méthode du profil phylogénétique 15 723 8751
D : Paire de domaines enrichis 2182 1288
AtPID a 28 062 (PPI putatif avec GSP) 12 506
23 396 (PPI putatif sans SPG) 11 706
. Nombre de paires de PPI prédictifs . Nombre de protéines dans les paires PPI .
O : ensembles de données d'interaction orthologue 3045 1359
G : Fonction biologique partagée : GO Ontologie 553 523
E : Co-expression 14 837 8024
F : Méthode de fusion de gènes 6570 5671
N : méthode des voisins de gènes 2008 1637
P : Méthode du profil phylogénétique 15 723 8751
D : Paire de domaines enrichis 2182 1288
AtPID a 28 062 (PPI putatif avec GSP) 12 506
23 396 (PPI putatif sans SPG) 11 706

a Grâce à l'intégration par Naïve Bays Network, AtPID a atteint 28 062 paires PPI avec 23 396 paires issues des méthodes de prédiction. Il existe sept ensembles de données individuels provenant de diverses approches, identifiés par O, G, E, F, N, P et D. Les détails de chaque méthode peuvent être consultés sur la FAQ AtPID.

Aperçu du nombre de jeux de données prédictifs individuels

. Nombre de paires de PPI prédictifs . Nombre de protéines dans les paires PPI .
O : ensembles de données d'interaction orthologue 3045 1359
G : Fonction biologique partagée : GO Ontologie 553 523
E : Co-expression 14 837 8024
F : Méthode de fusion de gènes 6570 5671
N : méthode des voisins de gènes 2008 1637
P : Méthode du profil phylogénétique 15 723 8751
D : Paire de domaines enrichis 2182 1288
AtPID a 28 062 (PPI putatif avec GSP) 12 506
23 396 (PPI putatif sans SPG) 11 706
. Nombre de paires de PPI prédictifs . Nombre de protéines dans les paires PPI .
O : ensembles de données d'interaction orthologue 3045 1359
G : Fonction biologique partagée : GO Ontologie 553 523
E : Co-expression 14 837 8024
F : Méthode de fusion de gènes 6570 5671
N : méthode des voisins de gènes 2008 1637
P : Méthode du profil phylogénétique 15 723 8751
D : Paire de domaines enrichis 2182 1288
AtPID a 28 062 (PPI putatif avec GSP) 12 506
23 396 (PPI putatif sans SPG) 11 706

a Grâce à l'intégration par Naïve Bays Network, AtPID a atteint 28 062 paires PPI avec 23 396 paires issues des méthodes de prédiction. Il existe sept ensembles de données individuels provenant de diverses approches, identifiés par O, G, E, F, N, P et D. Les détails de chaque méthode peuvent être consultés sur la FAQ AtPID.


Informations sur l'auteur

Bernd Schuettengruber et Anne-Marie Martinez : Ces auteurs ont contribué à parts égales à ce travail.

Affiliations

Institut de Génétique Humaine, CNRS, 141, Rue de la Cardonille, Montpellier Cedex 5, 34396, France

Bernd Schuettengruber, Anne-Marie Martinez, Nicola Iovino & Giacomo Cavalli

Université de Montpellier 2, Place Eugène Bataillon, Montpellier Cedex 5, 34095, France

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Auteur correspondant


5 INTERACTIONS DES EFFECTEURS

… pour gérer efficacement un système, vous pouvez vous concentrer sur les interactions des pièces plutôt que sur leur comportement pris séparément.

Russell L. Ackoff et Fred Emery, Sur des systèmes ciblés

On peut soutenir que le Saint Graal de la caractérisation des effecteurs est d'identifier les cibles moléculaires exactes de chaque effecteur et/ou les molécules utilisées par la plante pour se lier à eux. Cela peut conduire à définir les séquences précises et les interactions moléculaires se produisant au(x) point(s) de contact direct. La première est très difficile car les séquences effectrices ne donnent pas beaucoup d'indices quant à leur(s) fonction(s).

5.1 Un coup dans le noir : une projection impartiale

Le criblage « direct » impartial pour trouver les interactions protéine-protéine (PPI) est une technique courante utilisée dans de nombreux aspects de la biologie moléculaire. Le système à deux hybrides de levure (Y2H), développé pour la première fois il y a 30 ans, permet le criblage à grande échelle de bibliothèques d'ADNc dérivées de plantes infectées par des agents pathogènes pour l'identification de cibles effectrices (Fields et Song, 1989 Mukhtar et al., 2011 ). Les interactions détectées par les criblages Y2H doivent être validées par des tests PPI supplémentaires car cette approche est sujette aux faux positifs.

La technique de validation Y2H la plus courante est la co-immunoprécipitation (Co-IP). La co-immunoprécipitation est utilisée pour cribler les interactions effectrices dans des systèmes hétérologues. Lorsque 20 champignon de la rouille du peuplier candidat (M. larici-populina) les effecteurs ont été marqués avec GFP et exprimés en N. benthamiana, cinq se sont avérés interagir spécifiquement avec les protéines végétales par des tests de pull-down utilisant des anti-GFP suivis d'une purification des protéines (Figure 4a) (Petre et al., 2015 ).

La biotinylation est également utilisée pour le marquage de proximité basé sur des outils tels que BioID (Li et al., 2017 ). Un avantage du marquage de proximité par rapport à la co-immunoprécipitation est la possibilité d'identifier des protéines qui n'interagissent que faiblement ou transitoirement avec la cible (Figure 4b). Récemment, un nouvel outil d'étiquetage de proximité, TurboID, s'est avéré fournir un étiquetage in planta plus efficace que BioID et peut également réduire le temps d'incubation de la biotine de 16 h à 10 min (Branon et al., 2018 Zhang et al., 2019 ). Ces nouvelles avancées de la technologie PPI ouvrent la voie à un criblage des interactions effectrices à plus haut débit in planta.

5.2 Complément des marqueurs fractionnés

L'effecteur Pep1 est essentiel pour la pathogénicité du champignon du charbon du maïs U. maydis (Doehlemann et al., 2009 ). L'interaction directe entre Pep1 et la peroxydase végétale POX12 a été validée à l'aide du test de complémentation de fluorescence bimoléculaire (BiFC) (figure 4c), qui implique la fusion de deux parties d'un marqueur fluorescent à des intéracteurs candidats. Ce n'est que lorsque les interacteurs se rencontrent que le marqueur fluorescent complet peut s'assembler et être détecté. Alternativement, l'enzyme luciférase dérivée de la luciole peut être utilisée pour la complémentation des marqueurs fractionnés. Cela a l'avantage sur BiFC pour les études in planta car la luciférase ne nécessite pas d'excitation par la lumière pour la détection, éliminant ainsi les interférences d'autofluorescence (Li et al., 2011 ). Cependant, l'utilisation de la complémentation de marqueurs fractionnés pour la validation PPI n'est pas infaillible car la surexpression hétérologue de protéines dans N. benthamiana peut affecter la localisation des protéines et donc les interacteurs.

5.3 Interactions structurelles : repérer les contacts surfaciques et leurs forces

La connaissance des structures effectrices tout en étant complexes avec leurs cibles nous donne un meilleur aperçu de la base moléculaire de ces interactions entre royaumes.

Les C. fulvum effecteur Avr4 a été l'un des premiers à être caractérisé à partir d'une famille d'effecteurs qui se lient à et protègent la chitine de la paroi cellulaire fongique de la chitinase hôte (Joosten et al., 1997 van den Burg et al., 2006 ). Récemment la structure cristalline d'Avr4 en complexe avec son ligand chitine (résolu à 1.95Å) a mis en évidence les résidus nécessaires à cette fonction (Hurlburt et al., 2018 ). Des études de mutants structurels ont également montré que la reconnaissance de l'Avr4 par le récepteur immunitaire apparenté Cf-4 ne dépend pas de la même liaison de ligand qu'on le pensait auparavant (Hurlburt et al., 2018 ).

La structure cristalline du récepteur immunitaire NLR intracellulaire du riz Pik en complexe avec le M. oryzae effecteur Avr-Pik (résolution 1,6Å) révèle les détails moléculaires de l'événement de reconnaissance qui conduit à la mort cellulaire induite par les RH (Maqbool et al., 2015 ). La surface effectrice impliquée dans cette interaction a également été identifiée comme étant impliquée dans les interactions de surface entre Avr-Pia et le NLR-RATX1 dans M. oryzae (Ortiz et al., 2017 ).

Au cours de la dernière décennie, les structures des protéines sont de plus en plus résolues sans qu'il soit nécessaire de former des cristaux ou d'utiliser des rayons X nocifs, mais en utilisant la cryomicroscopie électronique. Cette technique est largement utilisée pour résoudre des protéines dans des complexes et a été utilisée pour montrer à la fois des protéines inactives Arabidopsis Complexe NLR ZAR1-RKS1 et la forme intermédiaire lorsque le complexe interagit avec une protéine modifiée par l'effecteur bactérien AvrAC (Xanthomonas campestris pv. campestris) (Wang et al., 2019 ). Cryo-e, malgré sa popularité croissante en biologie structurale, est incapable de résoudre les protéines inférieures à 65 kDa, une exclusion de taille qui inclurait de nombreux effecteurs fongiques et oomycètes (Muench et al., 2019 ).

La force des interactions effecteur-cible peut être déterminée à l'aide d'une calorimétrie de titrage isotherme où la mesure directe de la chaleur qui est soit libérée soit absorbée pendant l'événement de liaison moléculaire donne une image thermodynamique complète de la réaction, y compris l'affinité, l'enthalpie et la stoechiométrie (Duff et al., 2011 ). Pour les conservés M. oryzae Effecteur MAX Avr1-CO39, la calorimétrie de titrage isotherme a été utilisée pour confirmer que l'interaction directe avec le domaine associé aux métaux lourds (HMA) du riz NLR RGA5 était nécessaire pour la liaison de l'effecteur (Guo et al., 2018 ).

Une meilleure compréhension de la façon dont les interactions structurelles contribuent à la spécificité de la reconnaissance Avr est vitale pour les travaux futurs visant à développer une résistance durable aux maladies dans les cultures vivrières importantes.


Discussion

Bien que de nombreuses élicitines de Phytophtora espèces ont été signalées, il n'est pas clair si les élicitines contribuent directement à Phytophtora pathogénicité. Les élicitines déclenchent une réponse de défense des plantes dans la plupart des Nicotiana espèces, et cette réponse est suffisante pour protéger contre l'infection non seulement en Phytophtora mais aussi des bactéries, des champignons et des virus [3]. Un symptôme important de la réponse de défense est la réponse hypersensible (HR), qui résulte d'interactions incompatibles entre une plante et un agent pathogène. La RH implique la mort cellulaire rapide des tissus végétaux infectés et l'élaboration de protéines de défense inductibles. La façon dont les élicitines induisent la FC est déroutante. Les élicitines sont des protéines extracellulaires, et il semble donc probable qu'un récepteur d'élicitine soit localisé dans la membrane plasmique de la plante. L'identification du récepteur responsable de la réponse à l'élicitine est d'un intérêt considérable, car la plupart des Phytophtora espèces produisent des élicitines et donc un récepteur d'élicitine devrait conférer un large spectre Phytophtora résistance [32�].

Dans cette étude, nous avons isolé un gène codant pour la capsiceine CAP-Pa28 de P. capsici Pa28 et identifié une protéine interagissant avec la capsicéine, qui est homologue aux RLK végétales, à partir de N. glutinosa à l'aide d'un essai à deux hybrides sur levure. Les RLK sont des protéines kinases végétales inhabituelles associées à la membrane, dont certaines jouent un rôle important dans la résistance aux agents pathogènes [35]. Une RLK comprend un domaine extracellulaire putatif, un domaine transmembranaire et un domaine de protéine kinase. Tous les RLK identifiés dans les plantes jusqu'à présent ont un domaine kinase Ser/Thr, contrairement au domaine kinase spécifique de la tyrosine commun chez les animaux. NgRLK1 a une structure de domaine similaire à celle des RLK végétales. Sur la base de la structure du domaine extracellulaire putatif, Satterlee et al. divisent les kinases des récepteurs végétaux en plusieurs classes [35] : celles ayant un domaine extracellulaire homologue aux glycoprotéines du locus S [36], homologues aux lectines putatives liant les glucides [37], ou homologues aux protéines liées à la pathogenèse (PR5) [31] certains RLK ont des domaines extracellulaires avec un nombre variable de répétitions riches en leucine (LRR) [38]. Fait intéressant, le domaine extracellulaire de NgRLK1 contient à la fois des domaines glycoprotéiques de type lectine et S-locus, en plus d'un domaine PAN AP, qui est connu pour médier les interactions protéine-protéine ou protéine-glucides [39]. La structure du domaine de NgRLK1 est similaire à celle du récepteur S kinase (SRK) de B. oleracea [40]. Il a été démontré que SRK médie la réponse d'auto-incompatibilité dans Brassicacées [41]. Récemment, Kanzaki et al. rapporté sur NbLRK1, qui est une protéine kinase de récepteur de type lectine de N. benthamiana qui interagit avec l'élicitine INF1 de P. infestans [23]. NbLRK1 joue un rôle important dans le déclenchement du signal HR médié par INF1 en aval. Kanzaki et al. a également démontré que INF1 se lie au domaine kinase intracellulaire de NbLRK1 dans un essai hybride levure-deux. Ce résultat suggère que la reconnaissance végétale d'INF1 a lieu à l'intérieur des cellules végétales. Contrairement à NbLRK1, NgRLK1 extracellulaire s'est avéré interagir avec CAP-Pa28 dans des tests hybrides levure-deux et GST-pull-down, et la structure du domaine extracellulaire NgRLK1 suggère des interactions possibles avec des protéines ou des glucides. Cette preuve a soutenu une interaction directe du domaine extracellulaire de NgRLK1 avec CAP-Pa28. Il est intéressant de noter que CAP-Pa28 s'est également avéré se lier au domaine kinase intracellulaire de NgRLK1. Kanzaki et al. ont proposé que la protéine INF1 puisse être transportée à l'intérieur des cellules végétales par endocytose ou par un mécanisme inconnu pour interagir avec le domaine kinase de NbLRK1 [23]. Sur la base de ce rapport et de nos résultats, nous supposons que la reconnaissance végétale de CAP-Pa28 se produit dans les espaces extracellulaires et intracellulaires. Pour étayer cette hypothèse, la localisation des cellules végétales de CAP-Pa28 doit être confirmée.

Dans l'analyse phylogénétique basée sur les protéines, NgRLK1 était plus étroitement lié à PR5K de A. thaliana qu'aux récepteurs kinases de type lectine, qui incluent NbLRK1, et d'autres RLK végétales. Wang et al. ont suggéré que le récepteur PR5K est impliqué dans la perception des signaux microbiens [31]. L'analyse de la structure phylogénétique et du domaine de NgRLK1 implique que NgRLK1 pourrait jouer un rôle en tant que récepteur pour les molécules de signal dérivées d'agents pathogènes comme les élicitines, et nous proposons que NgRLK1 est un nouveau type de plante RLK qui reconnaît Cap-Pa28.

Le domaine recombinant Ser/Thr kinase de NgRLK1 avait une activité d'autophosphorylation, et cette activité était plus élevée avec Mn 2+ qu'avec Mg 2+, comme précédemment rapporté pour d'autres RLK de plantes [42�]. Par rapport à GST–NgRLK1 522� activé par Mg 2+ , GST–NgRLK1 522�� activé par Mn 2+ a donné une bande plus diffuse de mobilité inférieure sur SDS–PAGE, suggérant que GST–NgRLK1 522� subit un changement conforme lors de l'activation enzymatique. Ce résultat montre que NgRLK1 code pour une protéine kinase active et soulève la possibilité que NgRLK1 soit impliqué dans la voie de signalisation HR dans N. glutinosa.

L'analyse par transfert de Southern a indiqué qu'il existe plus d'une copie de NgRLK1 dans N. glutinosa (Y. T. Kim, données non publiées), alors qu'il a été rapporté que les RLK de Pétunia inflata, B. napus, et Catharanthus roseus n'existent qu'en exemplaires uniques [42, 45, 46].

Ici, nous rapportons l'utilisation d'un essai hybride levure-deux pour isoler une plante RLK en fonction de son interaction avec la capsicéine. Nous proposons que NgRLK1 représente un nouveau type de RLK végétale et est un récepteur potentiel de la capsicéine. Pour le vérifier, il sera nécessaire de déterminer si NgRLK1 fonctionne comme un récepteur de capsicéine in vivo. Les données présentées dans cette étude contribuent à une compréhension des fonctions biochimiques et physiologiques des RLK végétales et du mécanisme de la réponse de défense induite par l'élicitine. Ces découvertes peuvent avoir des implications importantes pour la sélection moléculaire de la résistance aux maladies dans les cultures.


ORIENTATIONS ET CONCLUSIONS FUTURES

Les quatre constituants de base de l'ARN sont modifiés par plus de 100 modifications d'ARN différentes. Cette complexité supplémentaire de l'ARN est essentielle pour les fonctions de base, telles que la régulation et la traduction des gènes. Les Arabidopsis l'épitranscriptome a maintenant été cartographié pour plusieurs modifications de l'ARN, qui se produisent à différents endroits dans les transcrits, sont inductibles en réponse à des stress abiotiques et biotiques et ont divers rôles dans le développement des plantes, allant de subtil (m 5 C) à dramatique (m 6 A) effets sur la croissance des plantes. Alors que les « écrivains » modifiant l’ARN ont été étudiés dans les plantes, les études sur les « gommes » et les « lecteurs » potentiels font défaut. Les Arabidopsis le génome code pour plus de 200 protéines de liaison à l'ARN qui servent de lecteurs potentiels et d'effecteurs de résultats pour les modifications de l'ARN (Lorkovic et Barta 2002). De plus, le potentiel Arabidopsis Les « gommes » de la famille ALKBH doivent encore être explorées pour leur rôle dans le développement des plantes et la médiation de la régulation dynamique des modifications de l'ARN (Mielecki et al. 2012 ). La famille ALKBH de dioxygénases a diverses spécificités de substrat et ne se limite pas à la déméthylation de l'adénosine (Aas et al. 2003 Jia et al. 2011 ). Spécifique Arabidopsis Les protéines de la famille ALKBH peuvent également supprimer des modifications supplémentaires de l'ARN. Des recherches supplémentaires sont nécessaires pour élucider les mécanismes et les rôles fonctionnels des modifications de l'ARNm telles que l'épissage alternatif et les réponses au stress. En utilisant de petits guides d'ARN, il est possible d'induire et de bloquer artificiellement m 6 A et dans les ARNm (Karijolich et Yu 2011 Chen et al. 2015b). Cela devrait permettre l'étude des fonctions spécifiques des modifications individuelles de l'ARN. Les modifications de l'ARN peuvent affecter de différentes manières la structure de l'ARN et les interactions entre l'ARN, l'ARN et les protéines et même potentiellement les interactions ARN-ADN (Figure 3). Les prochaines étapes pour déchiffrer le Arabidopsis L'épitranscriptome comprend Ψ-seq, cartographie des méthylations 2′-O-ribose (Karijolich et Yu 2011 Birkedal et al. 2015 ), cartographie de la N1-méthyladénosine (m 1 A) (Dominissini et al. 2016 ), cartographie de résolution à un seul nucléotide de m 6 A (Ke et al. 2015 ), et déterminer la réversibilité potentielle, et le(s) mécanisme(s) de ciblage insaisissable(s) pour les modifications de l'ARN.



Commentaires:

  1. Farrel

    Je m'excuse, mais je pense que vous vous trompez. Je peux le prouver. Écrivez-moi en MP, on s'en occupe.

  2. Muircheartaigh

    Merci, le post m'a beaucoup aidé.

  3. Nann

    Je pense que vous n'avez pas raison. Je suis sûr. Écrivez dans PM, nous communiquerons.



Écrire un message