Articles

Le génome du platyfish, Xiphophorus maculatus, donne un aperçu de l’adaptation évolutive et de plusieurs traits complexes

Nous avons séquencé le génome entier d’une seule femelle platyfish (XX, 2n = 46 chromosomes, souche Jp163A ; Fig. 1) de la génération 104 des accouplements continus frère-sœur. Une couverture de séquence totale de 19,6 fois (note supplémentaire) a produit un assemblage avec des longueurs de contig et supercontig N50 de 22 kb et 1,1 Mb, respectivement (tableau supplémentaire 1). Les erreurs d’assemblage, principalement des insertions ou des délétions d’un seul nucléotide, ont été corrigées avec des lectures paires d’Illumina. Un total de 669 Mb de la longueur estimée du génome de 750-950 Mb a été assemblé en contigs. Les prédictions génétiques ont permis d’identifier 20 366 gènes codants, 348 gènes non codants et 28 pseudogènes (note supplémentaire).

Figure 1 : Le platyfish, X. maculatus.
figure1

(a) Platyfish femelle (en haut) et mâle (en bas), de souche Jp163A avec des taches de pigment noir sur la nageoire dorsale qui se développent lorsque l’activité d’un oncogène du chromosome X est contrôlée de manière appropriée. Chez les génotypes hybrides, ce contrôle est compromis et un mélanome malin se développe à partir des taches. (b) Position phylogénétique du platyfish par rapport à d’autres espèces de poissons.

Comme chez les autres téléosts, les éléments transposables (TE) chez le platyfish étaient très diversifiés, y compris de nombreuses familles absentes chez les mammifères1 et les oiseaux (figures supplémentaires 1-3, tableaux supplémentaires 2 et 3 et note supplémentaire). Nous avons constaté que 4,8% du transcriptome était dérivé de séquences TE représentant environ 40 familles différentes, ce qui indique que de nombreux TE de platyfish sont très probablement encore actifs. Les TE les plus actifs étaient les transposons d’ADN Tc1 (>16,000 copies), suivis par la famille RTE (>9,000 copies). Notamment, nous avons identifié plusieurs copies presque intactes codant pour l’enveloppe d’un rétrovirus spumeux (Spumaviridae) intégré dans le génome du platyfish (Fig. 2). Les virus spumeux sont connus comme agents infectieux exogènes chez les mammifères2. Ce n’est que récemment que des séquences endogènes de virus spumeux pouvant être utilisées pour représenter un registre fossile d’infections ont été décrites dans les génomes du paresseux3 et de l’aye-aye4 chez les mammifères et chez le cœlacanthe5. Une séquence de type virus spumeux chez le poisson zèbre6, une séquence chez la morue découverte au cours de ce travail et la séquence du génome du platyfish rapportée ici montrent un spectre d’hôtes encore plus large. La phylogénie moléculaire des virus spumeux est cohérente avec la phylogénie des hôtes (Fig. 2). Ce résultat soutient la notion d’une origine évolutive marine ancienne de ce type de virus, avec une possible coévolution hôte-virus5. Les copies presque intactes du virus foamy trouvées dans les génomes de certaines espèces de poissons divergentes, absentes d’autres génomes de poissons séquencés, pourraient indiquer des introductions germinales indépendantes par infection. Le virus foamy exogène n’avait pas été décrit chez les poissons ; cependant, nos résultats suggèrent que les virus foamy exogènes ont été et pourraient encore être infectieux dans la lignée des poissons.

Figure 2 : Arbre phylogénétique des rétrovirus endogènes basé sur les séquences de protéines de la transcriptase inverse.
figure2

Les séquences du virus spumeux (FV) (ombrage bleu clair) forment deux groupes phylogénétiques distincts, l’un spécifique aux tétrapodes et l’autre aux téléostéens. Les deux groupes contiennent des séquences de virus spumeux endogènes (EFV) (les séquences de platyfish et de morue nouvellement identifiées sont mises en évidence par un ombrage bleu foncé). L’alignement a été effectué avec ClustalW (223 acides aminés), et l’arbre phylogénétique a été construit avec le paquet PhyML en utilisant des méthodes de maximum de vraisemblance38 avec bootstrap par défaut (indiqué au début des branches) et des options de calcul optimisées. FV, virus spumeux ; MuERV-L, Mus musculus endogenous retrovirus-L ; BAEV, virus endogène du babouin ; FENV1, virus endogène félin 1 ; EFV, virus spumeux endogène, MLV, virus de la leucémie murine ; HERV-K, rétrovirus endogène humain-K ; MMTV, virus de la tumeur mammaire de la souris ; HIV-1, virus de l’immunodéficience humaine-1. La barre d’échelle représente le nombre de substitutions par site.

Les cartes d’homologie des chromosomes mammaliens montrent un arrangement en patchwork d’environ 35 grands blocs de synténie conservés en moyenne (mais environ 80 chez le chien et 200 chez la souris) et de nombreux petits blocs assemblés dans différentes combinaisons parmi les espèces variées et couvrant plus de 90 millions d’années d’évolution7. Nous avons construit la carte génétique méiotique la plus vaste jamais publiée pour un vertébré, ce qui a permis d’ordonner les échafaudages de X. maculatus et de réaliser une analyse précise de la synténie conservée en comparant les génomes de poissons (note supplémentaire). Nous avons utilisé l’approche innovante de l’ADN associé à un site de restriction (RAD)-tag8 pour construire une carte méiotique composée de 16 245 marqueurs polymorphes qui définissent 24 groupes de liaison équivalents au nombre de chromosomes haploïdes du platyfish9. Ainsi, 90,17% des séquences totales dans les contigs ont pu être assignées à une position chromosomique. Des comparaisons à long terme de l’ordre des gènes entre les espèces10 ont permis d’identifier de nouvelles relations évolutives entre le platyfish et d’autres chromosomes de téléostéens. Medaka, le parent le plus proche avec un génome séquencé, a également 24 chromosomes, et 19 d’entre eux ont montré une relation stricte de un à un avec les chromosomes de platyfish (Fig. 3a,b). Les cinq chromosomes de platyfish restants étaient également chacun orthologue à un seul chromosome de medaka, à l’exception d’un ou deux segments courts (∼1 Mb de longueur) qui étaient situés sur un autre chromosome de medaka (Fig. 3c et Fig. 4 supplémentaire). Ainsi, un assez grand nombre de translocations, toutes très courtes, ont perturbé les caryotypes depuis la divergence du médaka et du platyfish il y a 120 millions d’années11,12. Une image similaire est apparue en comparant les chromosomes du platyfish à ceux de l’épinoche (divergence il y a 180 millions d’années)11,12. Ces résultats détaillent l’ampleur jusqu’alors inconnue de la conservation du contenu génétique des chromosomes de ces téléosts sur près de 200 millions d’années d’évolution, une conservation bien supérieure à celle constatée chez les mammifères sur environ la moitié de cette période7,11,12. Cela est quelque peu inattendu, compte tenu de l’événement de duplication du génome des téléostéens (TGD), car on aurait pu penser que l’appariement illégitime de chromosomes paralogues (résultant de la TGD) aurait pu faciliter les translocations. Les mécanismes qui ont pu atténuer ces translocations restent inconnus.

Figure 3 : Syntéries conservées entre platyfish et medaka.
figure3

(a) Les orthologues medaka des gènes sur le chromosome 9 de X. maculatus chromosome 9 (Xma9) ont tendance à se trouver sur le chromosome 4 d’Oryzias latipes (Ola4), ce qui montre que le contenu génique de ces chromosomes est resté intact, sans translocation, au cours des 120 millions d’années qui ont suivi la divergence des lignées de ces espèces. Chaque point gris le long de l’axe horizontal étiqueté Xma9 représente la position d’un gène de platyfish dont l’orthologue de medaka (tel que jugé par l’analyse réciproque des meilleurs résultats de BLAST) se trouve directement à la verticale du gène Xma9, tracé sur le chromosome approprié de medaka10. (b) Réciproquement, presque tous les orthologues du platyfish des gènes du chromosome Ola4 du medaka se trouvent sur Xma9. (c) Presque tous les orthologues medaka de Xma19 se trouvent sur Ola22, à l’exception d’un segment d’environ 1 Mb de long à la position 20 Mb sur Ola22 qui apparaît sur Ola24 (boîte en pointillés).

Le platyfish est un modèle bien connu dans la recherche sur le cancer13. Son génome contient une région de contrôle des tumeurs (TCR), incluant l’oncogène xmrk14 qui déclenche le développement du mélanome. La région TCR contient également le modificateur de tumeur mdl15,16. Les variantes alléliques de mdl contrôlent le compartiment corporel, le moment d’apparition et la gravité des tumeurs17. En outre, les allèles mdl se manifestent chez le platyfish par une grande diversité de motifs pigmentaires génétiquement définis. Le génome cartographié nous a permis d’exclure de nombreux gènes pigmentaires comme facteurs responsables de ces variants pigmentaires associés au sexe et modificateurs du mélanome. Tous les gènes pigmentaires connus18 étaient présents dans le génome de la femelle XX du platyfish ; ainsi, aucun n’est spécifique au chromosome Y. Seuls 6 des 174 gènes pigmentaires connus (asip2a, egfrb, muted, myca, rps20 et tfap2a) étaient situés sur le chromosome X (Xma21). Parmi ces six, seul le proto-oncogène egfrb résidait suffisamment près de l’oncogène du mélanome xmrk (tableau supplémentaire 4) pour être considéré comme un gène candidat pour mdl. En effet, des études biochimiques ont montré que Egfrb peut coopérer avec Xmrk19, mais les niveaux d’expression de ces gènes sont inversement régulés dans le mélanome20. D’autres études sont nécessaires pour évaluer la fonction d’egfrb et pour trouver d’autres candidats de gènes de pigmentation non classiques dans cette région génomique qui pourraient contrôler à la fois le modèle de pigmentation et le phénotype du mélanome.

Un autre composant génétique jusqu’à présent non identifié du modèle de mélanome de Xiphophorus est le gène R/Diff. R/Diff supprime la formation de mélanome chez le platyfish sauvage, et l’élimination de son expression par hybridation inter-espèces permet la croissance de la tumeur. R/Diff a été cartographié sur un intervalle de 10 cm sur Xma5 près du locus cdkn2a/b21. Bien que le gène humain orthologue CDKN2A soit un gène suppresseur de tumeur bien décrit dans certains mélanomes humains22, cdkn2a/b a été exclu de R/Diff car il n’est pas muté mais au contraire surexprimé dans le modèle de mélanome Xiphophorus23. La séquence Xma5 définit maintenant un certain nombre de gènes candidats R/Diff pour une exploration plus approfondie. Par exemple, l’échafaudage 182 (1 085 500 pb), qui abrite cdkn2a/b, contient plusieurs gènes ayant un fort potentiel pour jouer un rôle de suppresseur de tumeur R/Diff (par exemple, tet2, cxxc4, mtap, topo-rs, mdx4 et pdcd4a). Alternativement, la région peut représenter un locus complexe comprenant plusieurs gènes qui agissent de manière synergique ou compensatoire pour réguler l’oncogène xmrk, en accord avec les rapports précédents de carcinogenèse spontanée et induite dans les nombreux modèles de tumeurs hybrides inter-espèces de Xiphophorus24,25,26.

La viviparité est un mode de reproduction élaboré impliquant divers niveaux d’investissement maternel dans la progéniture, allant d’un approvisionnement complet des œufs avant la fécondation et leur conservation tout au long du développement à un approvisionnement minimal des œufs avant la fécondation et leur approvisionnement après la fécondation via un placenta, comme chez les mammifères. La famille de poissons Poeciliidae, un clade monophylétique de plus de 260 espèces27, est inhabituelle car elle comprend des espèces qui couvrent le spectre d’un approvisionnement post-fertilisation négligeable à important28,29. Le génome du platyfish est le premier d’un vertébré vivipare non mammifère. Nous avons effectué une analyse chez le platyfish ainsi que chez un second poisson vivipare, l’espadon Xiphophorus hellerii, qui ont tous deux des œufs bien approvisionnés avant la fécondation30,31, de 3 groupes de gènes de viviparité (gènes du vitellus, du placenta et de l’enveloppe de l’œuf ; n = 34) pour la perte de gènes et la sélection positive par rapport à 4 espèces de téléosts ovipares (médaka, tétraodon, épinoche et poisson zèbre).

Chez les mammifères, on a proposé que la montée de la viviparité implique la perte progressive des vitellogénines (précurseurs du vitellus)32. Chez le platyfish et la queue d’épée, tous les gènes liés au vitellus (vitellogénines et leurs transporteurs/récepteurs ; tableau supplémentaire 5) étaient présents et ont évolué sous sélection purificatrice, ce qui est cohérent avec les deux espèces qui approvisionnent entièrement les œufs avant la fécondation, à l’exception d’un gène qui a évolué sous sélection positive, vitellogénine1 (figure supplémentaire. 5a).

Trois des 13 gènes du platyfish, dont les orthologues chez les mammifères sont liés au développement du placenta, ont évolué sous sélection positive (Fig. 4a, Fig. 5b-d supplémentaire et Tableau 5 supplémentaire). Igf2, qui chez la souris régule la perméabilité du placenta33, a évolué sous une forte sélection positive chez le platyfish (Fig. 4a), qui a particulièrement affecté la région distale du site de protéolyse. La séquence igf233 était également disponible chez un autre poeciliidé, le vairon du désert Poeciliopsis lucida, qui partage un ancêtre vivant avec les espèces de Xiphophorus mais qui diffère en ayant évolué récemment vers la placentation. Chez le topminnow du désert, la même région que chez le platyfish a évolué sous sélection positive, mais la sélection était encore plus forte (Fig. 5b supplémentaire), ce qui suggère une évolution adaptative moléculaire continue depuis que les deux genres contenant ces poissons ont divergé il y a plusieurs millions d’années. Les deux autres gènes placentaires, pparg et ncoa6, présentaient de multiples régions avec des signaux de sélection positive en dehors des domaines fonctionnels connus, ce qui suggère de nouvelles régions importantes pour la viviparité. Cependant, les mêmes gènes sélectionnés chez les poissons vivants ne présentaient pas de signatures de sélection positive lorsque les gènes orthologues de l’ornithorynque qui pond des œufs, des marsupiaux et des mammifères placentaires étaient analysés (tableau supplémentaire 6). Ce résultat est en accord avec le fait que les placentas des mammifères et des poissons sont des structures convergentes mais non homologues.

Figure 4 : Probabilités postérieures pour les classes de sites sous des modèles alternatifs le long du gène pour chaque site d’acide aminé calculé par l’analyse empirique de Bayes.
figure4

Les sites de classe 1 sont sous sélection purificatrice (rapport Ka/Ks de ∼0), les sites de classe 2 sont sous sélection neutre (rapport Ka/Ks de ∼1), et les sites de classe 3 sont sous sélection positive chez les espèces de Xiphophorus. (a) Facteur de croissance analogue à l’insuline 2 (IGF2). Les barres colorées sous le tracé montrent les domaines fonctionnels connus, et la flèche montre le site de protéolyse (entre les résidus 118 et 119). (b) ChoriogénineH mineure. En haut, comparaison entre les poissons pondeurs et les poissons vivants. En bas, comparaison entre les mammifères placentaires et non placentaires. Les mêmes régions sont soumises à une sélection positive chez les poissons et les mammifères.

Les gènes de la zone pellucide (Zpc), qui produisent un manteau riche en glycoprotéines entourant la membrane plasmique de l’ovocyte, ont présenté les changements les plus prononcés.L’alvéoline a été perdue du génome du platyfish. À l’inverse, la choriogénineH minor, la choriolysineL, la choriolysineH et le zvep ont évolué sous sélection positive (figure 4b, figure supplémentaire 5e-g et tableau supplémentaire 5). Chez Xenopus laevis, les gènes Zpc contrôlent la liaison des spermatozoïdes spécifiques à l’espèce et contribuent à garantir que seuls les spermatozoïdes conspécifiques libérés dans l’environnement aqueux fertilisent les œufs34. Les poissons vivipares, cependant, ont une fécondation interne, où la reconnaissance des spermatozoïdes spécifiques à l’espèce ne serait pas aussi cruciale. Par rapport aux poissons pondeurs, la coquille des œufs de ces poissons devrait s’être adaptée au développement à l’intérieur de la mère, car elle n’est plus essentielle à la protection mais doit faciliter les échanges de gaz et de matières. Les gènes d’enzymes d’éclosion zvep et choriolysinH ont montré des sites d’évolution rapide généralement situés à côté des domaines catalytiques (Fig. 4f,g supplémentaires), ce qui indique que, au cours de l’évolution de la viviparité, ces enzymes pourraient avoir modifié leurs interactions avec des protéines cibles ou régulatrices. Notamment, dans la choriogénineH minor, les mêmes régions, en particulier dans le domaine de la zone pellucide, ont évolué sous sélection positive à la fois chez les mammifères et les poissons (figure 4b). C’est un exemple notable de la façon dont l’évolution convergente au niveau moléculaire se manifeste au niveau physiologique et finalement morphologique.

Nos analyses des conséquences de la TGD ont mis en évidence une classe fonctionnelle de gènes qui a suscité notre intérêt parce que les poissons Xiphophorus en particulier et les téléosts en général présentent un haut niveau prononcé de complexité comportementale35 que d’autres groupes de vertébrés  » à sang froid  » tels que les amphibiens et les reptiles n’atteignent pas. En utilisant le génome du platyfish et les annotations génétiques de six autres téléosts séquencés, nous nous sommes demandés si la rétention de gènes dupliqués à partir de l’événement TGD pouvait produire, par le biais de la subfonctionnalisation (rétention différentielle de sous-fonctions ancestrales) et/ou de la néofonctionnalisation (acquisition de nouvelles sous-fonctions)36, l’acquisition de comportements plus complexes. Nous avons comparé 190 gènes liés à la cognition (tableau supplémentaire 7 et note supplémentaire) à ceux impliqués dans la pigmentation (133 gènes, pour lesquels des répertoires de gènes accrus ont été liés à la grande complexité et diversité de la coloration des téléostéens) et aux fonctions hépatiques (187 gènes)18 en tant que témoins. L’analyse des gènes liés à la cognition a montré un taux de rétention élevé de 45% chez le platyfish et des valeurs similaires chez d’autres téléosts (Fig. 5 et Fig. 6 supplémentaire) par rapport aux taux observés pour les gènes liés à la pigmentation (30%) et aux fonctions hépatiques (15%). Le taux moyen de rétention des doublons sur l’ensemble des gènes des génomes de téléostéens est estimé à 12-24% (réf. 37). Nous n’avons trouvé aucun biais dans les gènes des trois catégories fonctionnelles (cognition, pigmentation et fonction hépatique) qui ont été retenus après TGD en raison de la sensibilité au dosage ou de l’appartenance à un complexe protéique (Tableaux supplémentaires 8 et 9 et Note supplémentaire), mais un biais dans les gènes de cognition (mais pas dans les gènes de fonction hépatique et de pigmentation) pour les protéines particulièrement grandes (>1 000 acides aminés de longueur) a été trouvé (Figure supplémentaire 7, Tableau supplémentaire 10 et Note supplémentaire). La représentation graphique des pertes de gènes sur l’arbre phylogénétique a montré que la rétention des gènes de cognition était déjà fixée peu après la TGD et avant la diversification des téléostéens. Ce résultat soutient l’hypothèse selon laquelle la rétention des paralogues à partir de l’événement TGD peut avoir soutenu le haut niveau de complexité comportementale chez Xiphophorus et d’autres téléosts.

Figure 5 : Rétention différentielle des duplicatas de gènes dans les classes fonctionnelles de cognition, de pigmentation et de foie chez les téléosts après TGD.
figure5

(a) Taux de rétention des duplicata dérivés du TGD des gènes liés à la cognition, à la pigmentation et à la fonction hépatique dans sept génomes de téléostéens. Les points temporels de l’évolution des téléostéens qui impliquent la lignée menant à Xiphophorus sont reliés par des lignes. (b) Cartographie phylogénétique des pertes de gènes pour 190 paires de gènes dupliqués liés à la cognition après TGD. Les pertes sont indiquées par des valeurs négatives. Le nombre de paires de paralogues TGD conservés pour chaque génome de téléostéen individuel est indiqué entre parenthèses. Les pertes de paralogues du TGD ont été mises en correspondance avec la phylogénie des téléostéens fournie par Setiamarga et al.39 selon le principe de parcimonie. L’événement TGD a été fixé à 350 millions d’années. Le taux de rétention des paralogues du TGD est défini par le nombre de paires de duplicata dérivés du TGD présents dans une lignée spécifique divisé par le nombre de paires de duplicata dérivés du TGD présents au moment du TGD18.

La séquence et l’analyse du génome du platyfish ont fourni de nouvelles perspectives pour plusieurs caractéristiques proéminentes de ce modèle de poisson, y compris son mode de reproduction vivant, la variation des modèles de pigmentation, l’évolution des chromosomes sexuels en action, le comportement complexe et la carcinogenèse spontanée et induite17. Les téléostéens dominent la faune piscicole existante et, parmi les téléostéens (Fig. 1b), la famille des Poeciliidae, qui comprend les platyfish, les swordtails, les guppies et les mollies, est un paradigme de ce large spectre d’adaptations. Notre étude de ce premier génome d’un poisson poeciliidae éclaire certaines adaptations évolutives des téléostéens et fournit une ressource importante pour faire progresser l’étude du mélanome et d’autres phénotypes ségrégatifs.