Articles

O genoma da platyfish, Xiphophorus maculatus , fornece insights sobre adaptação evolutiva e vários traços complexos

Sequenciamos todo o genoma de uma única fêmea da platyfish (XX, 2n = 46 cromossomas, estirpe Jp163A; Fig. 1) da geração 104 de acasalamentos irmãos-irmãs contínuos. A cobertura total da sequência de 19,6 vezes (Nota Complementar) produziu um conjunto com N50 contig e supercontig de comprimento de 22 kb e 1,1 Mb, respetivamente (Tabela Complementar 1). Erros de montagem, em sua maioria inserções ou deleções de um nucleotídeo, foram corrigidos com leituras de Illumina paired-end. Um total de 669 Mb do comprimento estimado do genoma de 750-950 Mb foi montado em contíguos. As previsões genéticas identificaram 20.366 genes codificadores, 348 genes não codificadores e 28 pseudogenes (Nota Complementar).

Figure 1: The platyfish, X. maculatus.
figure1

(a) Peixe platyfish fêmea (topo) e macho (fundo), da estirpe Jp163A com manchas de pigmento preto na barbatana dorsal que se desenvolvem quando a actividade de um oncogene cromossómico X é adequadamente controlada. Nos genótipos híbridos, este controlo é comprometido e o melanoma maligno desenvolve-se a partir das manchas. (b) Posição filogenética da platyfish em relação a outras espécies de peixes.

Como em outros teleosts, os elementos transponíveis (ET) em platyfish eram muito diversos, incluindo muitas famílias ausentes em mamíferos1 e aves (Figuras Suplementares 1-3, Tabelas Suplementares 2 e 3 e Nota Suplementar). Verificamos que 4,8% do transcriptoma foi derivado de sequências de ETs representando cerca de 40 famílias diferentes, indicando que muitas das ETs de platyfish provavelmente ainda estão activas. As ET mais ativas foram as transposições de DNA Tc1 (>16.000 cópias), seguidas pela família RTE (>9.000 cópias). Notavelmente, identificámos várias cópias quase intactas de um retrovírus espumoso (Spumaviridae) integrado no genoma platyfish (Fig. 2). Os vírus espumosos são conhecidos como agentes infecciosos exógenos em mamíferos2. Só recentemente foram descritas nos genomas da preguiça3 e aye-aye4 em mamíferos e no celacanto5 sequências de vírus espumosos endógenos que podem ser usados para representar um registo fóssil de infecções. Uma seqüência espumosa de vírus em zebrafish6, uma seqüência em bacalhau descoberta durante este trabalho e a seqüência do genoma platyfish aqui relatada mostram um espectro ainda mais amplo de hospedeiros. A filogenia molecular dos vírus espumosos é consistente com a filogenia do hospedeiro (Fig. 2). Este resultado suporta a noção de uma antiga origem marinha evolutiva deste tipo de vírus, com possível coevolução do hospedeiro-vírus5. As cópias quase intactas do vírus espumoso encontradas nos genomas de algumas espécies divergentes de peixes, ausentes de outros genomas de peixes sequenciados, podem indicar introduções independentes da linha germinal através da infecção. O vírus espumoso exógeno não tinha sido descrito nos peixes; contudo, os nossos resultados sugerem que os vírus espumosos exógenos foram e podem ainda ser infecciosos na linhagem dos peixes.

Figure 2: Árvore filogenética de retrovírus endógenos baseada em sequências proteicas de transcriptase reversa.
figure2

Sequências de vírus espumoso (FV) (light-blue shading) formam dois grupos filogenéticos distintos, um específico do tetrápode e outro específico do teleóstato. Ambos os grupos contêm sequências de vírus espumoso endógeno (EFV) (as sequências de platyfish e bacalhau identificados são realçadas pelo sombreamento azul escuro). O alinhamento foi realizado com ClustalW (223 aminoácidos), e a árvore filogenética foi construída com o pacote PhyML usando métodos de máximaelihood38 com bootstrap padrão (mostrado no início dos ramos) e opções de cálculo otimizadas. FV, vírus espumoso; MuERV-L, retrovírus endógeno muscular-L; BAEV, vírus endógeno babuíno; FENV1, vírus endógeno felino 1; EFV, vírus espumoso endógeno, MLV, vírus da leucemia murina; HERV-K, retrovírus endógeno humano-K; MMTV, vírus do tumor mamário do rato; HIV-1, vírus da imunodeficiência humana-1. A barra de escala representa o número de substituições por local.

Mamíferos mapas de homologia cromossômica mostram um arranjo de retalhos de cerca de 35 grandes blocos sintéticos conservados em média (mas cerca de 80 em cão e 200 em rato) e numerosos blocos pequenos montados em diferentes combinações entre as várias espécies e abrangendo mais de 90 milhões de anos de evolução7. Construímos o mapa genético meiótico mais extenso para qualquer vertebrado ainda publicado, o que permitiu a ordenação de andaimes X. maculatus e uma análise sintética conservada precisa comparando os genomas dos peixes (Nota Complementar). Usamos a inovadora abordagem de restrição de DNA associado ao local (RAD)-tag8 para construir um mapa meiótico composto por 16.245 marcadores polimórficos que definem 24 grupos de ligação equivalentes ao número do cromossoma haplóide do platyfish9. Assim, 90,17% do total de sequências em contigs poderiam ser atribuídos a uma posição cromossómica. Comparações de longo alcance da ordem dos genes entre espécies10 identificaram novas relações evolutivas entre a platyfish e outros cromossomas teleósmicos. Medaka, o parente mais próximo com um genoma sequenciado, também tem 24 cromossomas, e 19 destes mostraram uma relação rigorosa um-a-um com os cromossomas da platyfish (Fig. 3a,b). Os restantes cinco cromossomos das platyfish foram também ortologicamente cada um deles para um único cromossomo medaka, com exceção de um ou dois segmentos curtos (∼1 Mb de comprimento) que estavam localizados em outro cromossomo medaka (Fig. 3c e Suplementar Fig. 4). Assim, algumas translocações, todas muito curtas, perturbaram os cariótipos desde a divergência de medaka e platyfish há 120 milhões de anos11,12. Um quadro semelhante surgiu das comparações dos cromossomas de platyfish com os de stickleback (divergência de 180 milhões de anos atrás)11,12. Estes achados detalham a ampla extensão previamente desconhecida em que o conteúdo genético dos cromossomos nestes teleósmos tem sido conservado durante quase 200 milhões de anos de evolução, uma conservação muito maior do que aquela encontrada em mamíferos durante cerca da metade daquele tempo7,11,12. Isto é algo inesperado, dado o evento da duplicação do genoma do teleósteo (TGD), porque se poderia pensar que o par ilegítimo de cromossomos parálogos (surgindo do TGD) poderia ter facilitado as translocações. Os mecanismos que podem ter mitigado tais translocações permanecem desconhecidos.

Figure 3: Conservas sintéticas entre platyfish e medaka.
figure3

(a) Os ortologs medaka dos genes no X. maculatus cromossomo 9 (Xma9) tendem a ficar em Oryzias latipes cromossomo 4 (Ola4), mostrando que o conteúdo genético destes cromossomos permaneceu intacto sem translocações nos 120 milhões de anos desde que as linhagens destas espécies divergiram. Cada ponto cinzento ao longo do eixo horizontal rotulado Xma9 representa a posição de um gene platyfish cujo medaka ortholog (como julgado pela análise de acerto recíproco melhor-BLAST) está diretamente vertical ao gene Xma9, plotado no cromossomo medaka apropriado10. (b) Reciprocamente, quase todos os ortologs dos genes do cromossoma medaka Ola4 se encontram no Xma9. (c) Quase todos os ortologs de medaka do Xma19 se encontram no Ola22, exceto para um segmento de cerca de 1 Mb na posição 20 Mb no Ola22 que aparece no Ola24 (caixa tracejada).

A platyfish é um modelo bem conhecido na pesquisa do câncer13. Seu genoma contém uma região de controle tumoral (TCR), incluindo o oncogene xmrk14 que desencadeia o desenvolvimento do melanoma. O TCR também contém o modificador tumoral mdl15,16. As variantes alélicas mdl controlam o compartimento corporal, o tempo de início e a gravidade dos tumores17. Além disso, os alelos da mdl manifestam-se em platyfish como uma alta diversidade de padrões de pigmentos geneticamente definidos. O genoma mapeado permitiu-nos descartar muitos genes de pigmentos como factores responsáveis por estas variantes de pigmentos associados ao sexo e modificadores de melanoma. Todos os genes de pigmento conhecidos18 estavam presentes no genoma da platyfish XX fêmea; portanto, nenhum é específico do cromossoma Y. Apenas 6 dos 174 genes de pigmento conhecidos (asip2a, egfrb, muted, myca, rps20 e tfap2a) estavam localizados no cromossoma X (Xma21). Destes seis, apenas o proto-oncogene egfrb residia suficientemente perto do melanoma oncogene xmrk (Tabela Suplementar 4) para ser considerado um gene candidato para mdl. De facto, estudos bioquímicos demonstraram que o Egfrb pode cooperar com o Xmrk19, mas os níveis de expressão destes genes são regulados inversamente no melanoma20. Outros estudos são necessários para avaliar a função do egfrb e para encontrar outros genes não clássicos candidatos a pigmentação nesta região genômica que possam controlar tanto o padrão de pigmento quanto o fenótipo do melanoma.

Um outro componente genético não identificado do modelo do melanoma Xiphophorus é o gene R/Diff. O R/Diff suprime a formação de melanoma em peixes platyfish selvagens, e a eliminação da sua expressão pela hibridação interespécies permite o crescimento tumoral. R/Diff foi mapeado para um intervalo de 10-cM no Xma5 perto do locus21 do cdkn2a/b. Apesar do gene ortológico humano CDKN2A ser um gene supressor de tumores bem descrito em certos melanomas humanos22, o cdkn2a/b foi excluído de ser R/Diff porque não sofre mutação, mas é superexpresso no modelo de melanoma Xiphophorus23. A seqüência Xma5 agora define um número de genes candidatos a R/Diff para exploração posterior. Por exemplo, o scaffold 182 (1.085.500 bp), que abriga o cdkn2a/b, contém vários genes com alto potencial de ter um papel como supressor do tumor R/Diff (por exemplo, tet2, cxxc4, mtap, topo-rs, mdx4 e pdcd4a). Alternativamente, a região pode representar um locus complexo compreendendo vários genes que atuam de forma sinérgica ou compensatória para regular o oncogene xmrk, consistente com relatos anteriores de carcinogênese espontânea e induzida nos muitos modelos de tumores híbridos interespécies do Xiphophorus24,25,26.

Viviparidade é um modo reprodutivo elaborado envolvendo diversos níveis de investimento materno na descendência, variando desde o total provisionamento dos óvulos antes da fertilização e retenção dos mesmos através do desenvolvimento até o mínimo provisionamento dos óvulos antes da fertilização e o provisionamento após a fertilização via placenta, como nos mamíferos. A família de peixes Poeciliidae, uma clade monofilética de mais de 260 espécies27, é incomum em incluir espécies que vão desde o mínimo até o extenso provisionamento pós-fertilização28,29. O genoma da platyfish é o primeiro de um vertebrado vivíparo não-mamífero. Fizemos análises em peixes platyfish assim como num segundo peixe vivo, o Xiphophorus hellerii de rabo de espada, ambos com bons resultados na produção de ovos antes da fertilização30,31, de 3 grupos de genes de viviparidade (genes da gema, placenta e pelagem dos ovos; n = 34) para perda de genes e selecção positiva em comparação com 4 espécies de teleosts de postura de ovos (medaka, tetraodon, stickleback e zebrafish).

Em mamíferos, o aumento da viviparidade tem sido proposto para envolver a perda progressiva de vitelogeninas (precursores da gema)32. Em platyfish e swordtail, todos os genes relacionados à gema (vitellogeninas e seus transportadores/receptores; Tabela suplementar 5) estavam presentes e evoluíram sob selecção purificadora, consistente com ambas as espécies a fornecer completamente os ovos antes da fertilização, com a excepção de um gene que evoluiu sob selecção positiva, a vitellogenina1 (Figura suplementar 5). 5a).

Três de 13 genes de peixes platy, cujos ortologs de mamíferos estão relacionados ao desenvolvimento da placenta, evoluíram sob seleção positiva (Fig. 4a, Suplemento Fig. 5b-d e Suplemento Tabela 5). O Igf2, que no rato regula a permeabilidade da placenta33, evoluiu sob forte selecção positiva na platyfish (Fig. 4a), que afectou particularmente a região distal ao local da proteólise. A sequência igf233 também estava disponível a partir de outro poeciliídeo, o Poeciliopsis lucida do topo do deserto, que partilha um ancestral vivo com espécies Xiphophorus, mas difere por ter evoluído recentemente a placenta. No topminnow do deserto, a mesma região que na platyfish evoluiu sob selecção positiva, mas a selecção foi ainda mais forte (Suplemento Fig. 5b), sugerindo uma evolução molecular adaptativa contínua desde que os dois géneros contendo estes peixes divergiram há vários milhões de anos. Os outros dois genes da placenta, pparg e ncoa6, tinham múltiplas regiões com sinais de selecção positiva fora dos domínios funcionais conhecidos, sugerindo novas regiões importantes para a viviparidade. Os mesmos genes sob selecção em peixes vivos, no entanto, não mostraram sinais de selecção positiva quando foram analisados genes ortológicos do ornitorrinco em postura e de marsupiais e mamíferos placentários (Tabela suplementar 6). Este resultado está de acordo com o fato de que as placentas de mamíferos e peixes são estruturas convergentes mas não homólogas.

Figure 4: Probabilidades posteriores para classes de sítios sob modelos alternativos ao longo do gene para cada sítio amino-ácido calculado pela análise empírica Bayes.
figure4

Os sítios da classe 1 estão sob seleção purificadora (relação Ka/Ks de ∼0), os sítios da classe 2 estão sob seleção neutra (relação Ka/Ks de ∼1), e os sítios da classe 3 estão sob seleção positiva em espécies Xiphophorus. (a) Fator de crescimento tipo insulina 2 (IGF2). As barras coloridas abaixo do gráfico mostram domínios funcionais conhecidos, e a seta mostra o local da proteólise (entre os resíduos 118 e 119). (b) CoriogeninaH menor. No topo, comparação entre a postura de ovos e a de peixes vivos. Em baixo, comparação de mamíferos placentários versus mamíferos não placentários. As mesmas regiões estão sob selecção positiva em peixes e mamíferos.

Genes da Zona pelúcida (Zpc), que produzem uma pelagem rica em glicoproteínas à volta da membrana plasmática do oócito, mostraram as alterações mais pronunciadas. Inversamente, chorogeninH minor, choriolysinL, choriolysinH e zvep evoluíram sob selecção positiva (Fig. 4b, Suplemento Fig. 5e-g e Suplemento Tabela 5). No Xenopus laevis, os genes Zpc controlam a ligação do esperma específico da espécie e ajudam a garantir que apenas os espermatozóides específicos liberados no ambiente aquoso fertilizem os óvulos34. Os peixes vivíparos, no entanto, têm fertilização interna, onde o reconhecimento do esperma específico da espécie não seria tão crucial. Em comparação com os peixes que põem ovos, espera-se que a casca do ovo nestes peixes se tenha adaptado ao desenvolvimento dentro da mãe, uma vez que já não é essencial para a protecção mas deve facilitar a troca de gases e materiais. Os genes das enzimas zvep e choriolysinH mostraram locais de rápida evolução geralmente localizados adjacentes aos domínios catalíticos (Suplementar Fig. 4f,g), indicando que, durante a evolução da viviparidade, estas enzimas podem ter alterado as interacções com as proteínas alvo ou reguladoras. Notavelmente, na chorogeninH menor, as mesmas regiões, em particular no domínio da zona pelúcida, evoluíram sob selecção positiva tanto em mamíferos como em peixes (Fig. 4b). Este é um exemplo notável de como a evolução convergente a nível molecular se manifesta nos níveis fisiológicos e morfológicos finais.

As nossas análises das consequências da TGD revelaram uma classe funcional de genes que despertou o nosso interesse porque os peixes Xiphophorus em particular e os teleóstatos em geral mostram um alto nível pronunciado de complexidade comportamental35 que outros grupos de vertebrados de “sangue frio” como os anfíbios e os répteis não atingem. Usando o genoma platyfish e anotações genéticas de seis outros teleosts sequenciados, perguntamos se a retenção duplicada de genes do evento TGD poderia produzir através da subfuncionalização (retenção diferencial de subfunções ancestrais) e/ou neofuncionalização (aquisição de novas subfunções)36 a aquisição de comportamentos mais complexos. Comparamos 190 genes relacionados à cognição (Tabela 7 e Nota Complementar) com aqueles envolvidos na pigmentação (133 genes, para os quais o aumento dos repertórios gênicos tem sido ligado à alta complexidade e diversidade da coloração teleost) e funções hepáticas (187 genes)18 como controles. A análise dos genes relacionados à cognição mostrou uma alta taxa de retenção duplicada de 45% em platyfish e valores similares em outros teleosts (Fig. 5 e Suplementar Fig. 6) em comparação com as taxas observadas para os genes relacionados à pigmentação (30%) e função hepática (15%). A taxa média de retenção de duplicados em todos os genes nos genomas teleósteos é estimada em 12-24% (ref. 37). Não encontramos nenhum viés nos genes de todas as três categorias funcionais (cognição, pigmentação e função hepática) que foram retidos após a TGD devido à sensibilidade da dose ou membresia do complexo proteico (Tabelas Suplementares 8 e 9 e Nota Suplementar), mas foi encontrado um viés nos genes de cognição (mas não nos genes de função hepática e pigmentação) para proteínas particularmente grandes (>1.000 aminoácidos de comprimento) (Suplementar Fig. 7, Tabela Suplementar 10 e Nota Suplementar). Plotting gene losses on the phylogenetic tree showed that cognition gene retention was already fixed soon after TGD and before teleost diversification. Este achado suporta a hipótese de que a retenção paralógica do evento TGD pode ter suportado o alto nível de complexidade comportamental em Xifósforo e outros teleósteos.

Figure 5: Retenção diferencial de duplicados gênicos em cognição, pigmentação e classes funcionais hepáticas em teleósteos após TGD.
figure5

(a) Taxas de retenção de duplicados de genes derivados de TGD relacionados à cognição, pigmentação e função hepática em sete genomas teleósteos. Pontos de tempo durante a evolução do teleósteo que envolvem a linhagem que conduz ao Xifósforo são conectados por linhas. (b) Mapeamento filogenético de perdas de genes para 190 pares de duplicados de genes relacionados com a cognição após a TGD. As perdas são indicadas com valores negativos. O número de pares de parálogos TGD retidos para cada genoma teleósteo individual é dado entre parênteses. As perdas do par análogo TGD foram mapeadas na filogenia do teleósteo fornecida por Setiamarga et al.39 seguindo o princípio da parcimônia. O evento do TGD foi definido para 350 milhões de anos atrás. A taxa de retenção dos parálogos TGD é definida pelo número de pares de duplicados derivados do TGD presentes numa determinada linhagem, dividido pelo número de pares de duplicados derivados do TGD presentes no momento do TGD18.

A sequência e análise do genoma platyfish tem fornecido novas perspectivas para várias características proeminentes deste modelo de peixe, incluindo seu modo de reprodução vivo, variação nos padrões de pigmentação, evolução dos cromossomos sexuais em ação, comportamento complexo e carcinogênese tanto espontânea quanto induzida17. Os teleosts dominam a fauna de peixes existente e, dentro dos teleosts (Fig. 1b), a família Poeciliidae, incluindo platyfish, swordtails, guppies e mollies, é um paradigma deste amplo espectro de adaptações. Nosso estudo deste primeiro genoma de um peixe poeciliídeo ilumina algumas adaptações evolutivas teleost e fornece um importante recurso para avançar o estudo do melanoma e outros fenótipos segregadores.