ChapterPDF Available
!
!
84
Julia Silva Beneti
Rachel Montesinos
Mariane Targino
Este capítulo tem como objetivo apresentar os principais conceitos relacionados ao uso de
dados moleculares na Sistemática Filogenética, além de abordar algumas das principais
metodologias utilizadas nesses estudos. Optamos por apresentar os principais aspectos das
análises filogenéticas tendo como base o contexto da Parcimônia, porém ressaltamos que existem
outras interpretações para algumas das abordagens apresentadas. Além disso, focamos no
sequenciamento pelo método de Sanger, por este ainda ser o mais utilizado nas pesquisas em
Zoologia no Brasil, mas também comentamos brevemente sobre métodos de sequenciamento de
nova geração.
Conceitos básicos
Sabemos que existe uma imensa diversidade de formas entre os seres vivos. Entretanto,
quando organismos vivos são estudados em nível celular e molecular, observa-se um plano único
principal de organização. Toda a vida na Terra é baseada em um sistema de informações formado
por ácidos nucleicos, na forma de ácido desoxirribonucleico (DNA) e ácido ribonucleico (RNA),
que, por sua vez, são formados por uma estrutura básica, denominada nucleotídeo. O nucleotídeo
contém uma molécula de açúcar (pentose), um grupamento de fosfato e bases nitrogenadas
(adenina, guanina, citosina, timina e uracila) (Figura 7.1A). Esse sistema é responsável pela
transmissão das propriedades biológicas pelas gerações; já as pequenas mutações sofridas ao longo
do tempo são responsáveis pelas diferenças que observamos entre os organismos.!
As pentoses podem ser de dois tipos: ribose no RNA e desoxirribose no DNA (Figura 7.1B).
As bases nitrogenadas também são de dois tipos. As purinas (Figura 7.1C) são maiores e contêm
!
!
85
dois anéis de carbono e nitrogênio, sendo elas Adenina (A) e Guanina (G). Já as pirimidinas (Figura
7.1D) são menores e compostas por apenas um anel, sendo elas Citosina (C), Timina (T) (exclusiva
do DNA) e Uracila (U) (exclusiva do RNA). Portanto, existem duas diferenças básicas de
composição entre o DNA e o RNA: o DNA possui desoxirribose e timina e o RNA contém ribose e
uracila. Além disso, em geral, o RNA é formado por uma única cadeia polinucleotídica, enquanto
que o DNA apresenta duas cadeias polinucleotídicas conectadas por ligações químicas.
A molécula de DNA é formada por uma cadeia dupla de
nucleotídeos, sendo cada fita orientada no sentido 5’ à 3’. Dessa
forma, cada fita de DNA é formada por um arcabouço de fosfato e
desoxirribose unidos por ligações fosfodiéster, com o carbono 5 da
molécula de desoxirribose de um nucleotídeo ligado ao carbono 3 da
desoxirribose do nucleotídeo seguinte. a estrutura de dupla-fita é
mantida pela ligação entre as bases complementares de cada uma das
fitas por meio de pontes de hidrogênio. A Adenina se liga à Timina
por meio de duas pontes de hidrogênio (A=T) e a Citosina se liga à
Guanina por meio de três pontes de hidrogênio (CG). Por
intermédio das pontes de hidrogênio, as duas fitas antiparalelas (uma
no sentido 5’ à 3’ e a outra 3’ à 5’) assumem uma conformação
chamada dupla hélice (Figura 7.2).
O Dogma Central da Biologia Molecular (Figura 7.3), proposto
por Francis Crick (1916-2004) no final da década de 60 (apesar de ter
Figura 7.1. (A) Estrutura do nucleotídeo; (B) Conformação da pentose de RNA e DNA; (C) Conformação das
purinas; (D) Conformação das pirimidinas. Adaptado de http://ead.hemocentro.fmrp.usp.br/!
Figura 7.2. Conformação do
DNA em dupla hélice.!
!
!
86
se tornado mais conhecido
após sua publicação na
revista Nature, em 1970), foi
postulado após as
descobertas da estrutura do
DNA por esse pesquisador e
James Watson, em 1953.
Neste dogma o DNA foi reconhecido como sendo o principal armazenador da informação genética
devido à sua capacidade de duplicar-se e, consequentemente, reproduzir-se, permitindo assim que a
informação genética seja transmitida de geração em geração. A informação do DNA é replicada e
parte dela é transcrita em RNA mensageiro (mRNA), o qual é traduzido em proteínas. Segundo
Benjamin Lewin, em seu livro publicado em 2004, uma definição melhor para o dogma central seria
que o ácido nucléico pode ser perpetuado ou transferido, mas a transferência de informação para
proteína (a tradução) é irreversível. Exceção ao dogma são os vírus, os quais podem ter o RNA viral
transcrito em DNA (pela enzima transcriptase reversa). Além disso, vírus e algumas plantas
possuem RNA auto replicável.
A partir da transcrição do DNA, são obtidas diferentes classes de RNA: os não codificantes
(RNAs transportadores, ribossômicos e microRNAs) e as regiões codificantes (RNA mensageiro),
que apresentam a sequência que será traduzida em aminoácidos, orientando a composição das
proteínas. Cada trinca de nucleotídeos do RNA (códon) é traduzida como um aminoácido distinto
que irá compor as proteínas traduzidas. A combinação das diferentes trincas de bases nitrogenadas é
conhecida como código genético. O código genético contém toda a informação que rege a
sequência dos aminoácidos codificada pelo encadeamento de nucleotídeos. Visto que existem
quatro bases distintas formando trincas de nucleotídeos, seriam possíveis 43 combinações possíveis
de trincas, ou seja, 64 combinações podem ser obtidas. No entanto, existem 20 aminoácidos
distintos, portanto, trincas distintas de nucleotídeos podem codificar um mesmo aminoácido (Figura
7.4). Por essa razão, diz-se que o código genético é “redundante” (ou degenerado). Das 64
combinações possíveis, três (no RNA: UAA, o UGA e o UAG) indicam o fim de um gene. Estas
são conhecidas como códons finalizadores (ou sem sentido), pois designam o término da tradução
do mRNA neste ponto. Em contrapartida, o sinal de iniciação para a síntese proteica no RNA é o
códon AUG.
Por causa dessa redundância do código genético é possível que algumas das mutações
(alterações da sequência dos nucleotídeos do DNA) não provoquem mudanças no aminoácido
codificado e, consequentemente, na proteína a ser formada. Se a mudança resultar em outra trinca
que codifica o mesmo aminoácido, esta é conhecida como mutação silenciosa. O código genético é
RNA$ Proteína$DNA$
Replicação$ Transcrição$ Tradução$
Transcrição$
reversa$
Replicação$
Figura 7.3. Dogma Central da Biologia Molecular
!
!
87
praticamente “universal”, ou seja, virtualmente todos os organismos vivos usam os mesmos códigos
de DNA para especificar aminoácidos (exceções em algumas bactérias e também no DNA
mitocondrial). !
O gene é historicamente tratado como uma unidade hereditária formada por uma sequência
particular de bases no DNA que especifica a produção de determinado produto, em geral proteínas.
No entanto, avanços recentes no estudo do DNA e de sua função desafiam esse conceito, pois
mostram que existe uma diversidade estrutural muito maior no material genético do que se conhecia
como a existência de regiões reguladoras, pseudogenes, entre outros –, de modo que a definição
de gene se tornou mais complexa. Organismos diploides (2n) possuem dois cromossomos
homólogos, um herdado do pai e outro da mãe, portanto possuem duas cópias de cada gene. Cada
cópia ou variante é denominada alelo. Os alelos podem ser iguais, sendo então o indivíduo
homozigoto para aquele gene, ou podem ser diferentes um do outro, sendo então o indivíduo
heterozigoto. Já o genoma é o conteúdo de todo DNA (ou RNA, no caso dos retrovírus) presente em
uma célula, incluindo todos os genes e regiões intergênicas.
Mudanças no conteúdo do DNA são denominadas mutações. Os tipos de mudanças podem ser
Figura 7.4. Tabela de código genético.
!
!
!
88
de substituição de base, inserção ou deleção de bases e rearranjo ou troca na ordem de segmentos de
bases e ocorrem por falhas no sistema de reparo da duplicação e transcrição do DNA. Do ponto de
vista evolutivo, as mutações podem classificadas em três categorias: as positivas, que causam
alterações na proteína produzida que acarretam um aumento de valor adaptativo de seu portador; as
negativas, que podem levar a uma perda de função da proteína sintetizada, podendo até ser letal, ou
contribuir para a diminuição do valor adaptativo do indivíduo; e as neutras, que não causam
nenhuma diferença na sobrevivência do organismo.
Mas, e a Sistemática Molecular?
A Biologia Molecular tem revolucionado o campo da Sistemática. As espécies evoluem por
meio de mutações no genoma que são incorporadas e transmitidas ao longo das gerações nas
populações. Com o passar do tempo e o acúmulo de mutações, as sequências de DNA serão
divergentes, em maior ou menor grau, entre diferentes espécies. Apesar dessa divergência, essas
duas sequências de DNA serão homólogas por apresentarem uma origem ancestral comum, assim
como qualquer outro caráter morfológico (e.g., os membros anteriores de baleia e morcego). O
estabelecimento das homologias nesse caso é dado por meio do alinhamento das sequências de
DNA, e as mudanças nas sequências podem refletir as relações evolutivas entre elas. Por se tratar de
um passo importante na Sistemática Molecular, isso será explicado em maior detalhe mais adiante.
Cada posição do nucleotídeo representa o caráter, e o nucleotídeo em si (A, T, C ou G) representa o
estado de caráter. Dessa forma, diferenças entre as bases em uma mesma posição do DNA (em
posições homólogas) podem ser caracteres informativos que permitem gerar hipóteses de relações
de parentesco entre as espécies.
Os marcadores moleculares são qualquer segmento de DNA oriundo de genes codificantes ou
não codificantes, como fragmentos gênicos, isoenzimas, microssatélites ou marcadores
bioquímicos. Para a Sistemática Molecular, os marcadores moleculares utilizados são sequências de
DNA que apresentam variação entre os organismos estudados (e.g., 16S, COI, ITS, etc.). Estes
permitem que se estabeleçam as relações entre organismos diferentes e podem ser de dois tipos: 1)
de evolução rápida, i.e., com alta taxa de mutação; tais marcadores apresentam diferenças mesmo
entre indivíduos proximamente relacionados; 2) de evolução lenta, i.e., com baixa taxa de mutação;
nesse caso, organismos mais intimamente relacionados apresentarão pouca ou nenhuma diferença.
A seleção do marcador utilizado será de acordo com a pergunta do pesquisador. Para análises de
relações em níveis menos inclusivos (como espécies ou gêneros), recomenda-se a utilização de
marcadores de evolução rápida; porém para responder perguntas em níveis taxonômicos mais
elevados (por exemplo, famílias), marcadores de evolução lenta devem ser utilizados. Em geral, o
!
!
89
pesquisador que deseja obter as relações filogenéticas de um grupo em vários níveis taxonômicos
costuma utilizar vários marcadores moleculares com diferentes taxas de divergência em uma análise
conjunta.
Do indivíduo à sequência de DNA
Os protocolos utilizados na obtenção de uma sequência de DNA para estudos filogenéticos
podem variar de acordo com o grupo de estudo amostrado e as preferências do pesquisador, embora
todos eles sejam constituídos basicamente de três etapas: extração do material genético,
amplificação do marcador de interesse e sequenciamento do DNA. Neste capítulo abordaremos as
técnicas de trabalho que são mais usuais dentre os trabalhos de Sistemática Molecular em Zoologia
no Brasil. No entanto, deixamos claro que existem outras metodologias disponíveis. Antes de iniciar
qualquer procedimento, tenha em mente que em todo o processo deve-se ter bastante cuidado com
contaminação, usando sempre luvas e esterilizando todo o ambiente e material utilizado.
Extração de DNA
Antes de iniciar qualquer etapa de extração de material, é essencial que o tecido a ser utilizado
esteja em boas condições. Para isso, após a coleta do material, o material deve ser acondicionado
em álcool (de preferência, absoluto) e em baixa temperatura (freezer). Nesta etapa tem-se como
objetivo isolar o DNA contido nas amostras do indivíduo (tecido, sangue, fezes, etc.), e isso pode
ser realizado de diversas formas. No geral, os protocolos de extração de DNA têm uma etapa inicial
na qual as membranas celulares serão rompidas com o uso de uma solução detergente e tratadas
com uma proteinase para o rompimento de proteínas. Após essa etapa, os componentes celulares
(proteínas, organelas e restos celulares) são removidos e o DNA é precipitado com o auxílio de um
álcool (isopropanol). Esse DNA é então lavado em um etanol, e ficará aderido ao tubo após
centrifugação e remoção do sobrenadante (formando um pellet). Em seguida, o DNA é reidratado
em água ou em uma solução tampão, que será então quantificada e utilizada nas reações de
amplificação. É importante ressaltar que, independente do método utilizado, a etapa de extração é
bastante suscetível a contaminações e, portanto, deve-se tomar extremo cuidado durante todo o
procedimento.
Para determinar a concentração do DNA extraído, é necessário fazer a quantificação. Para
isto, diversas técnicas podem ser utilizadas, desde corridas em gel de agarose até o uso de
equipamentos de leitura por espectrofotometria (e.g., Nanodrop). Para este último, é importante
saber que o DNA possui leitura de absorbância em um comprimento de onda na faixa de 260nm.
!
!
90
Proteínas estão na faixa de 280nm (Figura 7.5). A razão 260/280nm mostra a pureza do material
extraído. Valores acima de 1,75 indicam um material de boa qualidade; valores abaixo de 1,75
indicam contaminação por lipídeos e/ou proteínas. Se o DNA estiver com uma concentração muito
alta, indica-se eluir o DNA, diminuindo assim a concentração para um valor entre 20 e 50ng/µl. A
concentração adequada varia de acordo com o grupo de estudo e com a técnica de sequenciamento
que será usada.
Reação de PCR
A reação de PCR (Reação em Cadeia da Polimerase; do inglês, Polymerase Chain Reaction)
envolve a síntese enzimática in vitro de milhões de cópias de um segmento específico de DNA na
presença da enzima DNA polimerase. Esse segmento específico é o marcador molecular definido
previamente e que será utilizado como fonte de caracteres. Para que esta região seja amplificada,
iniciadores (ou primers) são sintetizados artificialmente, de maneira que suas sequências de
nucleotídeos sejam complementares às sequências específicas que limitam a região alvo, e incluídos
na reação. Dois primers são utilizados na reação de PCR, um para cada fita, sendo que estes
delimitam a sequência de DNA de fita dupla alvo da amplificação. Nessa reação, também são
adicionados nucleotídeos (dNTPs), que serão incorporados na nova fita que está sendo sintetizada,
conforme a sequência de nucleotídeos da fita molde.
A PCR consiste em ciclos com as seguintes etapas: 1) Desnaturação: a fita dupla do DNA
alvo é desnaturada pela elevação da temperatura para uma faixa em torno de 95o C e, com isso, as
pontes de hidrogênio que ligam as bases nitrogenadas se rompem e a dupla fita é separada; 2)
Hibridização dos primers: a temperatura é rapidamente reduzida para entre 45 e 60o C (dependendo
do tamanho e sequência do primer utilizado; valores abaixo disso são, em geral, utilizados quando o
primer não é muito específico) permitindo a hibridização de cada primer com a sequência
Figura 7.5. Gráfico de quantificação de DNA utilizando Nanodrop.!
!
!
!
91
complementar que
flanqueia a região alvo;
3) Extensão: a
temperatura é elevada,
geralmente, para 72o C
para que a enzima DNA
polimerase realize a
extensão a partir de
cada terminal 3’ dos primers. Esta extensão envolve a adição de nucleotídeos utilizando como
molde a sequência alvo, de maneira que uma cópia dessa sequência é feita no processo (Figura 7.6).
Este ciclo é repetido algumas dezenas de vezes e a quantidade de DNA dobra a cada ciclo. No geral,
a verificação se a reação de amplificação foi bem sucedida é feita a partir da observação do produto
amplificado após corrida de eletroforese em um gel de agarose (Figura 7.7). Os fragmentos obtidos
devem apresentar um tamanho compatível com a região amplificada, que pode ser verificada com a
comparação com marcador de peso molecular que também deve ser adicionado na corrida de
eletroforese. !
Após a realização da PCR, haverá
uma etapa de purificação, ou seja,
limpeza e/ou inativação dos
resíduos da PCR. Uma das formas
de realizar isso é utilizando um
buffer otimizado para selecionar
amplificações com 100 pares de
base (pb) ou mais. Com esse
processo de lavagem, primers,
nucleotídeos, sais e enzimas em
excesso são removidos.
Reação de sequenciamento por método de Sanger
Com o DNA devidamente purificado, é necessário realizar outra reação de amplificação
(similar à PCR), na qual as duas fitas da região-alvo serão geradas separadamente. A solução de
reação nesta etapa é bastante semelhante à da PCR, mas o primer de apenas uma das fitas será
colocado na solução. Serão incluídos na solução, além de nucleotídeos normais, nucleotídeos
modificados e marcados com fluorescência, sendo que cada nucleotídeo modificado apresenta um
Figura 7.7. Gel de agarose com amostras resultantes de um PCR. “+”
indica que a sequência alvo desta amostra foi devidamente amplificada;
“-” indica que não houve amplificação na amostra; “CP” indica controle
positivo; “CN” indica controle negativo; “E” indica escala do marcador
de peso molecular (Ladder).!
Figura 7.6. Ciclo de reação de PCR. Adaptado de Alberts et al., 2002.!
!
!
92
comprimento de onda distinto. Esses nucleotídeos marcados impedem o seguimento da
polimerização do resto da fita, o que faz com que uma reação resulte em fragmentos/sequências de
diversos tamanhos. Na reação de sequenciamento também são realizados vários ciclos de
amplificação, mas diferentemente da PCR, o número de fitas produzidas aumenta de forma
aritmética (e não exponencial) a cada ciclo.
Terminada a reação, as amostras passam por um processo de precipitação e, podem ser
submetidas em seguida, ao sequenciamento propriamente dito. A leitura de marcadores
fluorescentes é o que permite a construção de um cromatograma (Figura 7.8), etapa na qual será
determinada a ordem dos nucleotídeos da amostra. Em um capilar, os fragmentos se posicionam de
acordo com o seu tamanho, cada um terminando em um nucleotídeo marcado. A leitura desse
nucleotídeo marcado em cada posição do capilar é que vai determinar a sequência dos nucleotídeos
no fragmento de DNA em questão.
Banco de sequências de DNA: GenBank
O Genbank (http://www.ncbi.nlm.nih.gov/genbank) é um banco de dados de sequências de
DNA online e aberto ao público. Até junho de 2017 haviam sido contabilizadas mais de 200
milhões de sequências de mais de 160 mil organismos distintos. É prática comum que as revistas
científicas exijam que as sequências de DNA a serem publicadas sejam disponibilizadas em bancos
de dados como o GenBank. O depósito de sequências neste banco de dados é livre, portanto, é
sempre interessante ter determinados critérios para utilizar as sequências depositadas. É importante
saber, por exemplo, em que trabalhos científicos as sequências foram publicadas, se existem
vouchers (material físico ao qual a sequência corresponde) depositados em coleções científicas,
além de checar por contaminações nas sequências antes de utilizá-las. Mesmo assim, o GenBank é
considerado a principal fonte de informações sobre sequências de DNA.
Cada sequência depositada recebe um código de acesso. As buscas podem ser feitas por este
código, cujo resultado será uma sequência específica, ou pelo nome do organismo, cujo resultado
será todas as sequências disponíveis para aquele determinado organismo. Os dados podem ser
baixados em diversos formatos, sendo FASTA o formato mais comumente usado (Figura 7.9).
Figura 7.8. Bases indicadas pelas diferentes cores do cromatograma.
!
!
93
O Genbank também apresenta uma ferramenta chamada BLAST (Basic Local Alignment
Search Tool), no qual uma sequência de DNA de interesse pode ser comparada com as sequências
existentes no banco de dados do Genbank. O usuário insere a sequência de DNA, ou apenas um
fragmento de sequência, e como resultado obtém as sequências depositadas com maior percentual
de similaridade. Esta ferramenta é útil para auxiliar nas identificações e verificar contaminações dos
seus dados, de dados de terceiros e também dos depositados no Genbank.
Da sequência de DNA à proposição da hipótese de filogenia
Após gerar as sequências de nucleotídeos de seus organismos de interesse ou obtê-las em
bancos de dados, o objetivo é propor uma hipótese filogenética para o grupo. O primeiro passo é
juntar toda a informação em uma única matriz de dados. No entanto, nesta matriz é necessário que
sejam definidas as homologias e que os dados estejam devidamente organizados.
Montando a matriz de dados
1. Alinhamento das sequências: alinhamento estático vs. homologia dinâmica
Neste passo, duas abordagens distintas podem ser escolhidas: o alinhamento estático ou o
dinâmico. Como comentado anteriormente, a determinação de homologias é um passo que requer
muita atenção em Sistemática Molecular, e isso se deve ao fato de estas raramente serem óbvias
quando os caracteres são bases nitrogenadas. No entanto, esta dificuldade também pode ser
encontrada ao se trabalhar com dados morfológicos, comportamentais, ontogenéticos, etc. e, por
isso, não torna os dados moleculares menos confiáveis que os demais. Além disso, é importante
lembrar que homologia é uma hipótese, e dizer que duas estruturas ou nucleotídeos são iguais ou
semelhantes devido a uma origem filogenética comum é uma relação qualitativa e não quantitativa.
Ou seja, é errado dizer que “duas sequências de nucleotídeos apresentam X% de homologia”. As
Figura 7.9. Sequência de um organismo em Formato FASTA.
!
!
94
sequências apresentam X% de similaridade, mas cada posição representa uma hipótese de
homologia.
Quando duas sequências de regiões homólogas estão devidamente alinhadas, é possível
observar a ocorrência de alguns eventos evolutivos, como a aquisição (inserção) ou a perda
(deleção) de um nucleotídeo na sequência, assim como transições e transversões entre os
nucleotídeos de organismos distintos. Entretanto, pelo alinhamento apenas não é possível saber se
uma sequência ganhou o nucleotídeo ou se a outra sequência o perdeu (Figura 7.10). Devido a essa
incerteza, tais eventos são tratados como “indels” (i.e., naquela posição ocorreu um evento de
inserção ou de deleção). Indels normalmente são representados na matriz com um traço, que
chamamos de gap. O gap pode ser ou não considerado um quinto estado de caráter em análises
filogenéticas, dependendo da opção do pesquisador. Vale ressaltar que a presença de indels é uma
hipótese gerada apenas no alinhamento, ou seja, uma sequência apresentará um indel quando
comparada com outras sequências. Após a construção da hipótese filogenética, pela otimização de
caracteres é possível saber se o evento foi de perda ou ganho de nucleotídeos.
No contexto da Parcimônia, assim como para caracteres morfológicos, um caráter pode ser
filogeneticamente informativo quando a alteração (ganho ou perda de nucleotídeos) é compartilhada
por dois ou mais táxons. Em contrapartida, chamamos de caráter não-informativo aquele caráter no
qual todos os nucleotídeos se mantêm constantes entre os táxons analisados, ou quando há alteração
em um único táxon. Um caráter pode ser informativo ou não-informativo dependendo do nível mais
ou menos abrangente da análise. Em análises usando critérios de otimalidade probabilísticos pode-
se assinalar probabilidades para sítios que não variam, de forma que esses também sejam
informativos para a análise.
O alinhamento das sequências pode ser realizado usando-se diferentes estratégias, desde
alinhamento “manual” (possível apenas quando as sequências são poucas, curtas e bastante
similares) até a utilização de algoritmos baseados em modelos heurísticos. Como geralmente
trabalha-se com um grande número de espécies (ou espécimes) e sequências com mais de 200 pb,
indica-se a utilização de algoritmos, o que torna o processo replicável e menos subjetivo. No caso
do alinhamento estático, todos os algoritmos inserem gaps de forma que as sequências sejam
alinhadas procurando-se o máximo de similaridade e menor custo (ou seja, menor número de
Figura 7.10. Comparando duas sequências homólogas. Eventos de inserção ou deleção (indel) em azul e substituições
em verde.
!
!
!
95
transformações) (Figura 7.11). Alguns dos programas mais conhecidos e utilizados atualmente são
Muscle e Mafft. Cada algoritmo pode ter ainda parâmetros variados (como pesos diferentes para o
aparecimento de gaps), o que faz com que seja possível a geração de diferentes alinhamentos a
partir de um único conjunto de dados.
Existem trabalhos que comparam diferentes algoritmos de alinhamento estático com base em
simulações e/ou em quanto cada algoritmo cumpre melhor determinado critério de otimalidade para
encontrar alinhamentos. De modo geral, ressalta-se que é importante ter em conta que cada
algoritmo realiza a otimização usando estratégias diferentes e que, mesmo dentro de um mesmo
algoritmo, não existe um critério único para escolher quais parâmetros de alinhamento (algoritmos e
custos) são mais adequados. Conhecer como os algoritmos trabalham e os critérios utilizados por
eles é, portanto, fundamental para escolha do método. Mesmo assim, é importante ter em conta que
podem existir muitos alinhamentos com um mesmo custo para um mesmo conjunto de dados
(matriz). Essa questão é raramente explorada, mas sabe-se que o número de alinhamentos possíveis
cresce exponencialmente; por exemplo, para uma matriz de dez táxons e cinco nucleotídeos,
existem 1.35 X 1038 alinhamentos possíveis! Ou seja, independentemente dos critérios escolhidos, o
alinhamento das sequências pode ter efeitos tão importantes na análise filogenética quanto a busca
de árvores, e, por isso, ambos os passos devem ser feitos criteriosamente.
Uma metodologia alternativa de análise de sequências é a Otimização Direta. Este é um
procedimento analítico, implementado, por exemplo, no programa POY, no qual a identidade
histórica entre nucleotídeos (homologia) não se dá mediante uma hipótese primária (alinhamento),
mas sim mediante um critério de otimalidade. Em outras palavras, a busca de homologias é feita de
forma a minimizar o custo da árvore, então o alinhamento ocorre simultaneamente à busca de
árvores. O POY pode fornecer a posteriori o alinhamento implicado que gerou a topologia
escolhida, mas sua função não é a de gerar alinhamentos. A junção desses dois passos necessários à
construção da hipótese filogenética (alinhamento e busca de árvores) faz com que a análise seja
Figura 7.11. (A) Sequências hipotéticas de seis organismos. (B) Alinhamento múltiplo das seis sequências
hipotéticas utilizando o algoritmo/programa MAFFT 7.222 implementado no programa Geneious 9.1.2.
!
!
!
96
bastante complexa, mas costuma gerar topologias com um número menor de passos (ou
transformações) quando comparado aos demais tipos de busca. Este método é denominado
Homologia Dinâmica e se opõe à Homologia Estática, i.e., métodos que utilizam um alinhamento
prévio.
Existem algumas críticas a esse método, principalmente com relação aos alinhamentos
implicados gerados para regiões codificantes, que são muito discrepantes dos alinhamentos
checados após inspeção da tradução do trecho de DNA estudado. Uma particularidade dos genes
codificantes é que a ordem dos nucleotídeos em seus códons é vital para a formação da estrutura
secundária da proteína e, por consequência, de sua função. Esse fato leva muitos autores a
utilizarem os aminoácidos a serem codificados por cada trinca de nucleotídeos como uma base para
alinhar as sequências ou como uma forma de conferir se os alinhamentos gerados estão “corretos”.
De acordo com esses autores, disparidades na ordem esperada acarretariam proteínas não funcionais
e, portanto, seriam um indicativo de algum tipo de erro no sequenciamento ou no alinhamento em
si.
! Apesar de ser um procedimento comumente realizado em trabalhos científicos e
amplamente defendido por vários autores, essa forma de alinhar sequências de DNA para gerar
hipóteses filogenéticas apresenta alguns problemas. O principal deles é que esse procedimento
confunde similaridade estrutural e funcional com identidade histórica. Em Sistemática, buscamos
compreender as relações evolutivas entre os indivíduos, e não relações funcionais (como
convergências ou paralelismos). Ou seja, dois códons podem ser exatamente iguais, codificar o
mesmo aminoácido e gerar a mesma proteína com o mesmo papel no organismo, mas por eventos
independentes.
Considere a Figura 7.12. Utilizaremos somente uma letra na explicação para fins didáticos,
mas esta ideia se aplica para sequências inteiras. Suponha que G seja o primeiro nucleotídeo que
codificará o aminoácido ácido glutâmico; percebemos que ele está ausente em duas linhagens, os
táxons 3 e 4. Um alinhamento convencional, baseado em similaridade, geraria uma única coluna na
qual G é considerado homólogo entre todos os seis táxons. A conclusão seria, portanto, que houve
um evento de deleção nas linhagens 3 e 4 (Figura 7.12 A).
Agora, considere que buscamos o alinhamento de forma simultânea à busca de árvores
usando a homologia dinâmica. Sob essa perspectiva, a identidade histórica dos nucleotídeos é mais
importante do que a similaridade da proteína. Quando observamos o alinhamento implicado pela
topologia (Figura 7.12 B), ou seja, o cenário ótimo que minimiza o número de transformações
necessárias para explicar a topologia, percebemos que, na realidade, a presença dos Gs nas
linhagens 1/2 e 5/6 não se deve a ancestralidade em comum (i.e., não são homólogos), mas sim são
fruto de convergência evolutiva nesses organismos. Em outras palavras, os táxons 1 e 2 tinham um
!
!
97
nucleotídeo G, que foi perdido nas linhagens 3 e 4; posteriormente, e de forma independente, ele
evoluiu novamente em 5 e 6. Note que em ambos os cenários o custo da árvore é o mesmo (dois
passos), mas a explicação fornecida é completamente diferente.
Ressaltamos também que, como comentado anteriormente, o gap não é uma estrutura real,
mas apenas uma notação que usamos para marcar que um evento ocorreu naquele ponto. Logo, a
sua presença não quebra a sequência de leitura de um gene codificante, já que a espécie que
apresenta esse gene certamente está produzindo a proteína, mesmo com modificações em sua
sequência. Por outro lado, a busca por códons de parada no meio de sequências codificantes é uma
boa estratégia para identificar se está trabalhando com genes homólogos ou com cópias degeneradas
de um gene.
2. Congruência Taxonômica ou Evidência Total?
duas formas de se combinar conjuntos de dados de origens diferentes (caracteres com
propriedades biológicas ou evolutivas diferentes, por exemplo, dados morfológicos, molecular e
comportamentais) denominadas Congruência Taxonômica e Evidência Total. Estes são paradigmas
distintos em inferência filogenética, já que o primeiro busca um consenso entre os resultados
obtidos por meio de análises de conjuntos de dados separados, enquanto evidência total busca uma
hipótese que explique em uma única análise o conjunto completo de dados.
Autores a favor da utilização da Congruência Taxonômica argumentam que relações
coincidentes apontadas em árvores geradas a partir de diferentes tipos de dados representam as
verdadeiras relações filogenéticas de um táxon, e, por isso, uma árvore de consenso já seria
suficiente para mostrar as relações relevantes. os pesquisadores que utilizam a Evidência Total
Figura 7.12. Exemplo demonstrando como o alinhamento por similaridade (A) e por identidade histórica (B)
produzem resultados diferentes para o mesmo conjunto de dados. No alinhamento estático, todos os nucleotídeos G
são considerados homólogos, ao passo que na hipótese baseada na homologia dinâmica percebemos que o
nucleotídeo G presente nos táxons 1 e 2 foi perdido em 3 e 4 e evoluiu novamente, de forma independente, em 5 e 6.!
!
!
98
argumentam que é mais interessante reunir toda a informação existente sobre o táxon em questão,
pois a análise simultânea de todos os dados maximizaria o poder explicativo da análise e seria a
metodologia que melhor alcançaria o objetivo da análise filogenética, que é contabilizar toda a
evidência disponível.!
3. Concatenar os marcadores moleculares ou analisá-los separadamente?
Outra opção na montagem da matriz é que os marcadores moleculares podem ser analisados
independentemente ou concatenados em uma única matriz. A justificativa usada para analisar
diferentes genes/marcadores separadamente é que cada um pode apresentar um sinal filogenético
diferente, ou seja, contar uma história evolutiva distinta (pode estar contando somente a história do
gene, e não do táxon). Por isso, alguns pesquisadores escolhem gerar análises independentes para
cada marcador e, ao se certificar que os resultados são minimamente congruentes, optam por um
dos caminhos: seguem para a análise de marcadores concatenados ou preferem fazer o consenso das
árvores resultantes de cada análise. !
No entanto, seguindo a ideia de evidência total, como explicado anteriormente, outros
pesquisadores acreditam que não há motivos para se escolher uma fonte de dados em detrimento de
outras, tendo em vista que toda variação serve como evidência para construção de hipóteses
filogenéticas. No caso de resultados conflitantes, não razão para se preferir o resultado de um
marcador em relação a outro, assim como em relação a outras fontes de dados como morfológicos e
moleculares. Tendo em vista que a história evolutiva de um grupo é única e que estamos
interessados no que todas as fontes de dados têm a oferecer como evidência, muitos pesquisadores
preferem trabalhar com todas as matrizes concatenadas, ou seja, agrupadas em uma só matriz para
ser analisada. Alguns programas podem ser utilizados para concatenar os alinhamentos de distintos
genes como Sequence Matrix, Geneious, Bioedit e Winclada.
Construção de árvores com dados moleculares
Uma vez que a matriz de dados está pronta, ela deve ser exportada no formato adequado ao
programa no qual será analisada. O programa a ser escolhido depende do critério de otimalidade,
sendo as opções mais comuns a Parcimônia (e.g., TNT, PAUP, POY), a Inferência Bayesiana (e.g.,
MrBayes, BEAST) e a Máxima Verossimilhança (e.g., GARLI, RAxML). Os dois últimos são
denominados critérios probabilísticos de otimalidade (Capítulo 6). Assim como comentado sobre o
algoritmo do alinhamento, o critério de otimalidade utilizado é de escolha do autor, e, em muitos
trabalhos, opta-se por apresentar árvores resultantes de análises feitas com mais de um critério. No
!
!
99
entanto, é importante ressaltar que não é possível comparar árvores obtidas a partir de critérios de
otimalidade distintos, pois os pressupostos analíticos não são equiparáveis.
Em uma análise de Parcimônia diversos fatores devem ser considerados, como a penalidade
das substituições, pesagem de caracteres e tratamento de gaps. Há a opção de tratar todas as
modificações entre nucleotídeos (i.e., transições e transversões) com o mesmo peso ou com pesos
diferentes. A escolha de alterar os pesos pode vir diretamente da observação dos dados; por
exemplo, ao se notar que uma modificação é mais comum que outra, pode-se optar por dar mais
peso a esta e torná-la mais informativa. Entretanto, deixar que todas as modificações tenham o
mesmo peso insere menos pressupostos na análise e permite que diferentes cenários sejam
considerados, o que aumenta o poder explicativo da análise. Em relação ao tratamento de gaps,
estes podem ser considerados informativos, sendo um quinto estado de caráter (A, C, T, G, gap), ou
não informativos (não contribuem como evidência para a construção da hipótese filogenética).
Quando se trabalha com critérios probabilísticos de otimalidade (Máxima Verossimilhança e
Inferência Bayesiana) deve-se escolher primeiramente um modelo de evolução para os dados
moleculares. Os modelos levam em consideração a taxa de substituição entre bases e suas
frequências, e estes valores são estimados a partir do próprio conjunto de dados, em programas
como JModeltest e PartitionFinder. Os modelos devem ser estimados para cada marcador, que
cada um pode ter evoluído de forma independente e não necessariamente seguindo o mesmo
modelo. Também é comum, no caso de genes codificantes, estimar os modelos de acordo com as
posições dos nucleotídeos nas trincas de bases, que as bases que constituem os códons podem
sofrer pressões seletivas distintas. O programa PartitionFinder, além de estimar os modelos,
também estima o melhor esquema de partição para os dados, ou seja, pode dividir seu marcador em
regiões distintas, com modelos de evolução diferentes. Os programas que implementam critérios
probabilísticos de otimalidade não costumam ter disponível a opção de se considerar o gap como
um quinto estado de caráter, o que se deve ao alto custo computacional, embora recentemente
versões mais recentes e novos programas estejam disponibilizando essa opção.
No programa POY, no qual está implementada a Otimização Direta (Homologia Dinâmica),
as sequências não necessitam ser alinhadas previamente à análise. Porém, decisões sobre critério de
otimalidade, pesagem de caracteres, substituições e uso de gaps também necessitam ser tomadas. E,
por fim, vale a pena notar que, assim como para outros conjuntos de dados, hipóteses baseadas em
sequencias de nucleotídeos também podem receber valores de suporte, como Bootstrap Jackknife
ou Goodman-Bremer (Capítulo 6).
!
!
100
Sequenciamento de nova geração
Tecnologias de sequenciamento de nova geração (ou NGS, do inglês Next Generation
Sequencing) são um grupo de técnicas que fazem o sequenciamento de DNA em plataformas
capazes de gerar informação sobre milhões de pares de bases (dos nucleotídeos) em uma única
reação. Essas tecnologias começaram a ser desenvolvidas em meados dos anos 2000 e estão
evoluindo constantemente. As plataformas de sequenciamento mais amplamente utilizadas no
momento são a plataforma 454 FLX da Roche, a Solexa da Illumina, a SOLiD System da Applied
Biosystems e o HeliscopeTrue Single Molecule Sequencing (tSMS) da Helicos.
De forma geral, estas tecnologias trabalham sobre o DNA total altamente fragmentado em
pequenas porções, que são amplificadas e sequenciadas em suportes onde muitas reações de
sequenciamento acontecem paralelamente. Com isso, gera-se uma quantidade de informação muitas
vezes maior que o sequenciamento de Sanger, com uma grande economia de tempo e de custo por
par de base. Por outro lado, o custo computacional para juntar essas pequenas porções do DNA em
moléculas maiores, que podem ser até um genoma completo, ainda é desafiador e depende de
muitos recursos e conhecimentos em bioinformática.
As tecnologias de nova geração são de grande importância quando o objetivo do trabalho é
estudar porções grandes do genoma, genomas completos ou transcriptomas (RNA). Com estas
técnicas pode-se responder uma enorme gama de perguntas de diversas áreas, desde a Sistemática
Filogenética até diferenças de expressão gênica entre células do corpo, dando impulso a estudos
sobre câncer, por exemplo.
Considerações finais
Depois de tomadas todas as decisões necessárias para se reconstruir uma filogenia com
dados moleculares, seus resultados devem ser cuidadosamente interpretados. Os programas
utilizados em todas as tarefas descritas costumam ser atualizados periodicamente e é interessante
sempre compreender como cada um deles opera e quais são seus parâmetros default, ou seja, como
o programa vai analisar sua matriz se nenhum dos parâmetros do programa for alterado. É
importante que o pesquisador esteja bastante consciente de quais escolhas tomou ao longo de todo
esse processo. E não esqueça, sua filogenia é uma hipótese baseada na matriz fornecida e nos
critérios escolhidos durante todo o processo!
!
!
101
AGRADECIMENTOS
As autoras agradecem a MSc. Jhon J. Sarria, MSc. Juliana Jordão, Biol. Manuel Antunes
Junior, MSc. Pedro H. dos Santos Dias, Dr. Maximiliano Maronna, Dra. Sabrina Baroni e Profa.
Dra. Renata Cecília Amaro pelas revisões e contribuições ao capítulo.
BIBLIOGRAFIA
Alberts, B., A. Johnson, J. Lewis, M. Raff, K. Roberts & P. Walter. 2002. Molecular Biology of the
Cell. 4th edition. New York. Garland Science. 509p.
Crick, F. 1970. Central Dogma of Molecular Biology. Nature, 227: 561–563.
DeSalle, R., G. Giribet & W. Wheeler, W. (Eds.) 2002. Techniques in Molecular Systematics and
Evolution. Birkhauser. Chicago. 410p.
Edgar, R. C. 2004. MUSCLE: multiple sequence alignment with high accuracy and high
throughput. Nucleic Acids Research, 32: 1792–1797.
Hennig, W. 1966. Phylogenetic systematics. University of Illinois Press, Urbana. 280p.
Goloboff, P. A., J. S. Farris. & K. C. Nixon. 2008. TNT, a free program for phylogenetic analysis.
Cladistics, 24: 774–786.
Guidon, S., J. F. Dufayard, V. Lefort, M. Anisimova, W. Hordijk & O. Gascuel. 2010. New
algorithms and methods to estimate maximum-likelihood phylogenies: assessing the
performance of PhyML 3.0. Systematic Biology, 59: 307–321.
Hillis, D. M., C. Moritz. & B. K. Mable. 1996. Molecular systematics. Sinauer Associates,
Sunderland, Mass, 655p.
Katoh, K. & D. M. Standley. 2013. MAFFT multiple sequence alignment software version 7:
improvements in performance and usability. Molecular Biology and Evolution, 30: 772-780.
Kluge, A. G. 2001. Parsimony with and without scientific justification. Cladistics 17: 199–210.
Kluge, A. G. 2004. On total evidence: for the record. Cladistics, 20: 205–207.
Lewin, B. 2004. GENES VIII Pearson/Prentice Hall. 1056p.
Matioli, S. R. & F. M. C. Fernandes (Eds.) 2012. Biologia Molecular e Evolução. 2ª edição.
Sociedade Brasileira de Genética e Holos, Ribeirão Preto, SP, 257p.
Padial, J. M., T. Grant & D. R. Frost. 2014. Molecular systematics of terraranas (Anura:
Brachycephaloidea) with the assessment of the effects of alignment and optimality criteria.
Zootaxa, 3825(1): 1–132.
Ronquist, F. & J. P. Huelsenbeck. 2003. MrBayes 3: Bayesian phylogenetic inference under mixed
models. Bioinformatics, 19: 1572–1574.
!
!
102
Wheeler, W. C. 1995. Sequence Alignment Parameter Sensitivity and Molecular Data. Systematic
Biology, 44: 321–331.
Wheeler, W. C. 1996. Optimization alignment: the end of multiples sequence alignment in
phylogenetics? Cladistics, 12: 1–9.
Wheeler, W. C. 2003. Implied alignment: a synapomorphy-based multiple-sequence alignment
method and its use in cladogram search. Cladistics, 19: 261–268.
!
ResearchGate has not been able to resolve any citations for this publication.
Book
Full-text available
The amount of information that can be obtained by using molecular techniques in evolution, systematics and ecology has increased exponentially over the last ten years. The need for more rapid and efficient methods of data acquisition and analysis is growing accordingly. This manual presents some of the most important techniques for data acquisition developed over the last years. The choice and justification of data analysis techniques is also an important and critical aspect of modern phylogenetic and evolutionary analysis and so a considerable part of this volume addresses this important subject. The book is mainly written for students and researchers from evolutionary biology in search for methods to acquire data, but also from molecular biology who might be looking for information on how data are analyzed in an evolutionary context. To aid the user, information on web-located sites is included wherever possible. Approaches that will push the amount of information which systematics will gather in the
Article
Full-text available
We report a major update of the MAFFT multiple sequence alignment program. This version has several new features, including options for adding unaligned sequences into an existing alignment, adjustment of direction in nucleotide alignment, constrained alignment and parallel processing, which were implemented after the previous major update. This report shows actual examples to explain how these features work, alone and in combination. Some examples incorrectly aligned by MAFFT are also shown to clarify its limitations. We discuss how to avoid misalignments, and our ongoing efforts to overcome such limitations.
Article
Full-text available
Abstract— A method is described to assess directly the number of DNA sequence transformations, evolutionary events, required by a phylogenetic topology without the use of multiple sequence alignment. This is accomplished through a generalization of existing character optimization procedures to include insertion and deletion events (indels) in addition to base substitutions. The crux of the model is the treatment of indels as processes as opposed to the patterns implied by multiple sequence alignment. The results of this procedure are directly compatible with parsimony-based tree lengths. In addition to the simplicity of the method, it appears to generate more efficient (simpler) explanations of sequence variation than does multiple alignment.
Article
Full-text available
The dependence of the results of molecular phylogenetic sequence analysis (both alignment and cladogram construction) on variation in analytical parameters is examined. Phylogenetic analyses of molecular sequence data are necessarily based on intrinsically immeasurable parameters such as transition–transversion and alignment gap cost ratios (among others). Procedures for robust and liberal hypothesis choice are proposed using congruence as an optimality criterion. To illustrate and explain this process further, data on arthropod relationships are used. The effects of variation in transversion–transition and gap–change ratio parameters on alignment and phylogeny reconstruction are assessed in light of both taxonomic and character-based congruence measures.
Article
Padial et al. (2014) applied the name Pristimantinae Ohler & Dubois, 2012 to a taxon including the genera Ceuthomantis, Dischidodactylus, Pristimantis, and Yunganastes. However, Ceuthomantidae Heinicke, Duellman, Trueb, Means, MacCulloch & Hedges, 2009, type genus Ceuthomantis Heinicke, Duellman, Trueb, Means, MacCulloch & Hedges, 2009, has priority over Pristimantinae Ohler & Dubois, 2012, a fact that we overlooked and correct herein. Ceuthomantinae is thus the correct subfamily name for the taxon including Ceuthomantis, Dischidodactylus, Pristimantis, and Yunganastes, and Pristimantinae Ohler & Dubois, 2012 is its junior synonym. We provide an amended Figure 22 (page 50) reflecting the current classification of Brachycephaloidea as now listed in Frost (2014) and provide the pertinent correction to page 125 of Appendix 2, which should read as follows:
Article
Brower's (2000, Cladistics 16, 143–154) pursuit of a nonevolutionary cladistics, like those of others (e.g., Scotland, 2000, Syst. Biol. 49, 480–500), fails for lack of a scientific justification. His operational explication of parsimony does not necessarily rule out the use of other criteria on which to base the identification of a hierarchical branching pattern, nor does he give a compelling reason for why just that one kind of pattern is sought. In the absence of evolutionary theory, such as the descent of species, and the modification of character states, one from another, there is no scientific reason to seek congruence among character hierarchies whose origins, functions, and fates are not necessarily the same. Brower's operational parsimony is no substitute for phylogenetic parsimony, where requirements for ad hoc hypotheses of homoplasy are justifiably minimized, assuming only “descent, with modification.” In addition to maximizing explanatory power, that most parsimonious cladogram is the least disconfirmed, most highly corroborated, hypothesis.
Article
The main features of the phylogeny program TNT are discussed. Windows versions have a menu interface, while Macintosh and Linux versions are command-driven. The program can analyze data sets with discrete (additive, non-additive, step-matrix) as well as continuous characters (evaluated with Farris optimization). Effective analysis of large data sets can be carried out in reasonable times, and a number of methods to help identifying wildcard taxa in the case of ambiguous data sets are implemented. A variety of methods for diagnosing trees and exploring character evolution is available in TNT, and publication-quality tree-diagrams can be saved as metafiles. Through the use of a number of native commands and a simple but powerful scripting language, TNT allows the user an enormous flexibility in phylogenetic analyses or simulations. © The Willi Hennig Society 2008.