Leonardo Martins

11 posts · 12,288 views

I am a computational biologist working as a Research Associate at Imperial College London. I did my Ph.D. at the Universty of Tokyo with Hirohisa Kishino, and I have an M.Sc. in Biotechnology and a B.Sc. in Molecular Sciences completed at the University of Sao Paulo, Brasil. I also worked in Spain for five years as a postdoc in the Phylogenomics Lab of David Posada.

8 posts

Sort by Latest Post, Most Popular

View by Condensed, Full

  • October 10, 2014
  • 11:54 AM

A "parsimonious" Bayesian supertree model for estimating species trees

by Leonardo Martins in bioMCMC

When we have sequence alignments regarding several genes from a group of taxa, we usually want to extract the phylogenetic information common to all of them. However, in many cases such phylogenomic analyses depend on selecting one sequence from each species per gene family (=alignment), or excluding paralogs, or partitioning these paralogous sequences into loci, or utilizing only gene families without apparent paralogs. If we want to analyse all our data at once, without excluding sequences or whole alignments, we are left with few options.We just published such an alternative, which is based on the idea that we can measure the disagreement between the phylogenetic trees representing each gene and a putative tree representing the species. Therefore, by using disagreement measures that allow for arbitrary mappings between the trees, we can handle gene trees with paralogs, multiple individuals from the same population or missing data. These measures we call "distances" [1], and we developed a probability distribution describing how these distances can work as penalties against very dissimilar gene and species tree pairs. We can use any combination of the reconciliation distances, the recently developed mulRF distance, and (very experimentally) an approximate SPR distance to include into our multivariate penalty distribution. We are also experimenting with other distances, as we implement them. This penalty distribution is then incorporated into a hierarchical Bayesian model, which I call "parsimonious" since it doesn't use a fully probabilistic model to describe the coalescent processes, or the birth and death of new loci. It assumes instead that only the most parsimonious reconciliations are relevant to the model. (I was advised, however, that calling it a "parsimonious Bayesian model" could be confusing...)The distance supertree model is based on several distance measures d(G,S) between each gene family tree G and the species tree S. A species trees that is more similar to all gene trees is more likely than a more distant one. Notice that d(G,S) can in fact be a vector with several distances.We implemented this model into the software guenomu, which is available under a GPL license at http://bitbucket.org/leomrtns/guenomu. The input to the software is a set of files with the distribution of gene trees as estimated for each gene family, independently, and the output will be the posterior distribution of these gene family trees together with the distribution of species trees.  We tested our model on many data sets simulated with the SimPhy software -- which is able to simulate the evolution of gene families with duplications, losses, and the multispecies coalescent fully probabilistically -- followed by a quick-and-dirty emulation of a Bayesian phylogenetic inference [2].The difference between the input and output (posterior) distribution of trees for each gene family is that the input trees were estimated independently -- let's say, by running MrBayes for each alignment representing a gene family -- while the posterior takes into account the other gene families through their common species tree. Therefore the posterior distribution is a re-sampled version of the input, and as we see in the figure below it improves the gene tree estimation.Input and posterior distributions if gene trees across many simulations (average values over gene families, per simulated data set). The simulations were pooled by species tree size, where we can see that guenomu can reduce the uncertainty of the gene trees. The accuracy is the fraction of splits (=branches) successfully reconstructed. Figure adapted from doi:10.1093/sysbio/syu082Our model was successful in reconstructing the species tree even for high levels of incomplete lineage sorting (short species tree branches, in coalescent units) coupled with duplications and losses. It also fared a bit better than iGTP, and much better than our implementation of distance matrix-based species tree inference methods [3]. Notice that only software that accepts gene trees with several tips from the same species can be compared. We were gladly surprised to see that iGTP under the duplication-loss cost also performed well, provided we use the gene tree frequencies as weights.Violin plots showing the distribution of accuracies in species tree estimation, over all simulations. The two red distributions are for the consensus and MAP tree estimates using guenomu, while the brown and blue plots are for other reconstruction methods. The dendrogram at the top classifies the methods by accuracy. Figure adapted from doi:10.1093/sysbio/syu082Notes:[1] They are not proper metrics since they are not symmetric, for instance.[2] Since our simulated gene families have hundreds of tips, simulating the alignments and then sampling the gene tree distributions with MrBayes or friends would take too long (we did this for smaller data sets only). We therefore created a program (available with guenomu) that would copy many times each tree, replacing randomly short branches by one of its alternative bipartitions.[3] We must take into account that these matrix-based methods (like GLASS, SD, etc.) assume that all disagreement is due to the coalescent, which is not true under our simulations. Furthermore our implementation may not be as good as some established software. Therefore our results are not evidence against these methods. (I particularly love their idea of being able to work with the distance matrices.)Reference:de Oliveira Martins L., Mallo D. & Posada D. (2014). A Bayesian Supertree Model for Genome-Wide Species Tree Reconstruction, Systematic Biology, DOI: http://dx.doi.org/10.1093/sysbio/syu082(The supplementary material is not available yet at DataDryad, as of today Oct 10, 2014. I assume it will go online soon, but if you want it please drop me a line)... Read more »

  • February 7, 2013
  • 06:07 PM

The difference between the RF and the NNI distance

by Leonardo Martins in bioMCMC

Just to complement my answer to a blog post, where I maintain that the Nearest-Neighbor Interchange (NNI) distance is not equivalent to the Robinson-Foulds (RF) distance, a simple example:Where we can see that trees T1 and T2 differ only in the location of nodes A and B -- on these trees, we can naturally think of the nodes A, B, 1,..., 6 as representing leaves, but they might also be large subtrees.The RF distance is the number of edges (=branches) that are unique to each tree (that's why it's also called the symmetric difference), and it may be normalized to one. If we highlight the unique edges on trees T1 and T2We see that the (unnormalized) RF distance is 10. For dichotomic trees, the number of unique edges is the same on both trees.The NNI distance is the minimum number of NNIs that must be applied to one tree such that it becomes equal to the other. One NNI branch swap will change exactly one edge, thus is very tempting to assume that the NNI distance can be found by looking at the distinct edges.But the problem is when the same branch is involved in more than one path of the "NNI walk". The RF distance (divided by two, for fully resolved trees) is then a lower bound on the minimum number of NNIs. In our example:The NNI distance between T1 and T2 is 6, one more than the RF distance since the edge splitting (1,2,3) and (4,5,6) is used twice in the NNI computation. The problem, as explained by Liam, is that simulating trees with a specified distance is hard, and the solution of using very large trees masks the cases where the distances disagree...Reference:Bryant D. (2004). The Splits in the Neighborhood of a Tree, Annals of Combinatorics, 8 (1) 1-11. DOI: 10.1007/s00026-004-0200-z (Crossposted from Bioinformatics News and Reviews, my personal blog)... Read more »

Bryant David. (2004) The Splits in the Neighborhood of a Tree. Annals of Combinatorics, 8(1), 1-11. DOI: 10.1007/s00026-004-0200-z  

  • May 15, 2012
  • 03:29 PM

Testing for common ancestry

by Leonardo Martins in bioMCMC

Our commentary on Douglas Theobald's test from Universal Common Ancestry (UCA) just went online. The original idea was to make a user-friendly review of his analysis described in "A formal test of the theory of universal common ancestry", but after a long e-mail exchange between Douglas and us -- actually between him and David, I didn't say much -- we decided to expand the article to include some remaining points of skepticism and spell out the basic problem with his approach.His work His test for UCA compares the hypothesis of one single ancestral lineage diverging into all living forms, against scenarios where more than one ancestral populations are needed to explain the current diversity of life. That is, he tries to quantify the possibility that there were two or more ancient life forms still represented today in the major domains, in comparison with the most natural possibility that only one ancestral life form prevailed (with other life forms eventually going extinct, for instance).These scenarios can be nicely represented by phylogenies: under the UCA hypothesis all existing species can be connected by a single phylogeny (connected network or tree), while under the hypothesis of Independent Origins (IO) the species can be partitioned into disconnected groups (without a branch joining them). And then, once we have the best phylogenies under each hypothesis, we can use the arsenal of model selection methods available to chose between the hypotheses.Using a curated set of genes highly conserved among all three domains, his test indicated that UCA is a much better explanation than IO, and that each gene is better represented by its own phylogeny than by forcing all genes to follow the same tree -- that is, horizontal gene transfer (HGT) cannot be neglected.Our comments Imagine that I developed a method capable of predicting a candidate's academic success based on a questionnaire. But it works only for PhDs on their mid-twenties who have at least a few high-impact single-author publications. And notice: I'm not assuming at all that such a young genius has a secured place in a university. I guess this half-baked analogy summarizes our contention with Douglas' paper. What called our attention is the fact that the phylogenetic inference methods assume homology at each site, so it is not surprising that it favors UCA for sufficiently good alignments -- your mileage may vary on the definition of "good". These methods are delegating to the alignment the responsibility of handling homology. And he used a data set with a particularly convincing evidence of common ancestry. To transform our argument into a picture we simulated sequences under both UCA and IO scenarios (that is, using one or two phylogenies) and looked at how the resulting alignments would look like. As expected they were very different.average sequence identity for alignments simulated under UCA and IO(from doi:10.4081/eb.2012.e5)The motivation for our skepticism in the UCA test is how it would perform on a blind experiment like Assemblaton or CASP: given a group of sequences of unknown homology status, can the model selection devised by Douglas Theobald tell us if they share a single ancestry? Our impression is that there would be several decisions before doing the actual test -- like optimizing the alignment, possible removal of poorly aligned regions, refusing to do the test if alignment is bad --that might undermine its applicability. So we cannot yet recommend the test for arbitrary data sets.Frequencies of average identity per column, for alignments simulated under UCA and IO, with real data set values in gray(from doi:10.4081/eb.2012.e5)In our article we also wonder about the effect of HGT under the hypothesis of multiple ancestry: what if we find one, and only one gene that strongly supports independent origins? Even if all others fit nicely into a single phylogeny, wouldn't it be evidence of this otherwise extinct lineage?The publication We all have dreadful stories about the feedback from peer reviewers, but this manuscript was not such a case. All reviewers seemed to know very well the original work, and could make precise comments on what we were missing or mistaken. The editor, David Liberles, also joined the discussion and gave us some good advice. So we thank them for being fortiter in re, suaviter in modo.We are preparing another manuscript that is more centered on the examples given in D. Theobald's paper. Actually we started to write this "counter-examples" manuscript prior to our present work, but we had to reorganize it since: 1) we realized that it would be harder to understand it without the current work; 2) D. Theobald recently published a reply that is relevant to our discussion, since it contains a response to a former version of our "counter-examples" manuscript. Our present paper became then necessary to minimize future misunderstandings.The scripts necessary to reconstruct the simulations and graphics used in our study are available at our home page: http://darwin.uvigo.es/common_origin/. Please let me know if you have any trouble running the scripts, or if you want some more information. References Leonardo de Oliveira Martins, David Posada (2012). Proving universal common ancestry with similar sequences Trends in Evolutionary Biology, 14 (1) : 10.4081/eb.2012.e5Theobald, D. (2010). A formal test of the theory of universal common ancestry Nature, 465 (7295), 219-222 DOI: 10.1038/nature09014(with thanks to Jonathan Eisen for noticing the article).... Read more »

Leonardo de Oliveira Martins, David Posada. (2012) Proving universal common ancestry with similar sequences. Trends in Evolutionary Biology, 14(1). info:/10.4081/eb.2012.e5

  • August 6, 2011
  • 04:46 PM

How to summarise a collection of trees that came from a Bayesian analysis

by Leonardo Martins in bioMCMC

After running a Bayesian phylogenetic analysis we are usually left with a large collection of trees, that came from the posterior distribution of the model given our data. Then if we want to work with a single tree - that is, to have a point estimate of this posterior distribution of trees - the most usual ways are to calculate the consensus tree or to select the most frequent tree. There are other ways, but let's fix on those by now.We might not be aware of it, but when we choose for one or another summary we are in fact deciding for the tree estimate that minimizes its distance to all other trees in the set, and in expectation this will be the closest to the true tree under this distance metric (the so called Bayes estimator). This depends on what exactly do we mean by "distance" between trees, and that's what the article "Bayes Estimators for Phylogenetic Reconstruction" (doi 10.1093/sysbio/syr021) is about. For example, the majority-rule consensus tree is the best we can get if we assume that the Robinson-Foulds distance (RF distance) is a good way of penalizing trees far away from the true one (I won't dwell into the meaning of "truth"; for us, the True tree® is the one that originated the data). To be more explicit, the consensus tree is the one whose RF distance to all trees in the sample is the shortest possible. This will be the closest we can get to the true tree for this sample, if by "close" we mean "with a small RF distance".Now suppose I don't like the RF metric because I can only count to two: if the trees are the same the distance is zero, but if they are different then the distance is not zero, and I don't care how different they are (think of apples and oranges). In this case the best representative of my sample is the one that appears more often, known as modal value or Maximum A Posteriori (MAP) value, since our sample comes from a posterior distribution. Is it the closest I can get to the true tree for this distribution? Yes, for this particular definition of distance: the MAP tree is the tree that maximizes the expected coincidence with the true tree.In the article they also mention that if you want to find the tree that minimizes the expected quartet distance to the true value, then the quartet puzzling method will find this tree for you. But the quartet puzzling tree is not as easy to calculate as the consensus or MAP tree, and there is no straightforward way to find the tree that minimizes other distances in general (e.g. the dSPR, the geodesic distance or the Gene Tree Parsimony). Therefore the authors offer the well-known hill-climbing heuristics for finding the best tree, and use the squared path difference as an example of distance. Below you can find the presentation I gave to my group last week about this paper, it contains basically some background information and a summary of their method. One thing that is absent from the slides are the results, which I briefly summarize below:their method (called "Bayes" in the figures or "BE") always used the path difference as distance measure; this is the overall distance they were trying to minimize.they simulated many data sets with several levels of sequence divergence, and reconstructed the phylogeny using Maximum Likelihood, Neighbor-Joining, and Bayesian analysis. From the Bayesian posterior distribution they elected as point estimates the consensus tree, MAP tree, and used their method to find the BE under the path difference.Figures 3 and 5 show the distance between the inferred and the true trees, where on figure 3 this distance is the path difference and in figure 5 it is the RF distance. As expected,  the Bayes estimator is better than any other measure at minimizing the path difference distance to the true tree, while the consensus tree wins if we want the closest in terms of RF distance.this result is rephrased in figures 8 and 9, which now look specifically at the distances between BE or MAP trees and the true tree. What they plot is distance(BE, true) - distance(MAP, true) for a different definition of distance(,) in each case. The MAP tree is correlated to the consensus tree (if the MAP frequency is larger than 50% they are equal, for instance). Therefore it should come as no surprise that if we define closeness to the true tree in terms of RF distance, the MAP tree will be closer than the BE as shown in figure 9. Because BE assumes that closeness to true is calculated in terms of the path difference, which is reinforced in figure 8.The authors wisely avoid offering the "best" Bayes estimator, since it depends on your judgment of how to penalize trees different from the true one.Journal Club @ UVigo 2011.07.22 View more presentations from Leonardo de Oliveira Martins OBS: This was my first time using beamer for Latex (after all these years, I know), so the slides are not prime time material. This is also my first submission to slideshare, and I like the idea of an embedded presentation within the blog post. I use latex a lot, and I think it would be easier for me to prepare a post with figures, equations and text within a presentation, and then simply embed it here with a minimum of extra text. Maybe I'll try this next time, a presentation but with much more text than the recommended - in real life presentations the slides should support and complement but not replace the lecturer. Then you tell me if you would like to read on such a format or if you prefer a more traditional article-ish post.Reference:Huggins, P., Li, W., Haws, D., Friedrich, T., Liu, J., & Yoshida, R. (2011). Bayes Estimators for Phylogenetic Reconstruction Systematic Biology, 60 (4), 528-540 DOI: 10.1093/sysbio/syr021... Read more »

Huggins, P., Li, W., Haws, D., Friedrich, T., Liu, J., & Yoshida, R. (2011) Bayes Estimators for Phylogenetic Reconstruction. Systematic Biology, 60(4), 528-540. DOI: 10.1093/sysbio/syr021  

  • July 12, 2010
  • 06:09 PM

Distribution of recombination distances between trees – poster at SMBE2010

by Leonardo Martins in bioMCMC

I just came back from SMBE2010, where I presented a poster about our recombination detection software and had the chance to see awesome research other people are doing. The poster can be downloaded here (1.MB in pdf format) and I’m distributing it under the Creative Commons License. Given the great feedback I got from other [...]... Read more »

  • May 16, 2010
  • 10:17 PM

fault-tolerant conversion between sequence alignments

by Leonardo Martins in bioMCMC

Despite I’m very charitable when testing my own programs, I’m not so nice when asked to scrutinize other people’s work. That’s why I was happy to see the announcement about the ALTER web server being published at Nucleic Acids Research (open access!). I am not involved in the project, but I was in the very [...]... Read more »

Glez-Pena, D., Gomez-Blanco, D., Reboiro-Jato, M., Fdez-Riverola, F., & Posada, D. (2010) ALTER: program-oriented conversion of DNA and protein alignments. Nucleic Acids Research. DOI: 10.1093/nar/gkq321  

  • May 15, 2010
  • 07:20 PM

O neandertal está morto! Viva o neandertal!

by Leonardo Martins in Um minuto de Ciência

No primeiro post, vimos que os primeiros neandertais apareceram cerca de 400 mil anos atrás, que estavam restritos à Europa e à Ásia Ocidental, e que desapareceram há cerca de 30 mil anos. Humanos modernos também se originaram na África e foram se expandindo ao redor do globo, a partir de uns 80 mil anos atrás. Continuando então a leitura sobre o neandertal, vejamos agora o artigo mais comentado (e o comentário na revista).A análise começou com uma amostra de 21 ossos sem importância morfológica de um sítio arqueológico na Croácia, de onde extraíram um pouco de material ósseo (com uma broca de dentista!). Dessa amostra os pesquisadores elegeram três ossos para realizar o sequenciamento,  vindos de três fêmeas e datados entre 38 e 44 mil anos. Esse material continha entre 95 e 99% de DNA microbiano (bactérias que colonizaram os ossos nos últimos milênios), e além disso estavam também contaminado por DNA humano difícil de distinguir do DNA neandertal devido à similaridade. Os autores da pesquisa passaram os últimos vinte anos desenvolvendo a tecnologia para sequenciar esse tipo de material, que inclui correção computadorizada da degradação química, enzimas que destroem seletivamente os contaminantes e busca em bases de dados dos segmentos sequenciados para verificar a origem.Eles sequenciaram no total mais de 4 bilhões de pares de bases (sítios de DNA), para compor os 3 bilhões de pares de bases do genoma neandertal. Isso equivale a uma cobertura média de 1,3: bem menor que o outro trabalho com microarray que vimos antes, mas muito mais ampla pois aqui temos quase todo o genoma (algumas regiões não estão representadas). Este genoma neandertal é uma composição entre as três espécimes, e não o genoma de um único indivíduo. Eles comparam algumas regiões com outras sequencias de neandertais para confirmar, e o mais importante: compararam também com os genomas de cinco indivíduos atuais: dois africanos (de etnias distintas), um francês, um chinês e um papuásio (de Papua-Nova Guiné). A partir daí puderam fazer várias comparações estatísticas baseadas em variações da figura abaixo:Árvore filogenética usada nas comparações entre os genomas alinhados(figura modificada do artigo doi:10.1126/science.1188021)Por exemplo, pode ser estimado que a divergência entre o genoma neandertal e o genoma humano de referência (aquele genoma "artificial" que tenta reproduzir nossa variabilidade genética) é mais ou menos 12% da divergência entre o genoma de chimpanzé e o genoma humano, enquanto os cinco genomas individuais apresentam divergência média entre 8 e 10%. Ou seja, os genomas individuais possuem quase a mesma distância do genoma humano de referência do que o genoma nenadertal. O que quer dizer que os neandertais são de fato muito próximos de um humano moderno - apesar de um pouquinho mais distintos.Usando um raciocínio similar ao do outro trabalho publicado conjuntamente, os pesquisadores detectaram 78 substituições de nucleotídeo que modificaram uma proteína em humanos, após a separação de homens modernos e neandertais. Essas proteínas estão associadas a células epidérmicas, adesão celular (possivelmente cicatrização), movimento flagelar de espermatozóides, e transcrição gênica. Eles também encontraram várias regiões não-codantes (não são traduzidas para proteínas) que são únicas aos humanos modernos, e essas regiões são promissoras agora que começamos a entender sua importância - vide epigenética, microRNA e cia.Outro método usado foi a detecção de regiões sujeitas à varredura seletiva (o nome em inglês é selective sweep, e quer dizer mais ou menos um "arrastão" seletivo), e se baseia no fato que quando um variante gênico é vantajoso, ele eventualmente poderá ser fixado na população, e caso contrário observaremos mais de um variante. Os autores usando esse método detectaram 212 regiões que podem estar sob esse tipo de seleção, entre elas genes associados a células epiteliais, autismo, diabete e esquizofrenia. Aqui cabe um aviso: isso não quer dizer que os neandertais tivessem esses problemas, muito menos que os genes foram selecionados para termos essas doenças! Não se sabe nem a função exata desses genes em humanos, apenas as consequencias de sua deficiência. Outro gene detectado pelo método é um fator de transcrição associado à displasia cleidocraniana (em inglês é cleiodocranial dysplasia, não estou seguro da minha tradução tabajara). Essa é uma doença que causa atraso na junção dos ossos do crânio, deformação do quadril e das clavículas, engrossamento dos arcos superciliares (ossos da sobrancelha) e anomalias dentárias - algumas características de neandertais.De acordo com os novos dados, a divisão entre a linhagem que deu origem aos humanos modernos e a linhagem que originou os neandertais se deu entre 270 e 440 mil anos atrás, na África - estimativa parecida com a de 500 mil anos a partir do DNA mitocondrial. E a conclusão mais divulgada, que é a de que houve cruzamento entre humanos e neandertais - provavelmente entre 50 e 80 mil anos atrás, ou seja, depois de populações de humanos saírem da África mas antes de se expandirem para a Ásia, Oceania, Américas, etc. A fração do genoma dos três indivíduos não-africanos de origem neandertal é entre 1 e 4%, mas esse material não parece ser seletivamente relevante.A baixa porcentagem de DNA neandertal no genoma do humano moderno indica que o contato entre ambos foi limitado - que paleontólogos já suspeitavam ser o caso. Outra evidência da pouca ou limitada hibridização é o fato de que o genoma do europeu, do asiático e do austronésio possuírem a mesma distância genética do neandertal: se o contato foi comum, espera-se que o europeu seja mais parecido do que o asiático, por exemplo, dado que os europeus teriam ficado (ops!) com os neandertais enquanto outros grupos se expandiriam para o leste. Usando uma analogia, imagine que você e seu irmão vão para a Romênia (e não, não há skype nem wikipedia nessa analogia). Vocês passam um ano por lá, e você então decide ir para a China, mas seu irmão permanece na Romênia. Após uns dez anos eu diria que seu irmão deve estar falando romeno melhor que você... enquanto isso, a sua irmã que ficou no Brasil o tempo todo não faz a menor idéia de como falar romeno. Essa irmã da estorinha seriam os africanos analisados na pesquisa. E continuando a analogia, eu descubro que tanto você quanto seu irmão falam um pouquinho de romeno, e dominam o chinês. Eu posso então desconfiar que seu irmão também foi prá China com você, após um ano na Romênia. Porém, na pesquisa real ainda falta estudar mais etnias africanas para verificar se não há ancestralidade neandertal mesmo, pois a diversidade genética africana é muito grande.Mesmo com toda essa tecnologia, clonar um neandertal está fora de cogitação: além do genoma do neandertal com muito maior qualidade, teríamos que saber as modificações químicas, arranjos cromossômicos no núcleo e no material materno; o processo de clonagem depende ou de duas células (uma com o núcleo e outra com o óvulo) ou então de células-tronco reprogramáveis, o que é quase impossível; levanta muitas questões éticas - neandertais devem ter o status de humano, e há vários assuntos mais urgentes como pesquisas clínicas.Referências:Gibbons, A. (2010). Close Encounters of the Prehistoric Kind Science, 328 (5979), 680-684 DOI: 10.1126/science.328.5979.680... Read more »

Green, R., Krause, J., Briggs, A., Maricic, T., Stenzel, U., Kircher, M., Patterson, N., Li, H., Zhai, W., Fritz, M.... (2010) A Draft Sequence of the Neandertal Genome. Science, 328(5979), 710-722. DOI: 10.1126/science.1188021  

  • May 14, 2010
  • 03:27 PM

Como capturar um neandertal

by Leonardo Martins in Um minuto de Ciência

Dos dois artigos descrevendo o genoma do neandertal, um que me pareceu ter recebido menos atenção foi um em colaboração com o laboratório de Cold Spring Harbor. Nele os autores descrevem a técnica de captura por hibridização em microarray, que permite "filtrar" regiões do genoma de interesse. As regiões interessantes são seqüencias de DNA que codificam para proteínas, e especificamente regiões em que a proteína humana é distinta da de chimpanzés e orangotangos. Como vimos antes, pode-se fazer com que o microarray detecte ao mesmo tempo um número enorme de moléculas. Nesse estudo eles desenharam as moléculas para que se associem a regiões ao redor das substituições de DNA específicas de humanos, compondo no total quase 14 mil substituições. Essa técnica mostrou-se muito útil em uma amostra como a de neandertal, que apresentava contaminação de 99,8% (presença indesejável de DNA bacterial ou de humanos).Eles então usaram esse microarray para capturar selectivamente o DNA genômico de um osso de 49 mil anos de neandertal, extraído da caverna de El Sidrón, na Espanha. Ou seja, eles se concentraram nos genes humanos que são distintos dos outros primatas, e através dessa captura puderam identificar se os equivalentes neandertais se pareciam mais aos outros primatas ou a humanos. Em 91,5% dos casos o osso neandertal apresentou a versão "humana" da substituição no gene, e em 8,5% o DNA neandertal se parecia mais ao de chimpanzé - para o grupo de genes estudados que passou nos testes de contaminação. Porém mesmo dentro da população humana há diversidade (ainda bem!), e assim os pesquisadores utilizaram a mesma técnica em um conjunto de 50 genomas humanos extraídos do Painel de Diversidade Genômica Humana (uma base de dados de genomas contemporâneos, considerados importantes por sua diversidade e raridade). Para esse conjunto de indivíduos 87,8% das substituições estão fixadas - ou seja, não há diversidade dado que todos apresentam o mesmo estado - e o resto é polimórfico. Combinando os dois resultados, verificaram que há 88 substituições fixadas (compartilhadas por todos) nas populações modernas onde os neandertais apresentam a forma ancestral. Ou seja, essas 88 modificações - em 83 genes, pois há genes com mais que uma substituição - são mais recentes que a divisão entre o humano moderno e os neandertais e podem ser importantes evolutivamente. A cobertura média foi de 5 vezes para as seqüências de neandertal e de 10 vezes para o DNA humano, onde "cobertura" é o número de vezes que uma mesma base foi sequenciada, e é uma medida de qualidade por redundância.Os autores ressaltam que há uma limitação no estudo devido à diversidade de amostras: um estudo preliminar do grupo comparando com o "genoma de referência" humano (uma "média" do que seria nosso genoma) apontava para um número muito maior de aminoácidos diferentes do que comparando com os 50 genomas individuais. Talvez se levarmos em conta toda a variabilidade genética dos humanos modernos o número de aminoácidos seja ainda menor que os 88. Mas vale a pena estudar com cuidado esses genes, e é o que farão a partir de agora.Referência:Burbano, H., Hodges, E., Green, R., Briggs, A., Krause, J., Meyer, M., Good, J., Maricic, T., Johnson, P., Xuan, Z., Rooks, M., Bhattacharjee, A., Brizuela, L., Albert, F., de la Rasilla, M., Fortea, J., Rosas, A., Lachmann, M., Hannon, G., & Paabo, S. (2010). Targeted Investigation of the Neandertal Genome by Array-Based Sequence Capture Science, 328 (5979), 723-725 DOI: 10.1126/science.1188046Para saber mais:Science DailyNeandertais há quatro anos e hoje (post anterior)Obs: In memoriam ao professor Javier Fortea, um dos responsáveis pelo projeto, que infelizmente não verá este fruto de seu trabalho.Os textos escritos para este blog (ou seja, excuindo citações, figuras, etc.) estão sob a licença Creative Commons Attribution-Share Alike 3.0.... Read more »

Burbano, H., Hodges, E., Green, R., Briggs, A., Krause, J., Meyer, M., Good, J., Maricic, T., Johnson, P., Xuan, Z.... (2010) Targeted Investigation of the Neandertal Genome by Array-Based Sequence Capture. Science, 328(5979), 723-725. DOI: 10.1126/science.1188046  

  • May 9, 2010
  • 08:30 PM

Neandertais, há quatro anos e hoje

by Leonardo Martins in Um minuto de Ciência

A descoberta científica da semana, sem dúvida, foi o sequenciamento do genoma do neandertal. Para mim, talvez seja a descoberta do ano (e olha que este ano temos muitas novidades). Não apenas temos o genoma (quase) completo de um animal extinto, mas também é o animal mais próximo ao humano moderno (o Homo sapiens sapiens). O "nome completo" do homem de Neandertal é Homo neanderthalensis ou Homo sapiens neanderthalensis, e já dá uma dica de quão próximo ele é de nós: sem entrar na discussão se fazem parte ou não da mesma espécie, o fato de haver cruzamento entre ambos e gerarem descendentes férteis (nós!) aponta para uma resposta positiva.Aliás, essa foi a conclusão mais divulgada dessa pesquisa: humanos modernos não-africanos possuem entre 1 e 4% de ancestralidade neandertal, ou seja, entre 1 e 4% das partes variáveis do genoma de europeus, asiáticos e austronésios (os genomas usados na comparação) vieram do cruzamento entre Homo sapiens e Homo neanderthalensis. E por que digo "não-africanos"? Um "Guia Rápido sobre neandertais" escrito por Jean-Jacques Hublin and Svante Pääbo em 2006 nos ajuda a entender:O homem de Neandertal é um humano arcaico extinto, descoberto em 1856 nas cavernas do Vale de Neander, na Alemanha (daí o nome). Desde então até hoje já foram descobertos mais de 400 fósseis classificados como neandertais, incluindo fósseis completos e de crianças. Eles eram musculosos, pesavam cerca de 80 quilos e se alimentavam de carne e gordura. Uma de suas características faciais marcantes são seus arcos superciliares grossos (os ossos sobre as sobrancelhas).Os neandertais estavam a confinados à Europa isolados climática e geograficamente da África, mas se expandiram até o Oriente Próximo e Ásia Central. O humano moderno, que estava na África, começou a se expandir por volta de 80 mil anos atrás, onde provavelmente conviveram com os neandertais (ainda que em locais distintos, isolados um do outro) por 50 mil anos, quando os neandertais desapareceram. Desse convívio (ainda que distante), parece que os neandertais imitaram a cultura (como uso de ornamentos) e copiaram a tecnologia (fabricação de utensílios) dos humanos modernos. Por isso descarta-se a hipótese de um genocídio dos neandertais cometido pelos humanos modernos: a extinção dos neandertais pode ser atribuída à falta de organização social e linguagem.Em 1997 os pesquisadores obtiveram DNA mitocondrial (de origem exclusivamente materna) daquele primeiro fóssil, descoberto em 1856. E esse DNA, juntamente com o de outros espécimes, era muito distinto do DNA de humanos modernos, e indicava que não havia fluxo gênico entre humanos modernos e neandertais, apesar do convívio. Esse DNA apontava para um ancestral comum entre os dois grupos há 500 mil anos atrás.Ou seja, nem todos os humanos modernos participaram da migração para fora da África: as populações que migraram encontraram-se com neandertais - e ao contrário dos resultados de 1997, sabemos hoje que houve fluxo gênico sim; os que ficaram na África deram origem às populações africanas modernas. Outro detalhe interessante é que apesar do DNA mitocondrial não ter indícios de fluxo gênico, ele permitiu uma estimativa da época em que as linhagens divergiram muito próxima da estimativa atual, baseada no genoma. Espero comentar mais sobre esse trabalho em breve, afinal de contas agora é que começa a diversão.neandertais e modernos anatomicamente corretos (extraído daqui)Referência:Jean-Jacques Hublin and Svante Pääbo (2006) Quick guide: Neandertals. Current Biology 16 (4): R113-R114Para saber mais:Notícia na Agência FAPESPEspecial da revista ScienceCrédito da figura: Tom RhodesOs textos escritos para este blog (ou seja, excuindo citações, figuras, etc.) estão sob a licença Creative Commons Attribution-Share Alike 3.0.... Read more »

Hublin, J., & Pääbo, S. (2006) Neandertals. Current Biology, 16(4). DOI: 10.1016/j.cub.2006.02.009  

  • April 27, 2010
  • 07:04 PM

The specialization of novel genes

by Leonardo Martins in bioMCMC

Recently a paper about the software MANTiS called my attention, and I’ve been trying to write about it for a while. This announcement at the EvolDir list seemed like the perfect opportunity. I must warn you though that I’ve never used the software and I don’t have any intimacy with the underlying databases, but the [...]... Read more »

Milinkovitch, M., Helaers, R., & Tzika, A. (2009) Historical Constraints on Vertebrate Genome Evolution. Genome Biology and Evolution, 13-18. DOI: 10.1093/gbe/evp052  

Tzika, A., Helaers, R., Van de Peer, Y., & Milinkovitch, M. (2007) MANTIS: a phylogenetic framework for multi-species genome comparisons. Bioinformatics, 24(2), 151-157. DOI: 10.1093/bioinformatics/btm567  

  • March 20, 2010
  • 11:10 PM

Using System-on-a-Chip hardware to speed up alignments

by Leonardo Martins in bioMCMC

In recent years there has been an explosion of parallel algorithms for solving bioinformatics problems, namely phylogenetic reconstruction and sequence alignment. These algorithms follow the growth of new hardware solutions like  Field-Programmable Gate Arrays (integrated circuits capable of  performing simple instructions in parallel), Cell microprocessors (like the one inside Playstation 3), Graphics Processing Units (nvidia [...]... Read more »

join us!

Do you write about peer-reviewed research in your blog? Use ResearchBlogging.org to make it easy for your readers — and others from around the world — to find your serious posts about academic research.

If you don't have a blog, you can still use our site to learn about fascinating developments in cutting-edge research from around the world.

Register Now

Research Blogging is powered by SRI Technology.

To learn more, visit http://selfregulationinstitute.org/.