Please use this identifier to cite or link to this item:
https://www.arca.fiocruz.br/handle/icict/12181
DETERMINANTES E FORÇAS SELETIVAS NA EVOLUÇÃO DAS PROTEÍNAS
Encinas Ponce, Luis Fernando | Date Issued:
2014
Author
Advisor
Comittee Member
Affilliation
Fundação Oswaldo Cruz. Instituto Oswaldo Cruz. Rio de Janeiro, RJ, Brasil
Abstract in Portuguese
A análise de grandes quantidades de dados aproveitando o poder computacional de ferramentas \2015open source\2016 que estão disponíveis na internet é o que veio a conhecer-se como quarto paradigma da investigação científica. Em muitas áreas do conhecimento como a Astronomia, a Física e Geologia, a experimentação, o desenvolvimento teórico e o poder computacional (os três primeiros paradigmas) têm dado lugar à análise rotineira de grandes quantidades de dados e o desenvolvimento de novos métodos, conceitos e teorias que permitam interpretar a informação gerada por novas tecnologias. No campo da biologia, esta mudança nos paradigmas da investigação científica supõe um desafio na hora de encarar uma questão biológica; mas, em contrapartida, ela oferece a oportunidade de validar teorias clássicas e/ou testar hipóteses novas. Precisamente neste contexto, a presente tese aborda duas questões pertinentes ao campo da biologia evolutiva: Quais são os fatores que determinam a evolução de uma proteína? e Qual é a natureza da seleção cinética traducional?. Estas perguntas são, em principio, relevantes no âmbito teórico; por outro lado, sua compreensão, implicações e perspectivas têm também espaço importante na área experimental
A tese está estruturada da seguinte forma: No Capitulo um se descreve uma combinação de análise de texto com outras técnicas de mineração de dados para identificar, classificar, integrar e modelar associações existentes entre caracteres genômicos que favorecem ou impedem a acumulação de substituções nucleotídicas ao nível das regiões codificadoras. Nossa metodologia permitiu identificar características genômicas como a eficiência traduçional, a instabilidade estrutural e as regiões de baixa complexidade que em principio poderiam constituir determinantes da evolução das proteínas. Construtos latentes como esquema de integração de dados biológicos mostraram que, em vez de considerar o nível de mRNA como o maior determinante da evolução das proteínas, outras variáveis relacionadas com a expressão de um gene podem ser igualmente importantes
Finalmente, graças a um modelo de fatores Bayesiano, foi possível estimar os componentes de um sistema de tradução de proteínas identificado com a eficiência e adaptação da maquinaria celular. No Capitulo dois, o controle cinético exercido pelos códons raros durante a tradução das proteínas é abordado com a ajuda de uma análise de custo-benefício que tenta identificar a natureza do que veio a denominar-se como seleção cinética traducional. Diferenças entre proteínas estáveis e instáveis apóiam permitiram identificar a ação da regulação cinética traducional sobre determinado grupos de genes. Os padrões de substituções sinônimas encontrados nas proteínas instáveis permitiram estender nossa discussão apontando à existência de combinações de códons num espaço genotípico determinado que assegure a conservação da estrutura terciária de uma proteína, mas, ao mesmo tempo procure a otimização da cinética da sua tradução
Abstract
In scientific discovery, three acknowledged paradigms are experimental,
theoretical and computational. In the last ten years however, scientists have been
over
whelmed
with large amounts of
data coming from high
-
throughput technologies
that are analyzed tak
ing advantage of computational power, the internet and open source
data
-
analysis tools.
Late researcher of Microsoft, Dr. James Gray (1944
-
2012
in absentia
) ca
lled this
―the fourth paradigm of scientific
research‖ and urged the need to acknowledge that
making sense of data will turn routine in most areas of science.
For biologists and others involved in life sciences, this paradigm shift may
address daunting cha
llenges, however; in return, it offers the oppo
rtunity to examine old
theories and test new hypothesis.
It is within this context that the thesis presented here tackles two fundamental
problems of evolutionary biology: What are the constraints of protein e
volution? and
what is the underlying nature of the kinetic
-
translational selection?.
Although
at first glance these questions might appear exclusively relevant for the
theoretical field of evolutionary biology, we consider their implications for other area
s
such as biotechnology and clinical applications.
The thesis is organized as following:
In
Chapter one
, we present a combination of text analysis with other data
mining techniques to identify, classify, integrate and model existing associations
between g
enomic c
haracters that favor o
r hinder the rate at which proteins evolve Our methodology allowed us to identify genomic features such as translational
efficiency, structural instability and low
-
complexity regions that appear to constitute
constraints of p
rotein evolution.
Latent constructs were used as an alternative to integrate biological data and
they showed that
instead of using mRNA levels as primary determinants of protein
evolution, other expression
-
related factors should be considered.
We devised a
Bayesian factor model to estimate the components of a protein
translation system identified with the efficiency and adaptation of the cellular
machinery.
In
Chapter two
, we aboard the fine
-
tuning kinetic control of rare codons during
protein translation i
n the context of a cost
-
benefit analysis devised to identify the action
o
f recently proposed ki
netic translational selective force.
The pattern of synonymous substitutions found in proteins classified as
structurally unstable led us to extend our discussio
n to the existence of a determined
genotypic space in which combinations of codons are ―tested‖ in order to optimize the
protein synthesis kinetics maintaining the tridimensional structure.
Share