Ciências Biológicas
On the categorization of a beta-uniform distribution and its application to the gene expression problem
Based on a set of cutting points we propose to categorize a
beta-uniform (BUM) distribution, and term the categorized
distribution as the C-BUM distribution. We study the
categorization effects by comparing the performance of the maximum
likelihood estimates for both models, for different sets of
cutting points. Using the missing information principle we compute
the BUM and C-BUM theoretical Fisher information matrices to
assess loss of information. Finally, we evaluate the method to a
published cancer gene expression data study.
Modelos Compartimentais Determinísticos e Estocásticos: Modelagem de Epidemias
A modelagem matemática de epidemias é de grande importância para os estudos epidemiológicos por possibilitar um melhor entendimento do desenvolvimento de epidemias e a busca por medidas eficientes de prevenção ou erradicação da doença. Este projeto teve por objetivo estudar a utilização de modelos epidemiológicos SEIR na modelagem de doenças de transmissão direta. O modelo SEIR consiste em um sistema de equações integro-diferenciais que considera uma população fechada sendo dividida em quatros compartimentos: Suscetíveis, Expostos, Infectantes, Recuperados. Um modelo do tipo SEIR foi aplicado a epidemia de Febre Hemorrágica Ebola que ocorreu no Congo no ano de 1995. Neste projeto, tanto a abordagem determinística como a estocástica foram consideradas, sendo obtidos os estimadores de Mínimos Quadrados e Bayesiano pelo métodos MCMC. Através do modelo é possível ter uma melhor compreensão da epidemia, por exemplo, considerar o efeito das medidas de controle no tamanho da epidemia.
Estimação de Modelos SEIR Estocásticos com Dados Incompletos
A modelagem matemática de epidemias apresenta grande relevância para a área de epidemiologia por possibilitar uma melhor compreensão do desenvolvimento da doença na população e permitir analisar o impacto de medidas de controle e erradicação.
Há duas abordagens utilizadas no processo de modelagem matemática, a saber: estocástica e determinística. As duas abordagens comumente baseiam-se na estruturação de uma população fechada em compartimentos denominados Suscetíveis, Expostos, Infectantes e Removidos sendo que este último compartimento considera indivíduos recuperados e mortos. Os modelos criados a partir de tal estrutura são denominados modelos compartimentais SEIR . A utilização de tais modelos é notável devido a sua flexibilidade para se ajustar a diversas epidemias e a estrutura dos dados.
Além disso, a utilização de métodos bayesianos permite lidar com a ausência completa ou parcial dos dados que é um problema recorrente no contexto epidemiológico.
Este trabalho discuti e modifica algumas suposições do modelo estocástico SEIR encontrado em Lekone e Finkenstädt (2006) que é aplicado aos dados parcialmente observados da epidemia de Febre Hemorrágica Ebola ocorrida no Congo em 1995 através de métodos bayesianos.
Ferramentas para Análise de Associação de Estudos de Varredura Genômica
Estudos de varredura genômica têm sido importantes para um melhor entendimento da base genética de muitas doenças complexas uma vez que se baseiam no estudo simultâneo de vários polimorfismos sendo possível investigar a associação entre os mesmos e as referidas doenças. Além disso, vale ressaltar que esses estudos de associação entre fatores de risco genéticos e doenças têm ganhado destaque na literatura. Assim, a escolha de um modelo estatístico apropriado é parte inerente do mapeamento genético de doenças complexas em estudos com população humana. Logo, a idéia é explorar algumas ferramentas de análise estatística para associação com o propósito de adquirir competência no uso de softwares gratuitos em ambiente Windows, em particular PLINK e R. É bom lembrar que existem inúmeros programas (gratuito para download) com os mais diversos propósitos (ver por exemplo: http://linkage.rockefeller.edu/soft/list1.html). Historicamente, estudos de associação foram utilizados para examinar genes candidatos de interesse, escolhidos com base na hipótese de relevância biológica para a doença em estudo. Em particular, iremos nos concentrar nos estudos de associação de varredura genômica (GWAS genome-wide association study, em inglês). Segundo, Batista (2006), o conceito de associação pode representar desequilíbrio de ligação na distribuição da freqüência alélica dos locos ou representar um sinal de ligação entre um loco candidato na regulação de uma doença. Os estudos de varredura genômica completo (ou GWAS) exigem uma carga computacional muito grande para contemplar a natureza alto-dimensional dos dados. Portanto é indispensável conhecer as ferramentas estatísticas e os softwares disponíveis e adequados para cada situação.
Comparação de Retas de Regressão em Dados de Microarray
No contexto da biologia molecular, a análise de dados de microarray tem sido usada extensivamente ao longo dos últimos anos. Esta técnica experimental possibilita o estudo dos níveis de expressão de milhares de genes simultaneamente para diferentes tipos de tecidos biológicos, e a análise de dados obtidos através desta técnica depende fortemente de modelos matemáticos e estatísticos adequados. Dentre estes métodos de análise destaca-se a construção de redes de relevância, através da comparação de valores de correlação ou informação mútua, para se estimar a associação funcional entre dois genes distintos. Este trabalho visa testar a utilização de modelos de regressão linear no lugar destas medidas de associação, com o intuito principal de aprimorar este método de análise para dados de microarray, bem implementar os avanços obtidos no software de programação estatística R.
Optimal Choice for the Numbers of Regressors in the DFA Method
The method of detrended fluctuation analysis has proven useful in revealing the extent of long-range dependence in time series. The objective of this technique is to evaluate the statistical fluctuation F(l) in order to obtain a set of measures, where l represents the window length. By varying the length l, the fluctuation can be characterized by the scaling exponent, that is, the slope coefficient of the line obtained by the regression of ln(F(l)) on ln (l), with l in {4,5,..., g(n)}. Here we carried out simulations of ARFIMA(0,d,0) models, to investigate the effect of g(n) in the detrended fluctuation analysis method. We also analyze the long-range dependence parameter for two DNA sequences with this technique.
Interferência Clonal em Populações Sexuadas
Nós investigamos a taxa de substituição de mutações vantajosas em populações de organismos haplóides, assumindo que o mecanismo de recombinação está fixo, com a ocorrência de mutações benéficas e deletérias. Propomos um modelo de população finita de indivíduos em que permitiu a recombinação com taxa r e quantificamos o sexo no modelo. Verificamos que o sexo e a recombinação aumentam a taxa de adaptação por permitir a recombinação das mutações originalmente benéficas em linhagens distintas da população e, assim, reduz a intensidade da interferência clonal. A vantagem do sexo é maior até quando ocorrem mutações deletérias, pois a recombinação possui um papel importante, porque eliminam as mutações deletérias com maior eficiência. Porém, nossos resultados de simulação demonstram também a ocorrência de evidências da interferência clonal em populações sexuadas. Observamos que, comparando a população sexuada com a assexuada, a interferência clonal ocorre para taxas mais elevadas de mutação benéfica. Notamos claramente a redução no ritmo de crescimento da taxa de fixação das mutações benéficas juntamente com o aumento do efeito médio seletivo das mutações que se fixam. E determinamos as distribuições que melhor descrevem a distribuição do efeito seletivo das mutações benéficas que conseguem se fixar em uma população.
Generalized Linear Models Applied to DNA Sequences
Generalized linear models (GLM) are proposed at the presented study to deve-
lop methods of DNA sequencing analysis. The main focus lays on the analysis of
codon's (a triplet of nucleotide bases) frequencies in the NADH4 gene from human
mitochondrial genome, as well as the order and frequency that the nucleotide bases
(Thymine - T, Cytosine - C, Adenine - A and Guanine - G) have in each codon,
considering the dependence between the bases inside a codon, in order to achieve a
valid model that explains this gene's dynamics.
Uma aplicação do algoritmo Langevin-Hastings em Genética Quantitativa.
Métodos de Monte Carlo em Cadeias de Markov (MCMC) são indispensáveis em genética quantitativa, para inferência de modelos nos quais os componentes genéticos são de efeito aleatório, ou estruturados com heterogeneidade de variâncias. Um desafio na implementação desses métodos é realizar eficientes atualizações de vetores genéticos com tais características, além da alta dimensionalidade. O procedimento Langevin-Hastings é uma opção para o passeio aleatório do algoritmo Metropolis-Hastings, cuja proposta é acelerar a velocidade de convergência do método Metropolis-Hastings. Neste trabalho o algoritmo Langevin-Hastings é apresentado como alternativa para a estimação de parâmetros em modelos genéticos de alta dimensão, estruturados com heterogeneidade de variâncias. Serão apresentados os resultados da aplicação em ninhadas de caracóis, suínos, coelhos.
Regressão de dados binários: Distribuição Weibull
Neste trabalho propõe-se um novo modelo, para conjunto de dados com variável resposta binária, baseada na função densidade acumulada Weibull. Apresenta-se um resumo das funções de ligação mais conhecidas da literatura. Esta classe de modelos possui como caso especial o modelo complementar log-log e boas aproximações aos modelos logístico e probito. Três conjuntos de dados reais são utilizados para comparar o modelo proposto com vários outros modelos. Em um dos conjuntos de dados o modelo é expandido para suportar variável resposta multinomial, isto é, variável discreta com mais de dois eventos de interesse. Os resultados obtidos são muito promissores, pois a estimação dos parâmetros é razoavelmente simples e o modelo mostrou-se extremamente eficiente.