EN-MUTATE : predição do impacto de mutações pontuais em proteínas utilizando Ensemble Learning

Camargo, Alex Dias

Abstract:

 
A metodologia abordada nesta dissertação é baseada na combinação dos resultados de diferentes ferramentas de predição do impacto de mutações pontuais em proteínas, assumindo-se o pressuposto de Ensemble Learning na qual a capacidade de generalização de um conjunto é frequentemente mais forte do que uma decisão individual. O objetivo é predizer qual o impacto que uma mutação pode resultar em um mutante "in-silico". Para isso, foram adotadas ferramentas descritas na literatura como capazes de predizer os efeitos na estabilidade de uma proteína sobre mutações pontuais através da variação da energia livre ∆∆G, ou seja, a diferença de energia livre entre uma proteína do tipo selvagem e o seu mutante. As primeiras versões da metodologia proposta, EN-MUTATE, realizaram o ensemble por meio de uma votação por pluralidade entre as ferramentas integradas. À vista disso, com a necessidade de se expandir as análises com o intuito de permitir uma metodologia baseada em modelos treinados através de diferentes classificadores, a abordagem proposta foi reestruturada e passou a abordar múltiplas opções de predição ensemble, o que acabou sendo agregado a ferramenta desenvolvida EN-MUTATEweb. Um fator relevante a ser mencionado sobre a viabilidade da sua utilização é a dificuldade de seleção de um determinado método a priori, tendo em vista que não há como se prever àquele que terá melhor desempenho para os dados de interesse. Do mesmo modo, o trabalho necessário para teste e comparação de múltiplas abordagens pode tornar o tempo de pesquisa demasiadamente alto para o especialista. De forma a mensurar a viabilidade de aplicação de ensemble learning ao problema de pesquisa, esta dissertação avaliou seus resultados com base em valores biológicos experimentais, sendo que os experimentos computacionais foram divididos em cinco abordagens com diferentes configurações. Por fim, para os principais conjuntos de dados adotados, a metodologia EN-MUTATE obteve em grande parte modelos mais acurados. Desse modo, as principais contribuições obtidas com o desenvolvimento desta dissertação atendem ao seu principal objetivo: definir uma metodologia cuja finalidade é adotar o conceito de Ensemble Learning para combinar em uma única abordagem os resultados de diferentes ferramentas de predição do impacto de mutações pontuais em proteínas, buscando, assim, a adoção de abordagens para produzir um resultado final em conjunto potencialmente melhor do que os individuais.
 
The methodology used in this dissertation is based on the combination of the results of different tools to predict the impact of point mutations on proteins, using the assumption of Ensemble Learning, in which the capacity of generalization of a set is often stronger than an individual decision. The goal is to predict the impact that a mutation can have on an "in-silico" mutant. To this end, tools described in the literature have been chosen for being capable of predicting the effects on stability of a protein on single point mutations through the free energy variation G, that is, the free energy difference between a wild-type protein and its mutant. The first versions of the proposed methodology, EN-MUTATE, performed the ensemble by means of a plurality voting among the integrated tools. Having this in view, and considering the need to expand the analyzes in order to allow a methodology based on models trained through different classifiers, the proposed approach was restructured and started to address multiple options of ensemble prediction, which ended up being added to EN-MUTATEweb, the tool developed. A relevant factor to be mentioned about the viability of its use is the difficulty of selecting a certain method a priori, considering that there is no way to predict the one that will perform best for the data of interest. Likewise, the work required to test and compare multiple approaches can make the search time too high for the specialist. In order to measure the feasibility of applying ensemble learning to the research problem, this dissertation evaluated its results based on experimental biological values, and the computational experiments were divided into five approaches with different configurations. Finally, in the main datasets used EN-MUTATE methodology obtained in large part more accurate models. Thus, the main contributions of this dissertation cover the main objective: define a methodology whose purpose is to adopt the concept of Ensemble Learning to combine results of different tools to predict the impact of point mutations on proteins, seeking the adoption of approaches to produce a potentially better combined result than the individual ones.
 

Show full item record

 

Files in this item

This item appears in the following Collection(s)

:

  • C3 - Mestrado em Engenharia da Computação