SBICafé
Biblioteca do Café

Predição genômica da resistência à ferrugem alaranjada em café arábica via algoritmos de aprendizagem de máquina

Mostrar registro simples

dc.contributor.advisor Nascimento, Moysés
dc.contributor.author Sousa, Ithalo Coelho de
dc.date.accessioned 2019-03-25T12:04:03Z
dc.date.available 2019-03-25T12:04:03Z
dc.date.issued 2018-02-26
dc.identifier.citation SOUZA, I. C. Predição genômica da resistência à ferrugem alaranjada em café arábica via algoritmos de aprendizagem de máquina. 2018. 31 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa-MG. 2018. pt_BR
dc.identifier.uri http://www.sbicafe.ufv.br/handle/123456789/11183
dc.description Dissertação de mestrado defendida na Universidade Federal de Viçosa. pt_BR
dc.description.abstract A seleção genômica (SG) foi proposta como uma forma de aumentar a eficiência e acelerar o melhoramento genético. A SG enfatiza a predição simultânea dos efeitos genéticos de milhares de marcadores dispersos em todo o genoma de um organismo. Algumas metodologias estatísticas têm sido utilizadas em SG para a predição do mérito genético, como por exemplo a Ridge Regression Best Linear Unbiased Prediction (RR- BLUP), Bayesian Lasso (BLASSO). Porém tais metodologias exigem algumas pressuposições a respeito dos dados tais como normalidade da distribuição dos valores fenotípicos. Além disto, a presença de fatores complicadores tais como epistasia e dominância atrapalham a utilização destes modelos, uma vez que exigem que tais efeitos sejam estabelecidos à priori pelo pesquisador. Visando contornar a não normalidade dos valores fenotípicos a literatura sugere o uso dos modelos lineares generalizados sob o enfoque bayesiano (BGLR). Outra alternativa são os modelos baseados em aprendizagem de máquina (AM), representados por metodologias tais como Redes Neurais (RNA), Árvores de Decisão (AD) e seus possíveis refinamentos (Bagging, Random Forest e Boosting) as quais podem incorporar a epistasia e a dominância no modelo além de não exigirem pressuposições quanto ao modelo e a distribuição dos valores fenotípicos. Diante disso, o objetivo deste trabalho foi utilizar AD e seus refinamentos Bagging, Random Forest e Boosting para predição da resistência a ferrugem alaranjada no café arábica. Além disso, AD e seus refinamentos foram utilizadas para identificar a importância dos marcadores relacionados a característica de interesse. Os resultados foram comparados com aqueles provenientes do GBLASSO (Lasso Bayesiano Generalizado) e RNA. Foram utilizados dados da resistência a ferrugem do café de 245 plantas derivadas do cruzamento do Híbrido de Timor e do Catuaí Amarelo, genotipados para 137 marcadores. A AD e seus refinamentos obtiveram resultados satisfatórios, visto que apresentaram valores iguais ou inferiores de Taxa de Erro Aparente comparados com aqueles obtidos pelo GBLASSO e RNA. Ademais, os refinamentos da AD demonstraram ser capazes de identificar marcadores importantes para característica de interesse, visto que dentre os 10 marcadores mais importantes analisados em cada metodologia, 3-4 viimarcadores estavam próximos a QTL’s relacionados a resistência a doença listados na literatura. Por fim, a AD e seus refinamentos mostraram um melhor desempenho em relação ao GBLASSO e a RNA quanto ao custo computacional. pt_BR
dc.description.abstract Genomic selection (GS) has been proposed as a way to increase efficiency and accelerate genetic improvement. GS emphasizes the simultaneous prediction of the genetic effects of thousands of scattered markers throughout an organism's genome. Some statistical methodologies have been used in GS for the prediction of genetic merit, such as Ridge Regression Best Linear Unbiased Prediction (RR-BLUP), Bayesian Lasso (BLASSO). However such methodologies require some assumptions about the data such as normality of the distribution of phenotypic values. In addition, the presence of complicating factors such as epistasis and dominance hinder the use of these models, since they require that such effects be established a priori by the researcher. In order to avoid the non-normality of phenotypic values, the literature suggests the use of Bayesian Generalized Linear Regression (BGLR). Another alternative is the models based on machine learning, represented by methodologies such as Artificial Neural Networks (ANN), Decision Trees (DT) and their possible refinements such as Bagging, Random Forest and Boosting, which can incorporate epistasis and dominance in the model, besides not requiring assumptions about the model and the distribution of phenotypic values. The aim of this work was to use DT and its refinements Bagging, Random Forest and Boosting for prediction of resistance to orange rust in arabica coffee. In addition, DT and its refinements were used to identify the importance of markers related to the characteristic of interest. The results were compared with those from GBLASSO (Generalized Bayesian Lasso) and ANN. Data from the coffee rust resistance of 245 plants derived from the hybrid of the Timor Hybrid and the Yellow Catuaí, genotyped for 137 markers were used. The DT and its refinements obtained satisfactory results, since they presented equal or inferior values of Apparent Error Rate compared to those obtained by GBLASSO and RNA. In addition, DT refinements seem to be able to identify important markers for characteristic of interest, since among the 10 most important markers analyzed in each methodology, 3-4 markers were close to QTLs related to resistance to disease listed in the literature. Finally, the Decision Tree and its refinements showed a better performance in relation to the GBLASSO and RNA regarding computational cost. pt_BR
dc.format 31 folhas pt_BR
dc.language.iso pt_BR pt_BR
dc.publisher Universidade Federal de Viçosa pt_BR
dc.subject Algorítimos genéticos pt_BR
dc.subject Aprendizado do computador pt_BR
dc.subject Decisão estatística pt_BR
dc.subject Redes neurais pt_BR
dc.subject Boosting pt_BR
dc.subject Ensacamento pt_BR
dc.subject.classification Cafeicultura::Pragas, doenças e plantas daninhas pt_BR
dc.title Predição genômica da resistência à ferrugem alaranjada em café arábica via algoritmos de aprendizagem de máquina pt_BR
dc.title Genomic prediction of leaf rust resistance to arabica coffee using machine learning algorithms pt_BR
dc.type Dissertação pt_BR

Arquivos deste item

Arquivos Tamanho Formato Visualização
Dissertacao_Ithalo Coelho de Sousa.pdf 925.5Kb application/pdf Visualizar/Abrir ou Pre-visualizar

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro simples

Buscar em toda a Biblioteca


Sobre o SBICafé

Navegar

Minha conta