Giter Site home page Giter Site logo

marlanbar / master-thesis Goto Github PK

View Code? Open in Web Editor NEW
0.0 2.0 0.0 137.29 MB

Predicción de patogenicidad en polimorfismos de un sólo nucleótido usando Aprendizaje Automático

Jupyter Notebook 95.18% TeX 4.52% Python 0.21% Shell 0.01% R 0.08%
machine-learning snps genetics bioinformatics

master-thesis's Introduction

Predicción de patogenicidad en polimorfismos de un sólo nucleótido usando Aprendizaje Automático

El estudio de enfermedades de origen genético ha tenido un desarrollo constante y acelerado en los últimos años en parte gracias a nuevas técnicas de secuenciación del genoma, que permite el análisis del material genético de pacientes a nivel de exomas y genomas completos con costos cada vez más reducidos y accesibles. En este contexto, resulta de gran importancia la capacidad de identificar polimorfismos de un solo nucleótido (SNPs, por sus siglas en inglés) causales de enfermedades humanas y diferenciarlos respecto de aquellos con efecto inocuo para el organismo. Dada la gran cantidad de SNPs presentes en el genoma humano, esta línea de investigación ha cobrado un marcado interés por la comunidad científica en general, motivando esfuerzos interdisciplinarios, en particular de trabajos que subyacen en la frontera de las ciencias de la computación y las ciencias biológicas.

En el presente trabajo, mediante el uso de técnicas de aprendizaje automático supervisado convencionales hemos elaborado un método de predicción de patogenicidad para SNPs en regiones codificantes que resulten en un cambio de aminoácido, normalmente referidas como SNPs con cambio de sentido.

Nuestro modelo de clasificación binaria, se basa en las fuentes de Clinvar y Humsavar para clasificar el efecto patogénico de SNPs conocidos, y en distintas fuentes de información para extraer variables que caractericen los SNPs desde distintas aristas biológicas.

En particular hemos explorado la importancia relativa y el poder predictivo de variables que den a cuenta del cambio estructural producido por el cambio de aminoácido (variación de energía, superficie de exposición del aminoácido, entre otras), variables de tipo físico-químico (hidrofobicidad, aromaticidad, polaridad, etc) y de conservación a nivel genómico (PhyloP y PhastCons, por ejemplo). Evaluamos la importancia relativa de cada una de estas dimensiones aplicando técnicas clásicas de aprendizaje automático supervisado: Regresión Logística, Support Vector Machines y Random Forest. Finalmente, evaluamos la combinación de las variables con una técnica más avanzada de aprendizaje automático, XGBoost, con el que alcanzamos un AUC de 0.90.

master-thesis's People

Watchers

James Cloos avatar  avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.