Giter Site home page Giter Site logo

ginodevops / coderhouse_datascience_-1proyectofinal Goto Github PK

View Code? Open in Web Editor NEW

This project forked from juanmcarini/coderhouse_datascience_proyectofinal

0.0 0.0 0.0 66.37 MB

Proyecto Final del curso "Data Science" de CoderHouse

Python 0.59% TeX 3.89% Jupyter Notebook 95.52%

coderhouse_datascience_-1proyectofinal's Introduction

Autores

Resumen

A lo largo de este proyecto, se ha trabajado sobre una Encuesta Anual de Hogares realizada por el Gobierno de la Ciudad de Buenos Aires para el año 2019. Sobre dicho dataset se ha realizado un análisis de datos exploratorio, definiendo y analizando sus variables y estableciendo correlaciones a nivel binario y multivariable. Finalmente, en pos de alcanzar los objetivos específicos del proyecto, se han utilizado modelos de clasificación.

El objetivo de aplicar modelos de clasificación ha sido encontrar el modelo que traiga mejores resultados a fin de poder predecir la variable Target, el Nivel Máximo Educativo, utilizando al resto de las variables.

En ese sentido, se ha implementado un árbol de clasificación y un bosque aleatorio, parametrizando, en cada uno de los casos, ciertas variables convenientes. Asimismo, para ambos modelos, se ha implementado algoritmos de optimización a fin de seleccionar los mejores parámetros para el problema de optimización y mitigar el overfitting del los modelos de partida.

Con respecto a las conclusiones alcanzadas, se han visto buenos resultados en los modelos optimizados con hiperparametros, los cuales han performado de manera esperada, alcanzando modelos robustos.

Abstract

Throughout this project, we have worked on an Annual Household Survey conducted by the Government of the City of Buenos Aires for the year 2019. An exploratory data analysis has been carried out on this dataset, defining and analyzing its variables and establishing correlations between them. Finally, in order to achieve the specific objectives of the project, classification models have been used.

The objective of applying classification models has been to find the model that brings the best results to predict the Target, the Highest Level of Education, using the rest of the variables.

In this sense, a classification tree and a random forest have been implemented, parameterizing, in each case, certain variables. Likewise, for both models, optimization algorithms have been implemented in order to select the best parameters for the optimization problem and mitigate the overfitting of the starting models.

Regarding the conclusions reached, good results have been seen in the models optimized with hyperparameters, which have performed as expected, reaching robust models.

Estructura de archivos

  • 🪐 Proyecto Final.ipynb: Jupyter Notebook del proyecto final, con código en PYthon

  • 📚 encuesta-anual-hogares-2019.csv: Base de datos con la que trabajaremos en el proyecto

  • 🗺️ comunas.geojson: Mapa con las comunas de la Ciudad Autónoma de Buenos Aires. Será útil para realizar gráficos

  • 🛠️🐍 Funciones: Lista de funciones en formato .py para su uso en el Jupyter notebook

    • Exploratory_Data_Analysis.py: Funciones para el análisis exploratorio de datos
    • Modelado.py: Funciones para la generación de modelos para su entrenamiento
  • 💹 Presentación

    • Presentación Proyecto Final: en formato .pdf y .tex
  • 📕 Informe

    • Informe Proyecto Final: en formato .pdf y .tex
    • CSV: Tablas utilizadas para el informe
    • Imágenes: Gráficos utilizados para el informe y la presentación

coderhouse_datascience_-1proyectofinal's People

Contributors

josesg998 avatar juanmcarini avatar lhukovsky avatar luciabuzzeo avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.