Giter Site home page Giter Site logo

modelos's Introduction

Claro, aquí tienes un ejemplo de cómo podrías estructurar tu archivo README.md para cumplir con los requisitos de la actividad de Machine Learning Supervisado.


Actividad de Machine Learning Supervisado 🤖

Objetivo 🎯

Elegir un algoritmo de aprendizaje supervisado adecuado para un conjunto de datos específico y justificar la elección.


1. Elección de un Dataset 📊

  • Fuente del Dataset: Sleep Health and Lifestyle Dataset en Kaggle
  • Descripción:
    • Resumen del Dataset: El dataset consta de 400 filas y 13 columnas, cubriendo una amplia gama de variables relacionadas con el sueño y los hábitos diarios. Incluye detalles como género, edad, ocupación, duración del sueño, calidad del sueño, nivel de actividad física, niveles de estrés, categoría de IMC, presión arterial, frecuencia cardíaca, pasos diarios y la presencia o ausencia de trastornos del sueño.
    • Características Clave:
      • Métricas exhaustivas sobre el sueño
      • Factores del estilo de vida
      • Salud cardiovascular
      • Análisis de trastornos del sueño
    • Columnas del Dataset: ID de la persona, género, edad, ocupación, duración del sueño, calidad del sueño, nivel de actividad física, nivel de estrés, categoría de IMC, presión arterial, frecuencia cardíaca, pasos diarios, trastornos del sueño.
    • Aclaración: Los datos presentados son sintéticos y fueron creados con fines ilustrativos.

2. Exploración Inicial del Dataset 🕵️‍♂️

  • Dimensiones: 374 filas, 10 columnas
  • Tipo de Variables: Numéricas y Categóricas
  • Datos Faltantes: Ninguno en las columnas relevantes ("Heart Rate" y "Quality of Sleep")
  • Estadísticas Básicas: La frecuencia cardíaca varía de 50 a 100, la calidad del sueño se califica de 4 a 9.

3. Elección del Algoritmo 🤖

Para este conjunto de datos, se han probado dos algoritmos de aprendizaje supervisado:

  1. Regresión Lineal: Adecuado para problemas de regresión, en este caso, queríamos predecir la calidad del sueño basada en la duración del sueño.
  2. k-Vecinos más Cercanos (k-NN): Utilizado para clasificar la calidad del sueño basada en la frecuencia cardíaca.

4. Justificación de la Elección 🎯

Regresión Lineal:

  • Naturaleza del Problema: Regresión
  • Tipo y Distribución de los Datos: Datos continuos para la duración del sueño y calidad del sueño.
  • Tamaño del Dataset: 400 filas, lo suficientemente grande para entrenar el modelo.
  • Complejidad y Capacidad del Modelo: Modelo simple, pero efectivo para problemas de regresión.
  • Costo Computacional: Bajo
  • Métricas de Evaluación: MSE (Mean Squared Error) = 0.35 (considerado "aceptable" dada la escala de los datos)

k-NN:

  • Naturaleza del Problema: Clasificación
  • Tipo y Distribución de los Datos: Datos continuos para la frecuencia cardíaca y calidad del sueño.
  • Tamaño del Dataset: 400 filas, lo suficientemente grande para entrenar el modelo.
  • Complejidad y Capacidad del Modelo: Modelo simple y efectivo para problemas de clasificación.
  • Costo Computacional: Moderado
  • Métricas de Evaluación: Accuracy = 0.7333 (aproximadamente 73.33%)

5. Resultados (Opcional) 📈

  • Métricas de Evaluación: Obtuvimos una precisión del 73.33% en el conjunto de pruebas para el modelo k-NN, lo cual es bastante bueno para una primera iteración.

  • Visualizaciones: Generamos gráficos de dispersión y fronteras de decisión para visualizar cómo se ajusta el modelo k-NN a los datos. También comparamos los datos de entrenamiento y prueba para asegurar que el modelo no está sobreajustado.


6. Conclusión 🤔

La elección de k-NN para este dataset en particular resultó ser efectiva para la clasificación de la "Calidad del Sueño" en función de la "Frecuencia Cardíaca". La métrica de precisión obtenida respalda esta elección. Además, el ejercicio proporcionó experiencia invaluable en la exploración de datos, preprocesamiento, entrenamiento de modelos y evaluación, elementos esenciales en cualquier proyecto de ciencia de datos.

Sobre el Uso de Datos Sintéticos 📊

Es importante mencionar que para este proyecto se optó por utilizar un dataset sintético en lugar de uno real. La razón detrás de esta decisión es múltiple:

  1. Calidad de los Datos: Los datos sintéticos permiten tener un control más estricto sobre la calidad y estructura de los datos, lo que facilita el enfoque en el modelado en lugar de la limpieza de datos.

  2. Similitud con la Realidad: Aunque los datos son sintéticos, se diseñaron para reflejar relaciones y patrones que podrían encontrarse en un conjunto de datos real. Esto los hace útiles para fines educativos y de modelado.

  3. Eficiencia: Utilizar un dataset sintético de alta calidad nos permitió saltar la fase de limpieza de datos, que a menudo puede ser muy tiempo intensiva, y concentrarnos en la exploración de datos y el entrenamiento del modelo.

modelos's People

Contributors

codedspirit-dev avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.