The boston_house_price from rico2290

Data App - Prevendo Valores de Imóveis

Um App utilizado para exibir a solução de Machine Learning para o problema de predição de valores de imóveis da cidade de Boston

Separamos `80%` de base de dados para treino e `20%` para teste

Obs: a separação de dados de treino e de teste vai variar de cada desenvolvedor. veja 👉 Minerando Dados um exemplo

Semana de Data Science do Minerando Dados

Processo de Data Science

Etapas:

Coleta de Dados
Limpeza e Formatação
Análise e Exploração
Criação de Modelo
Interpretação de Resultado de Modelo

Vou pular algumas etapas e ir logo para a etapa 4 que tem foco na escolha de algoritmo vencedor. Nessa etapa, aplicamos os algorimtos que se adequam com o nosso problema. Lembrando que nesse caso, nosso problema é prever valor de um imóvel baseado nos valores dos dados que já temos. Esse é um problema para algoritmo de aprendizado supervisionado

Definição da Baseline

É importante definir uma base line para termos marco no nosso projeto

Nossa Baseline foi definida da seguinte forma:

  if num_quartos <= 4:
    return dic_baseline.get('Pequeno')
  elif num_quartos < 7:
    return dic_baseline.get('Medio')
  else:
    return dic_baseline.get('Grande')

desta forma, clasificamos assim os imoveis em três categorias definido no código em cima

Apos o treinamento, obtemos :

Performance do modelo avaliado com os dados de teste

erro quadrático: 6.205816494411828

Obs: esse modelo erra +6 ou -6

Regressão Linear

Performance do modelo avaliado com os dados de teste.

erro quadrático de: 4.460277295153906

Decision Tree

Performance do modelo avaliado com os dados de teste

erro quadrático de: 4.643988873055277

Por último, mas nao menos importanbte, testamos o nosso

Random Forest

Performance do modelo avaliado com os dados de teste.

erro quadrático de: 3.3218209875713334

Note-se claramente que o Random Forest se saiu melhor que os demais algoritmos testados para o nosso problema Desta forma, é com ele que terminamos a etapa 4 e decidimos a etapa 5.

Psiu!!! essa escolha não quer dizer que o Random Forest é melhor que todos ou se sairá melhor que os restantes algoritmos. Mas, para esse problema ele se saí melhor que os os demais testados. Aliás, poderíamos usar o GridSearchCV com seus famosos hiperparâmetros o que provavelmente seria um braço de ferro bem interessante.

rico2290 / boston_house_price Goto Github PK

boston_house_price's Introduction

Data App - Prevendo Valores de Imóveis

Um App utilizado para exibir a solução de Machine Learning para o problema de predição de valores de imóveis da cidade de Boston

Separamos 80% de base de dados para treino e 20% para teste

Obs: a separação de dados de treino e de teste vai variar de cada desenvolvedor. veja 👉 Minerando Dados um exemplo

Semana de Data Science do Minerando Dados

Processo de Data Science

Etapas:

Definição da Baseline

Nossa Baseline foi definida da seguinte forma:

Apos o treinamento, obtemos :

Regressão Linear

Decision Tree

Random Forest

boston_house_price's People

Contributors

Stargazers

Watchers

boston_house_price's Issues

Recommend Projects

Recommend Topics

Recommend Org

Separamos `80%` de base de dados para treino e `20%` para teste