Obs: a separação de dados de treino e de teste vai variar de cada desenvolvedor. veja 👉 Minerando Dados um exemplo
Semana de Data Science do Minerando Dados
- Coleta de Dados
- Limpeza e Formatação
- Análise e Exploração
- Criação de Modelo
- Interpretação de Resultado de Modelo
Vou pular algumas etapas e ir logo para a etapa 4
que tem foco na escolha de algoritmo vencedor.
Nessa etapa, aplicamos os algorimtos que se adequam com o nosso problema. Lembrando que nesse caso, nosso problema é prever valor de um imóvel baseado nos valores dos dados que já temos. Esse é um problema para algoritmo de aprendizado supervisionado
É importante definir uma base line para termos marco no nosso projeto
if num_quartos <= 4:
return dic_baseline.get('Pequeno')
elif num_quartos < 7:
return dic_baseline.get('Medio')
else:
return dic_baseline.get('Grande')
desta forma, clasificamos assim os imoveis em três categorias definido no código em cima
Performance do modelo avaliado com os dados de teste
erro quadrático: 6.205816494411828
Obs: esse modelo erra +6 ou -6
Performance do modelo avaliado com os dados de teste.
erro quadrático de: 4.460277295153906
Performance do modelo avaliado com os dados de teste
erro quadrático de: 4.643988873055277
Por último, mas nao menos importanbte, testamos o nosso
Performance do modelo avaliado com os dados de teste.
erro quadrático de: 3.3218209875713334
Note-se claramente que o Random Forest se saiu melhor que os demais algoritmos testados para o nosso problema
Desta forma, é com ele que terminamos a etapa 4
e decidimos a etapa 5
.
Psiu!!! essa escolha não quer dizer que o Random Forest é melhor que todos ou se sairá melhor que os restantes algoritmos. Mas, para esse problema ele se saí melhor que os os demais testados. Aliás, poderíamos usar o
GridSearchCV
com seus famosos hiperparâmetros o que provavelmente seria um braço de ferro bem interessante.