* 신백균 지음 | 골든래빗(주)
* 38,000원 | 652쪽
* 미리보기 | 공략집(with 미니맵) | 정오표
* 구매처 : 교보문고, 예스24, 알라딘, 인터파크
★ 문제해결 방식에 정답은 없어도 패턴은 있습니다.
어떤 일이든 일정 수준에 도달하면 경험적으로 최적화된 패턴이 생기기 마련입니다. 이 책에는 수많은 캐글 수상자의 노트북을 리팩터링하며 찾아낸 공통된 패턴이 담겨 있습니다. 이 책과 함께 체계적인 머신러닝·딥러닝 문제해결 프로세스를 숙달해보세요. 단순 따라하기에서 벗어나, 어떤 점을 분석해야 하는지, 분석 결과를 어떻게 적용하는지, 이 기법이 왜 유용하고 어떻게 활용하는지까지 체계적으로 알려드립니다. 엄선한 7가지 대회로 기본기와 문제해결 능력을 확실하게 길러드립니다.
그리고 특별 선물 몇 가지!
- 공략집(with 미니맵) : 책의 내용을 가장 빠르고 효율적으로 체득하시길 바라는 마음에서 별책부록으로 간단한 공략집을 준비했습니다.
- 체크리스트 : 문제해결 과정에서 짚어봐야 할 사항들을 프로세스 단계별로 정리한 표입니다.
자유롭게 수정·개선하여 여러분만의 비밀 무기로 활용해주세요.
저희가 준비한 선물이 이 책을 학습하는 데,
나아가 더 나은 데이터 과학자/머신러닝 엔지니어로 성장하는 데 조금이나마 보탬이 되기를 바랍니다.
캐글 사이트의 UI는 언제든 예고 없이 변경될 수 있으므로 1장, 2장, 6.2절의 내용을 온라인 문서로 공개해뒀습니다. 책의 설명과 달라져서 진행하기 어렵다면 이 문서를 참고해주세요.
- 4장. 데이터를 한눈에 : 주요 시각화 그래프
- 5장. 다시 살펴보는 머신러닝 주요 개념
- 회귀 평가지표 값 계산 : https://www.kaggle.com/werooring/ch5-regression-evaluation-metric
- 피처 스케일링 : https://www.kaggle.com/werooring/ch5-feature-scaling
- 교차 검증 : https://www.kaggle.com/werooring/ch5-cross-validation
- 선형 회귀 모델 : https://www.kaggle.com/werooring/ch5-linear-regression
- 결정 트리 : https://www.kaggle.com/werooring/ch5-decision-tree
- 랜덤 포레스트 : https://www.kaggle.com/werooring/ch5-randomforest
- 베이지안 최적화 : https://www.kaggle.com/werooring/ch5-bayesian-optimization
- 6장. [경진대회] 자전거 대여 수요 예측
- 탐색적 데이터 분석 : https://www.kaggle.com/werooring/ch6-eda
- 베이스라인 모델 : https://www.kaggle.com/werooring/ch6-baseline
- 성능 개선 : https://www.kaggle.com/werooring/ch6-modeling
- 환경 세팅된 노트북 양식 : https://www.kaggle.com/werooring/ch6-notebook
- 7장. [경진대회] 범주형 데이터 이진분류
- 탐색적 데이터 분석 : https://www.kaggle.com/werooring/ch7-eda
- 베이스라인 모델 : https://www.kaggle.com/werooring/ch7-baseline
- 성능 개선 I : https://www.kaggle.com/werooring/ch7-modeling
- 성능 개선 II : https://www.kaggle.com/werooring/ch7-modeling2
- 환경 세팅된 노트북 양식 : https://www.kaggle.com/werooring/ch7-notebook
- 8장. [경진대회] 안전 운전자 예측
- 탐색적 데이터 분석 : https://www.kaggle.com/werooring/ch8-eda
- 베이스라인 모델 : https://www.kaggle.com/werooring/ch8-baseline
- 성능 개선 I : https://www.kaggle.com/werooring/ch8-lgb-modeling
- 성능 개선 II : https://www.kaggle.com/werooring/ch8-xgb-modeling
- 성능 개선 III : https://www.kaggle.com/werooring/ch8-ensemble
- 환경 세팅된 노트북 양식 : https://www.kaggle.com/werooring/ch8-notebook
- 9장. [경진대회] 향후 판매량 예측
- 탐색적 데이터 분석 : https://www.kaggle.com/werooring/ch9-eda
- 베이스라인 모델 : https://www.kaggle.com/werooring/ch9-baseline
- 성능 개선 : https://www.kaggle.com/werooring/ch9-modeling
- 환경 세팅된 노트북 양식 : https://www.kaggle.com/werooring/ch9-notebook
- 11장. [경진대회] 항공 사진 내 선인장 식별
- 탐색적 데이터 분석 : https://www.kaggle.com/werooring/ch11-eda
- 베이스라인 모델 : https://www.kaggle.com/werooring/ch11-baseline
- 성능 개선 : https://www.kaggle.com/werooring/ch11-modeling
- 한 걸음 더 : https://www.kaggle.com/werooring/ch11-modeling2
- 환경 세팅된 노트북 양식 : https://www.kaggle.com/werooring/ch11-notebook
- 12장. [경진대회] 병든 잎사귀 식별
- 탐색적 데이터 분석 : https://www.kaggle.com/werooring/ch12-eda
- 베이스라인 모델 : https://www.kaggle.com/werooring/ch12-baseline
- 성능 개선 : https://www.kaggle.com/werooring/ch12-modeling
- 한 걸음 더 : https://www.kaggle.com/werooring/ch12-modeling2
- 환경 세팅된 노트북 양식 : https://www.kaggle.com/werooring/ch12-notebook
- 13장. [데이터셋] 흉부 엑스선 기반 폐렴 진단
- 탐색적 데이터 분석 : https://www.kaggle.com/werooring/ch13-eda
- 베이스라인 모델 : https://www.kaggle.com/werooring/ch13-baseline
- 성능 개선 : https://www.kaggle.com/werooring/ch13-modeling
- 환경 세팅된 노트북 양식 : https://www.kaggle.com/werooring/ch13-notebook
- 1부. 머신러닝 레벨업의 지름길, 캐글
- 01장. 왜 캐글인가?
- 1.1 왜 캐글을 해야 하는가?
- 1.2 캐글 구성요소
- 1.3 캐글러 등급
- ___ 학습 마무리
- 02장. 캐글 정복 첫걸음
- 2.1 캐글 가입
- 2.2 경진대회 참여
- 2.3 주피터 노트북 설정
- 2.4 결과 제출하기
- 2.5 컨트리뷰터 되기
- 2.6 예제 코드 캐글 노트북 복사하기
- ___ 학습 마무리
- 03장. 문제해결 프로세스 및 체크리스트
- 3.1 머신러닝 문제해결 프로세스
- 3.2 머신러닝 문제해결 체크리스트
- 3.3 딥러닝 문제해결 프로세스
- 3.4 딥러닝 문제해결 체크리스트
- 04장. 데이터를 한눈에 : 주요 시각화 그래프
- 4.1 데이터 종류
- 4.2 탐색적 데이터 분석과 그래프
- 4.3 수치형 데이터 시각화
- 4.4 범주형 데이터 시각화
- 4.5 데이터 관계 시각화
- 01장. 왜 캐글인가?
- 2부. 머신러닝 문제해결
- 05장. 다시 살펴보는 머신러닝 주요 개념
- 5.1 분류와 회귀
- 5.2 분류 평가지표
- 5.3 데이터 인코딩
- 5.4 피처 스케일링
- 5.5 교차 검증
- 5.6 주요 머신러닝 모델
- 5.7 하이퍼파라미터 최적화
- 06장. [경진대회] 자전거 대여 수요 예측
- 6.1 경진대회 이해
- 6.2 경진대회 접속 방법 및 세부 메뉴
- 6.3 탐색적 데이터 분석
- ___ 분석 정리 및 모델링 전략
- 6.4 베이스라인 모델
- 6.5 성능 개선 I : 릿지 회귀 모델
- 6.6 성능 개선 II : 라쏘 회귀 모델
- 6.7 성능 개선 III : 랜덤 포레스트 회귀 모델
- ___ 학습 마무리
- ___ 실전 문제
- 07장. [경진대회] 범주형 데이터 이진분류
- 7.1 경진대회 이해
- 7.2 탐색적 데이터 분석
- ___ 분석 정리 및 모델링 전략
- 7.3 베이스라인 모델
- 7.4 성능 개선 I
- 7.5 성능 개선 II
- ___ 학습 마무리
- ___ 실전 문제
- 08장. [경진대회] 안전 운전자 예측
- 8.1 경진대회 이해
- 8.2 탐색적 데이터 분석
- ___ 분석 정리 및 모델링 전략
- 8.3 베이스라인 모델
- 8.4 성능 개선 I : LightGBM 모델
- 8.5 성능 개선 II : XGBoost 모델
- 8.6 성능 개선 III : LightGBM과 XGBoost 앙상블
- ___ 학습 마무리
- 09장. [경진대회] 향후 판매량 예측
- 9.1 경진대회 이해
- 9.2 탐색적 데이터 분석
- ___ 분석 정리 및 모델링 전략
- 9.3 베이스라인 모델
- 9.4 성능 개선
- 9.5 머신러닝 경진대회를 마치며
- ___ 학습 마무리
- 05장. 다시 살펴보는 머신러닝 주요 개념
- 3부. 딥러닝 문제해결
- 10장. 다시 살펴보는 딥러닝 주요 개념
- 10.1 인공 신경망
- 10.2 합성곱 신경망(CNN)
- 10.3 성능 향상을 위한 딥러닝 알고리즘
- 11장. [경진대회] 항공 사진 내 선인장 식별
- 11.1 경진대회 이해
- 11.2 탐색적 데이터 분석
- ____ 분석 정리 및 모델링 전략
- 11.3 베이스라인 모델
- 11.4 성능 개선
- ____ 학습 마무리
- 12장. [경진대회] 병든 잎사귀 식별
- 12.1 경진대회 이해
- 12.2 탐색적 데이터 분석
- ____ 분석 정리 및 모델링 전략
- 12.3 베이스라인 모델
- 12.4 성능 개선
- ____ 학습 마무리
- ____ 실전 문제
- 13장. [데이터셋] 흉부 엑스선 기반 폐렴 진단
- 13.1 경진대회 이해
- 13.2 탐색적 데이터 분석
- ____ 분석 정리 및 모델링 전략
- 13.3 베이스라인 모델
- 13.4 성능 개선
- ____ 학습 마무리
- 10장. 다시 살펴보는 딥러닝 주요 개념
- 부록 A. 캐글 생활백서
- A.1 피처 요약표
- A.2 메모리 절약을 위한 데이터 다운캐스팅
- A.3 디버깅을 위한 간단한 팁
- A.4 훈련된 모델 저장하고 불러오기