Я выбрал набор данных Beginner's Classification Dataset для выполнения лабораторной работы. Требуется предсказать, успешным ли будет изучение нового хобби человеком, в зависимости от его возраста и уровня заинтересованности.
В ЛР 0 проведена обработка и анализ данных:
- анализ на наличие нецельных данных
- проверка типа признаков (все они оказались числовыми)
- анализ попарных зависимостей
- анализ корреляционной матрицы
- анализ распределений данных
- удаление выбросов
В ЛР 1 реализованы четыре алгоритма классического машинного обучения:
- метод k-ближайших соседей
- логистическая регрессия
- метод опорных векторов
- наивный байесовский классификатор
Каждый из них сравнивается с готовым из библиотеки scikit-learn.
Полученая точность 80-90% объясняется хорошей разделимостью данных, но данных в датасете достаточно мало, из-за чего провести полноценный анализ было проблематично.