Market Sentiment for SkinCare Product

Intro

Dalam membuat keputusan untuk merilis produk baru, perusahaan akan mempertimbangkan strategi untuk itu. Salah satunya yaitu memiliki penjadwalan yang matang dan mencari titik lemah dari kategori produk yang diproduksi sebelumnya*.
Dari permasalahan tersebut, dalam project ini akan menjawab penjadwalan dan menemukan titik lemah tersebut. Atau bisa disimpulkan sebagai berikut.

Menemukan sentimen pasar terhadap produk skincare sebelumnya yang kemudian bisa menjadi pertimbangan apakah produk yang akan dirilis bisa segera diluncurkan/ditahan.
Memunculkan word frequency dari sentimen positif/negatif terhadap produk lalu yang kemudian bisa menjadi pertimbangan untuk improvisasi produk kedepannya.

*Pada project ini, kategori skincare difokuskan pada kategori night cream (krim malam).

Dataset

Dataset yang digunakan adalah hasil scraping yang diambil dari website femaledaily.com pada kategori skincare dari berbagai macam produk sebanyak 7875 baris pada 18 September 2020.
Feature yang diambil adalah sebagai berikut.

Username - Nama pengguna
SkinCond_Age - Kondisi wajah & umur pengguna
Recommend - Apakah pengguna merekomendasikan produk/tidak
PostDate - Tanggal ulasan diunggah oleh pengguna
Review - Isi ulasan dari produk
Rating - Rating produk yang diberikan oleh pengguna, yang kemudian akan dijadikan sebagai target sentimen (1-2: Negatif; 3: Neutral; 4-5: Positive)

Exploratory Data

Insight: Dari dataset produk yang banyak diulas yaitu dari brand Wardah dan diikuti oleh brand The Body Shop

Insight: Dari grafik menunjukkan bahwa kebanyakan pengulas berada di umur 19-24. Atau bisa disimpulkan bahwa pengguna krim malam terbanyak berada di umur 19-24 dan diikuti oleh range umur 25-29.

Insight: Disimpulkan bahwa dataset timpang karena data tidak seimbang antara ulasan positif-netral-negatif.

Text Preprocessing

Pada text preprocessing, salah satu langkah yang dilakukan yaitu text cleaning. Berikut hasil text cleaning yang dimunculkan oleh wordcloud.

Modelling

Model final yang digunakan adalah logistic regression dengan parameter c = 1.62377673918872 dan pengurangan feature dari 3000+ menjadi 100 feature. Dengan nilai f1 negatif: 37%, netral: 22%, positif: 83%

Model bisa dikatakan bias karena data timpang (lebih banyak di sentimen positif, jadi banyak false positive yang masuk ke sentimen positif)
Untuk treatment selanjutnya akan digunakan deep learning untuk memperbaiki akurasi dari model.

fdhanh / market-sentiment-analysis-for-skincare-product Goto Github PK

market-sentiment-analysis-for-skincare-product's Introduction

Market Sentiment for SkinCare Product

Intro

Dataset

Exploratory Data

Text Preprocessing

Modelling

market-sentiment-analysis-for-skincare-product's People

Contributors

Watchers

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent