Dalam membuat keputusan untuk merilis produk baru, perusahaan akan mempertimbangkan strategi untuk itu.
Salah satunya yaitu memiliki penjadwalan yang matang dan mencari titik lemah dari kategori produk yang diproduksi sebelumnya*.
Dari permasalahan tersebut, dalam project ini akan menjawab penjadwalan dan menemukan titik lemah tersebut. Atau bisa disimpulkan sebagai berikut.
- Menemukan sentimen pasar terhadap produk skincare sebelumnya yang kemudian bisa menjadi pertimbangan apakah produk yang akan dirilis bisa segera diluncurkan/ditahan.
- Memunculkan word frequency dari sentimen positif/negatif terhadap produk lalu yang kemudian bisa menjadi pertimbangan untuk improvisasi produk kedepannya.
*Pada project ini, kategori skincare difokuskan pada kategori night cream (krim malam).
Dataset yang digunakan adalah hasil scraping yang diambil dari website femaledaily.com pada kategori skincare dari berbagai macam produk sebanyak 7875 baris pada 18 September 2020.
Feature yang diambil adalah sebagai berikut.
- Username - Nama pengguna
- SkinCond_Age - Kondisi wajah & umur pengguna
- Recommend - Apakah pengguna merekomendasikan produk/tidak
- PostDate - Tanggal ulasan diunggah oleh pengguna
- Review - Isi ulasan dari produk
- Rating - Rating produk yang diberikan oleh pengguna, yang kemudian akan dijadikan sebagai target sentimen (1-2: Negatif; 3: Neutral; 4-5: Positive)
Insight: Dari dataset produk yang banyak diulas yaitu dari brand Wardah dan diikuti oleh brand The Body Shop
Insight: Dari grafik menunjukkan bahwa kebanyakan pengulas berada di umur 19-24. Atau bisa disimpulkan bahwa pengguna krim malam terbanyak berada di umur 19-24 dan diikuti oleh range umur 25-29.
Insight: Disimpulkan bahwa dataset timpang karena data tidak seimbang antara ulasan positif-netral-negatif.
Pada text preprocessing, salah satu langkah yang dilakukan yaitu text cleaning. Berikut hasil text cleaning yang dimunculkan oleh wordcloud.
Model final yang digunakan adalah logistic regression dengan parameter c = 1.62377673918872 dan pengurangan feature dari 3000+ menjadi 100 feature.
Dengan nilai f1 negatif: 37%, netral: 22%, positif: 83%
Model bisa dikatakan bias karena data timpang (lebih banyak di sentimen positif, jadi banyak false positive yang masuk ke sentimen positif)
Untuk treatment selanjutnya akan digunakan deep learning untuk memperbaiki akurasi dari model.