Milestones ini dibuat guna mengevaluasi pembelajaran pada Hacktiv8 Data Science Fulltime Program khususnya pada Phase 0.
Kamu adalah seorang Data Analyst yang akan mengerjakan projek besar untuk menyelesaikan suatu permasalahan client dan client kamu butuh sekali hasil analisa datamu menggunakan statistik dan dashboard visualisasi data untuk membantu mereka menyelesaikan masalah.
-
Pilihlah satu topik bebas dan buat problem statement terlebih dahulu menggunakan metode SMART.
-
Dataset dibebaskan dari sumber manapun (BigQuery, Kaggle, BPS, dll.) dan berformat apapun (csv, excel, json, sql query, dll.) NOTE: Wajib mencantumkan sumber referensi data pada bagian
Data Loading
. -
Sebelum menentukan tabel, kolom, atau hal lain dalam dataset mana yang akan dijadikan analisis dan visualisasi data, lakukan identifikasi dan penjabaran masalah supaya dapat memudahkan kamu dalam melakukan analisis. Kamu bisa menggunakan metode apapun seperti analisis SWOT, Fish bone diagram, 5W+1H, dsb.
-
Contoh:
-
Problem Statement:
Mengetahui Preferensi dan Perilaku Konsumsi Makanan di Area Urban di Indonesia dalam kurun waktu tahun 2021
-
Penjabaran masalah dengan metode 5W+1H:
- Kota mana dengan rata-rata % pengeluaran makan paling besar?
- Bagaimana perilaku pemilihan makanan berdasarkan harga terhadap social class masyarakat?
- Apakah tingkat pendidikan sarjana memiliki preferensi memilih makanan-makanan yang sehat?
- Apakah warga DKI Jakarta masih mengonsumsi makanan tradisional?
- Usia berapa saja yang masih mengonsumsi makanan tradisional?
- dsb.
-
Pertanyaan-pertanyaan/penjabaran masalah di atas dapat dijawab dengan data visualisasi dan analisis statistik.
- Setelah melakukan identifikasi dan penjabaran masalah, tentukan metrik/data apa saja yang diperlukan lalu tarik data yang diperlukan dari dataset yang sudah ditentukan menggunakan SQL.
Cantumkan semua query yang dibuat untuk menarik semua data yang diperlukan dalam milestone ini
. - Perlu diperhatikan bahwa penjabaran masalah untuk dijawab menggunakan data visualisasi dan analisis statistik HARUS mengikuti kriteria berikut:
- Minimal terdapat
6 penjabaran
masalah dimana 4 penjabaran untukvisualisasi data
, 1 penjabaran untukstatistik deskriptif
, dan 1 penjabaran untukstatistik inferensial
.
- Untuk
Data Visualisasi
dibebaskan menggunakan tipe visualisasi (batang, garis, dsb) dan library (matplotlib, pyplot, seaborn, dsb) apapun, disesuaikan dengan penjabaran masalahnya.Minimal 4 visualisasi sesuai dengan jumlah minimum penjabaran untuk bagian visualisasi data
. WAJIB memberikan insight di tiap visualisasi data. - Untuk
Statistik Deskriptif
, pilih minimal salah satu perhitungan/analisis statistik deskriptif seperti central tendency, measure of variance, outlier analysis, distribution, dsb.Sesuaikan dengan penjabaran masalah yang ditentukan
. - Untuk
Statistik Inferensial
, pilih minimal salah satu perhitungan/analisis statistik inferensial seperti confidence interval, statistical significance, statistical testing, hypothesis testing: one sample, two sample independent, paired test, ANOVA, chi-square, dsb.Sesuaikan dengan penjabaran masalah yang ditentukan
. - Output dari milestone ini adalah dashboard data visualisasi menggunakan
Tableau Public
atauGoogle Data Studio
dan analisis serta pengolahan data dijupyter notebook
.
-
Lakukan data cleaning dan preprocessing pada notebook
-
Notebook harus mengikuti format berikut:
-
Perkenalan
Bab pengenalan harus diisi dengan identitas.
-
Identifikasi Masalah
Bab ini harus menyantumkan topik permasalahan, problem statement, latar belakang, serta penjabaran masalah yang ingin dianalisis menggunakan metode statistik dan data Visualisasi.
-
Data Loading
Bagian ini berisi proses data loading dan eksplorasi data sederhana. Cantumkan query SQL masing-masing data yang di-load jika menggunakan dari BigQuery atau server SQL lainnya. Tampilkan pulai datanya.
-
Data Cleaning
Bagian ini berisi proses penyiapan data berupa data cleaning sebelum dilakukan explorasi data lebih lanjut. Proses cleaning dapat berupa memberi nama baru untuk setiap kolom, mengisi missing values, menghapus kolom yang tidak dipakai, dan lain sebagainya.
-
Analisis dan perhitungan
Bagian ini berisi proses analisis, penjelasan, perhitungan statistik deskriptif, inferensial, serta pembuatan visualisasi data. Untuk visualisasi data wajib memberikan insight di tiap visualisasinya.
-
Pengambilan Kesimpulan
Pada bab terakhir ini, harus berisi kesimpulan yang mencerminkan solusi/rekomendasi/jawaban atas permasalahan yang diangkat serta menarik benang merah dari seluruh analisis dan perhitungan secara singkat, jelas, dan padat.
-
Simpan notebook dengan judul h8dsft_Milestone1_.ipynb, misal h8dsft_Milestone1_raka_ardhi.ipynb
- Dashboard dibuat menggunakan
Tableau
atauGoogle Data Studio
(Pilih salah satu). - Dashboard yang dibuat terdiri dari 2 bagian :
Visualisasi
danStatistical Analysis
yang dapat dibuat dalam 1 halaman atau multi halaman. - Untuk bagian Visualisasi :
- Minimal ada 4 figure/visualisasi data yang ditampilkan dalam halaman
Visualisasi
yang sesuai dengan yang dibuat pada Notebook. - Minimal ada 1 interactivity pada dashboard
- Tidak perlu menulis insightnya, dashboard visualisasi sejatinya hanya kumpulan visualisasi data
- Apabila jenis plot pada dashboard dengan di Python berbeda, dari segi jenis dan hasil, tidak masalah jika lampirkan plot dari dashboard ke notebook dan tetap tampilkan data yang sudah dipreprocess pada notebook.
- Untuk bagian Statistical Analysis:
- Tulis proses analisis statistik deskriptif dan inferential yang dilakukan di notebook dari masalah yang diangkat hingga kesimpulan dari hasil analisis statistik.
- Presentasikan dashboard yang telah dibuat pada P1W1D4PM.
- Tambahkan URL dashboard di bagian paling atas
.ipynb
dan di README. - Tidak adanya URL dashboard di file .ipynb akan menyebabkan tidak dinilainya deployment Streamlit.
- Push Assigment yang telah dibuat ke akun Github masing-masing student dan Github Classroom.
Total Points : 60
Catatan : Penilaian Milestone juga dapat dipengaruhi oleh aktivitas student selama Phase 0 berlangsung, baik sesi kelas maupun sesi mentoring dengan buddy-nya masing-masing sehingga terdapat kemungkinan adanya penambahan atau pengurangan nilai diluar rubric yang telah disebutkan diatas.