Projektna naloga pri predmetu Programiranje 1 na FMF
Analiziral bom Lego sete, ki so izšli v zadnjih ~petih letih s spletne strani brickset.com.
Opazoval bom naslednje podatke:
- tema
- število kock
- cena
- datum izdaje
- cena po kocki
- minifigs
- ocena
- dostopnost
- popularnost
Hipoteze:
- Lego vsako leto izda več setov
- Velikosti setov skozi leta
- ppp
- Povprečna cena kocke narašča skozi leta
- Seti z nižjim ppp vsebujejo več kock
- Najbolj izdane teme
- Minifigure
- Dražji seti vsebujejo več minifigur
- Cena minifigure skozi leta
- mapo
obdelani-podatki
, kjer sta shranjeni.json
in.csv
datoteki zbranih in obdelanih podatkov, - mapo
html-nalozeni-1999-2019
, ki vsebuje 486.html
datotek, ki sem jih naložil s spletne strani brickset.com in so namenjene obdelavi, - datoteki
urejanje_podatkov.py
inorodja.py
, ki predstavljata skripti za zajem in obdelavo podatkov.
Obdelani in urejeni podatki so shranjeni v datoteki bricksets-database-1999-2019.csv
in obsegajo kategorije:
- id
- varianta
- ime seta
- temo
- leto
- tip seta
- število vsebovanih figuric
- število kock
- vrsto pakiranja
- dostopnost
- US ceno in povprečno ceno na kocko v $
- EU ceno in povprečno ceno na kocko v €
- in čas izida v US in EU.
Naletel pa sem tudi na dve izjemi v zapisu posamičnih blokov v html datotekah med zajemanjem podatkov, ki za razliko od preostalih 11887 vnosov v svojih html datotekah nista imeli podanega tipa. Bloka teh dveh setov sem skopiral v datoteko izjemi-brez-podanega-tipa.html
in jima s funkcijo tip_seta
v skripti "ročno" podal njuna pravilna tipa.
Analiza podatkov je shranjena v datoteki lego_analiza.ipynb
, zraven pa je še datoteka pomozna_analiza.ipynb
v kateri je moj proces risanja grafov in nasploh razvijanja glavne analize podatkov v prvo omenjeni datoteki.