Giter Site home page Giter Site logo

bigdata_and_datascience's Introduction

BigData_and_DataScience

Base

it's course of Stepik with sertification

Suniy Intellekt

1- revolyutsiya -> agrar revolyutsiya -> 12000 yil 2- revolyutsiya -> fan revolyutsiyasi -> 500 yil 3- revolyutisya -> su'niy intellekt -> 10 yil

3-Revolyutsiya bu AI ( artificial Intelliegence )

  • arzon kompyuterlar
  • Massive data
  • open source code

CV - Computer Vision

Razpoznavaniya rechi

NLP

Big Data

3Vs*

  • Volume - katta hajmdagi ma'lumotlar to'plami paydo bo'lishi. - Pb, Zb

  • Velocity - Ma'lumotlar tezligi oshishi - 5G, 6G - patch, real time

  • Variety - Ma'lumotlarni xilma-xilligi va turlari ko'payishi - mobile, smm, trafik, IoT, smart-home,...

  • Volume ( obyom ) - Gb, Tb, Pb

  • velocity ( skorost ) - patch, real time

  • variety ( raznobraziya ) more data with mobile , smm, trafik

  • Variability

Work with Big Data

  1. Ma'limotlarni yig'ish -> Yandex metrics, Google metrics, IoT, smart watch, statistika, report

  2. Ma'lumotlarni boshqa ko'rinishga olib kelish -> Integratsiyalash, Analyst va Report tayyorlash

  3. Ma'lumotlarni Saqlash -> Excel, --> Amazon, SQL, MySql, --> Data Warehouse (Oracle, AmazonRedShift, MarkLogic) --> Data Lakes (Azure, Hadoop, Google Cloud, S3 )

  4. Ma'lumotlarni tahlil qilish -> Mathematical method -> regression, correlation, disperce

Machine Learning -> Tree, KNN, SVM, Random Forest, Adboost, Neuron

  1. Xulosalar qurish va tavsiyalar berish

ML alogritmlari

  1. Sbor Dannix ---> Yandex metriki, google metriki, IoT, smart watch,

  2. Pereobrabotka dannix -> intergratsiya and ....

  3. Xraneniya Dannix ---> Excel, --> Amazon, SQL, MySql, --> Data Warehouse (oracle, AmazonRedShift, MarkLogic) ---> Data Lakes (Azure, Hadoop, Goodle Cloud, S3 )

  4. Analiz dannix . Mathematical method --> regression, correlyatsion, disperce,

Machine Learning -> -> Tree, KNN, SVM, Random forest , Adboost, Neuron

  1. Postreeniya vivodov i recomendatsiyyii

Algorithms of ML

Прикрепленные файлы:

https://stepik.org/media/attachments/lesson/580046/diamonds_moded.xls

https://stepik.org/media/attachments/lesson/580046/movies.xls

Во время урока мы работали в программе Visual Studio Code. Это среда разработки от компании Microsoft, она доступна для скачивания в открытом доступе. Те же действия можно совершать прямо в браузере, ничего не скачивая - в Google Colaboratory. Для простоты обучения мы рекомендуем начать именно с Google Colaboratory, так как его интерфейс понятнее и комфортнее для освоения базовых навыков.

Инструкция:

  1. Открываем ссылку (https://colab.research.google.com/drive/14hyVLLtdth5_tyeIHhLx8n3VV8IGowXW#scrollTo=Q3OpRgkWjz8R).
  2. Скачиваем два прикрепленных файла.
  3. В Google Colaboratory слева нажимаем на папку "Файлы".
  4. Перемещаем туда оба скачанных файла.

Готово! Можно запускать, вносить изменения и играться с данными :)

Также делимся полезными ссылками, которые помогут глубже изучить алгоритмы машинного обучения.

Статьи:

Алгоритм решающего дерева - https://habr.com/ru/company/ods/blog/322534/

Алгоритм линейной регрессии - https://habr.com/ru/company/ods/blog/323890

Работа с пропусками - https://towardsdatascience.com/6-different-ways-to-compensate-for-missing-values-data-imputation-with-examples-6022d9ca0779

Работа с категориальными данными - https://towardsdatascience.com/categorical-encoding-using-label-encoding-and-one-hot-encoder-911ef77fb5bd

Алгоритм случайного леса - https://habr.com/ru/company/ods/blog/324402/

Градиентный бустинг - https://neurohive.io/ru/osnovy-data-science/gradientyj-busting/, https://alexanderdyakonov.files.wordpress.com/2017/06/book_boosting_pdf.pdf

Тюнинг LightGBM - https://lightgbm.readthedocs.io/en/latest/Parameters-Tuning.html, https://neptune.ai/blog/lightgbm-parameters-guide

Онлайн-курсы:

На русском:

https://ru.coursera.org/specializations/machine-learning-data-analysis?ranMID=40328&ranEAID=eWwXyydyhzs&ranSiteID=eWwXyydyhzs-_Ev3JOSfC3VxKmYU4Fud7A&siteID=eWwXyydyhzs-_Ev3JOSfC3VxKmYU4Fud7A&utm_content=10&utm_medium=partners&utm_source=linkshare&utm_campaign=eWwXyydyhzs

https://ru.coursera.org/learn/vvedenie-mashinnoe-obuchenie

На английском:

https://www.coursera.org/learn/machine-learning?ranMID=40328&ranEAID=eWwXyydyhzs&ranSiteID=eWwXyydyhzs-6rrm4vCLSzWHmlBKxMe4JQ&siteID=eWwXyydyhzs-6rrm4vCLSzWHmlBKxMe4JQ&utm_content=10&utm_medium=partners&utm_source=linkshare&utm_campaign=eWwXyydyhzs

https://www.youtube.com/watch?v=zcMnu-3wkWo&list=PLTB9VQq8WiaCBK2XrtYn5t9uuPdsNm7YE

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.