Giter Site home page Giter Site logo

datascrapingcrawling's Introduction

Data Scraping

용어 설명

  • Scraping : 각각의 페이지에서 정보를 추출하는 행위
  • Crawling : 자동으로 정보 추출을 반복하는 프로그램

Web Site 저작권

  • 저작권 Site 정책 : url/robots.txt (예: www.google.com/robots.txt )
  • 한국법 : 2016년 재정된 저작권법 제 30조: 정보 해석을 목적으로 저작물을 복제/번안 가능

사람처럼 보이기 위한 방법

  • 사이트를 너무 빠르게 이동 하지 마세요. (sleep 사용)
  • header를 바꿔서 사용하세요 .
  • 쿠키가 함께 전송 되는지 확인 하세요 .
  • 폼을 전송하거나 POST요청을 보낼 때는 서버에서 기대하는 모든 데이터를 보내세요 .
    • 크롬 개발자 툴에서 Network Tab을 보면 확인 가능 합니다.
    • 폼의 hidden 필드를 확인 하면 알 수 있습니다.
  • 403 Forbidden Error를 받는다면 IP가 차단 되었을 확률이 높습니다.
    • 새로운 IP로 요청을 시도 하여야 하므로 가까운 까페에 가서 스크래핑을 수행하세요 ^^

위에 내용을 모두 만족 하기 위해서 아래와 같이 순차적으로 정리 한 내용 입니다.

목차
01. requests 와 beautifulesoup 을 사용하여 naver news 가져오기

02. urllib 와 requests을 사용하여 Naver NMT 번역 호출 하기

03. Naver NMT API를 통한 파일 번역

04.requests를 사용한 네이버 웹툰 이미지 저장하기

05.requests를 이용한 file upload 06. beautifulsoup의 parsing하는 여러가지 함수 사용

07. beautifulsoup의 parsing하는 여러가지 함수 사용 2

08. BeautifulSoup을 사용해서 팟빵 mp3 다운로드 하기

09.Selenium을 사용한 접근 그리고 로그인 하기

Author

ChangWookJun / @changwookjun ([email protected])

datascrapingcrawling's People

Contributors

changwookjun avatar jun-changwook avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.