Giter Site home page Giter Site logo

business_text_mining's Introduction

Business Text Mining : Baking QnA Analysis

  • 이 git은 crawling과 analysis로 두 파트로 나누어져 있습니다.

Directories

Crawling

  1. chrome_driver : 크롬 드라이버가 있습니다. (windows and linux)

  2. error_logs : 중간에 멈췄을 시 이어서 크롤링할 때 어느 위치에서 시작해야하는지 URL을 기록하여 저장하는 폴더입니다.

Analysis

  1. nlp_data : 수업시간에 제공된 불용어사전입니다.

  2. data_baking : 베이킹 관련 질문게시판을 크롤링한 raw_data입니다.

  3. others : parameter optimizing을 위해 짠 코드입니다.

Codes

  1. helper_nlp.py : 분석에 필요한 과정을 함수화해둔 코드입니다.

  2. helper_crawling.py : 크롤링에 필요한 과정을 함수화해둔 코드입니다.

  3. nlp_analysis.py : 분석을 진행한 코드입니다.

  4. crawling_linux_baking_v2.py : 크롤링 과정을 진행하는 코드입니다.

  5. crawling_linux_baking_v2_cont.py : 크롤링 진행 중 중단시 해당 부분부터 이어서 진행하는 코드입니다.

실행방법

  1. 크롤링은 위에 써있듯이 두 가지 버전이 있습니다. 원래는 두 게시판을 크롤링하여 네 가지 버젼이 있었으나 분석에서는 baking만을 사용하였기 때문에 baking 게시판 크롤링만 남겨두었습니다. crawling_linux_baking_v2.py를 실행해 보시면 됩니다.

  2. 분석은 nlp_analysis.py만 보시면 됩니다.

Appendix

현재 남아있는 코드들은 실제 결과물 추출에 사용된 코드들만 남아있습니다. 실제 시도했던 모든 시도에 대한 코드는 staging 브랜치에 있습니다.

business_text_mining's People

Contributors

hyryou94 avatar dependabot[bot] avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.