- 이 git은 crawling과 analysis로 두 파트로 나누어져 있습니다.
-
chrome_driver : 크롬 드라이버가 있습니다. (windows and linux)
-
error_logs : 중간에 멈췄을 시 이어서 크롤링할 때 어느 위치에서 시작해야하는지 URL을 기록하여 저장하는 폴더입니다.
-
nlp_data : 수업시간에 제공된 불용어사전입니다.
-
data_baking : 베이킹 관련 질문게시판을 크롤링한 raw_data입니다.
-
others : parameter optimizing을 위해 짠 코드입니다.
-
helper_nlp.py : 분석에 필요한 과정을 함수화해둔 코드입니다.
-
helper_crawling.py : 크롤링에 필요한 과정을 함수화해둔 코드입니다.
-
nlp_analysis.py : 분석을 진행한 코드입니다.
-
crawling_linux_baking_v2.py : 크롤링 과정을 진행하는 코드입니다.
-
crawling_linux_baking_v2_cont.py : 크롤링 진행 중 중단시 해당 부분부터 이어서 진행하는 코드입니다.
-
크롤링은 위에 써있듯이 두 가지 버전이 있습니다. 원래는 두 게시판을 크롤링하여 네 가지 버젼이 있었으나 분석에서는 baking만을 사용하였기 때문에 baking 게시판 크롤링만 남겨두었습니다. crawling_linux_baking_v2.py를 실행해 보시면 됩니다.
-
분석은 nlp_analysis.py만 보시면 됩니다.
현재 남아있는 코드들은 실제 결과물 추출에 사용된 코드들만 남아있습니다. 실제 시도했던 모든 시도에 대한 코드는 staging 브랜치에 있습니다.