Giter Site home page Giter Site logo

mongo-text-mining's Introduction

Text mining with MongoDB

서강대학교 데이터베이스 시스템(CSE4110) 프로젝트#3의 제출물

목적

  1. 프로젝트 제출물 아카이빙
  2. PEP8을 적용해 코드 다듬기
  3. 간단한 리팩토링

구성

  1. DBprj#3_20151615.docx : 간단한 mongoDB query 실행 결과 및 NoSQL의 특징 설명
  2. DBprj#3_20151615.py : 메인 로직
  3. wordList.txt : stop_word의 list를 저장한 파일

문제 정의

본 프로젝트에서는 텍스트 마이닝 기법 중 하나인 Apriori Algorithm을 이요하여 제공된 뉴스 기사들을 분석하고 뉴스 기사에서 주로 쓰이는 단어들을 알아내는 프로그램을 작성한다. 또한 뉴스 기사 분석을 위해 비정형 데이터를 다루기 쉬운 NoSQL 기반 데이터베이스인 MongoDB를 사용함으로써 NoSQL 데이터베이스의 사용법을 익힐 뿐 아니라 관계형 데이터베이스와 NoSQL 데이터베이스간의 차이점을 인식하는 것을 목적으로 한다.

뉴스 기사 전처리 과정

  1. 형태소 분석 및 불용어 처리
  2. 한 기사 내의 형태소 집합 구하기

Apriori 알고리즘 구현

  1. min sup을 만족시키는 frequent itemset 생성
  2. strong 연관 규칙 생성

사용 환경

서버 : Host - xxxxxxx.sogang.ac.kr / Port - xx
운영 체제 : Ubuntu 14.04.5 LTS
데이터베이스 : Mongodb 3.0.14
사용 언어 : PYTHON 2.7.6
라이브러리 : pymongo, MeCab
서버 계정 : xxxxxx
서버 비번 : xxxxxx
데이터베이스 계정 : xxxxxx
데이터베이스 비번 : xxxxxx

mongo-text-mining's People

Contributors

greatsumini avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.