Giter Site home page Giter Site logo

nsmc-zeppelin-notebook's Introduction

Zeppelin 노트북: NSMC Word2Vec & Sentiment Classification

2017년 6월 27일 (화) Spark Day 2017의 세션 Spark & Zeppelin을 활용한 한국어 텍스트 분류 발표에 사용된 노트북입니다.

슬라이드: Spark & Zeppelin을 활용한 한국어 텍스트 분류

노트북 개요

네이버 영화 리뷰 데이터셋에 대해 Word2Vec을 적용해보고 감정 분류를 합니다. (영화 리뷰가 긍정적인지 부정적인지)

미리 보기: ZEPL Viewer

전체 목록 (총 7개의 노트)

Naver Sentiment Movie Corpus

네이버 영화 리뷰 데이터셋입니다. 총 20만개의 리뷰로 구성되어 있으며 긍정적인 리뷰는 1, 부정적인 리뷰는 0으로 labeling 되어 있습니다. 자세한 내용은 아래의 출처를 참고해주세요!

출처: https://github.com/e9t/nsmc

사용법

Spark와 Zeppelin은 설치하셨다고 가정합니다.

1. 노트북 추가하기

저장소를 원하는 곳에 복제합니다.

git clone [email protected]:uosdmlab/playdata-zeppelin-notebook.git

방법1. 노트북 복사

복제한 저장소의 notebook 디렉터리 안의 내용물들을 $ZEPPELIN_HOME/notebook/ 밑으로 복사

방법2. 노트북 폴더 설정

기존에 사용하던 노트들과 저장소의 노트들이 섞이는 것이 싫다면 추천하는 방법!

$ZEPPELIN_HOME/conf/zeppelin-env.sh 파일을 열어 다음과 같은 라인 추가.

export ZEPPELIN_NOTEBOOK_DIR="<저장소경로>/notebook"

추가 후 Zeppelin을 재시작합니다.

$ZEPPELIN_HOME/bin/zeppelin-daemon.sh restart

다시 원래 노트들을 사용하려면 $ZEPPELIN_HOME/conf/zeppelin-env.sh에 추가한 라인을 지우거나 주석처리하고 Zeppelin을 재실행하시면 됩니다.

2. Dependency 추가

한국어 형태소 분석기 spark-nkp을 사용하기 위해 Spark interpreter dependency에 다음과 같이 추가해주세요.

artifact com.github.uosdmlab:spark-nkp_2.11:0.2.1

Issue

GitHub issue로 올려주셔도 되고(한국어 가능), 아래 주소로 메일주셔도 됩니다.

김태준([email protected])

Data Mining Lab, University of Seoul

nsmc-zeppelin-notebook's People

Contributors

tae-jun avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.