Giter Site home page Giter Site logo

lovit / soyspacing Goto Github PK

View Code? Open in Web Editor NEW
141.0 11.0 34.0 2.14 MB

띄어쓰기 오류 교정 라이브러리입니다. CRF 와 같은 머신러닝 알고리즘이 아닌, 직관적인 접근법으로 띄어쓰기를 교정합니다.

Python 100.00%
text-processing nlp korean-nlp noise-cancellation spacing

soyspacing's People

Contributors

lovit avatar rrbb014 avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

soyspacing's Issues

count-base_spacing_tutorial 오류메시지

tutorial 의 제일 마지막줄에서 에러가 나네요..
실행환경과 관련이 있을까요?

model.correct(sent, verbose, mc, ft, nt, st, rules=rule_dict)

=====>

Input: ? ? ? ? ? ? ? 1 ? ? ? ? ? ? ? ? ? 1

TypeError Traceback (most recent call last)
in ()
----> 1 model.correct(sent, verbose, mc, ft, nt, st, rules=rule_dict)

~/anaconda3/envs/tensorflow/lib/python3.6/site-packages/soyspacing/countbase/_countbase.py in correct(self, doc, sep, verbose, min_count, force_abs_threshold, nonspace_threshold, space_threshold, space_importancy, rules, debug)
317 if verbose:
318 self.print_tags(tags, head = 'Input:')
--> 319 print(self.space(chars, tags, sep))
320
321 # rule-based tagging

~/anaconda3/envs/tensorflow/lib/python3.6/site-packages/soyspacing/countbase/_countbase.py in space(self, chars, tags, sep)
268
269 def space(self, chars, tags, sep=' '):
--> 270 return ''.join([c+sep if t==1 else c for c,t in zip(chars, tags)]).strip()
271
272

~/anaconda3/envs/tensorflow/lib/python3.6/site-packages/soyspacing/countbase/_countbase.py in (.0)
268
269 def space(self, chars, tags, sep=' '):
--> 270 return ''.join([c+sep if t==1 else c for c,t in zip(chars, tags)]).strip()
271
272

TypeError: must be str, not bool

학습시간

실제 학습시간은 어떻게 계산하나요?

usb메모리 => usb 메모리

usb메모리usb 메모리 로 분리하도록 하고 싶은데요.

학습 데이터를 어떻게 준비하면 될까요?

3단우산도 역시 띄어져야 하고요.

학습용 txt 파일은 따로 권장되는 입력 방식이 없나요 ? (줄바꿈 이라던지)

안녕하세요 ! 우선 좋은 모델 만들어주셔서 감사합니다 : )
띄어쓰기 때문에 간단한 리뷰 데이터 NLP 과정에서도 오류가 많아 좀 개선해보고자 찾아보다가 soyspacing을 발견했네요 !
현재 산업군과 연관성 높으면서 띄어쓰기가 어느정도 잘 되어있는 텍스트 데이터를 수집 했고, soyspacing으로 모델 생성 해보려고 시도 중입니다.
생각보다 학습이 잘 안되는 것 같아서,, 입력데이터를 조정해보면서 최적화 해보려 하는데요.

혹시 학습시킬 txt 파일의 데이터 입력 형태가 영향을 줄까요 ?
예를들어 특정 article 들의 본문 데이터를 수집 해서 txt로 저장했을 때,
txt 파일에 문장 단위로 줄바꿈이 되어있는 경우와 (index 마다 문장 단위로 입력된 형태)
문단 단위로 줄바꿈 되어 있는 경우 (index 마다 하나의 article이 들어가 있는 형태)
혹은 전체 텍스트 데이터가 줄바꿈 없이 띄어쓰기로만 들어간 형태 .
중에 model.train() 의 입력 데이터로 더 적합한 형태가 있을지요 ?

초보라서.. 열심히 따라는 하는데 생각보다 결과가 잘 안나오네요 ㅜ.ㅜ
조언 주시면 감사하겠습니다 !

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.