lovit / soyspacing Goto Github PK

View Code? Open in Web Editor NEW

141.0 11.0 34.0 2.14 MB

띄어쓰기 오류 교정 라이브러리입니다. CRF 와 같은 머신러닝 알고리즘이 아닌, 직관적인 접근법으로 띄어쓰기를 교정합니다.

Python 100.00%

text-processing nlp korean-nlp noise-cancellation spacing

soyspacing's People

Contributors

Stargazers

Watchers

soyspacing's Issues

문장의 마지막에 위치한 단어에는 RuleDict 가 적용되지 않는 문제

space_tag 함수의 return 값에서 마지막 글자의 띄어쓰기 태그가 반드시 1 로 지정되기 때문에 RuleDict 가 적용되지 않습니다. 이를 해결하기 위하여 RuleDict 가 입력될 때에는 tags[-1] = None 으로 설정한 뒤, RuleDict 적용 후 다시 tags[-1] = 1 로 변경해야 합니다.

count-base_spacing_tutorial 오류메시지

tutorial 의 제일 마지막줄에서 에러가 나네요..
실행환경과 관련이 있을까요?

model.correct(sent, verbose, mc, ft, nt, st, rules=rule_dict)

=====>

Input: ? ? ? ? ? ? ? 1 ? ? ? ? ? ? ? ? ? 1

TypeError Traceback (most recent call last)
in ()
----> 1 model.correct(sent, verbose, mc, ft, nt, st, rules=rule_dict)

~/anaconda3/envs/tensorflow/lib/python3.6/site-packages/soyspacing/countbase/_countbase.py in correct(self, doc, sep, verbose, min_count, force_abs_threshold, nonspace_threshold, space_threshold, space_importancy, rules, debug)
317 if verbose:
318 self.print_tags(tags, head = 'Input:')
--> 319 print(self.space(chars, tags, sep))
320
321 # rule-based tagging

~/anaconda3/envs/tensorflow/lib/python3.6/site-packages/soyspacing/countbase/_countbase.py in space(self, chars, tags, sep)
268
269 def space(self, chars, tags, sep=' '):
--> 270 return ''.join([c+sep if t==1 else c for c,t in zip(chars, tags)]).strip()
271
272

~/anaconda3/envs/tensorflow/lib/python3.6/site-packages/soyspacing/countbase/_countbase.py in (.0)
268
269 def space(self, chars, tags, sep=' '):
--> 270 return ''.join([c+sep if t==1 else c for c,t in zip(chars, tags)]).strip()
271
272

TypeError: must be str, not bool

학습시간

실제 학습시간은 어떻게 계산하나요?

usb메모리 => usb 메모리

usb메모리 를 usb 메모리 로 분리하도록 하고 싶은데요.

학습 데이터를 어떻게 준비하면 될까요?

3단우산도 역시 띄어져야 하고요.

한쪽에 띄어쓰기가 되어이을 경우 rule 이 적용되지 않는 문제

from soyspacing.countbase import CountSpace, RuleDict

model = CountSpace()
rule_dict = RuleDict('tutorials/space_rules.txt')

sent, tags = model.correct('안되는가게로 한국정말로')
print(sent) # 안되는가게로 한국정말로
print(tags) # [None, None, None, None, None, 1, None, None, None, None, 1]

학습용 txt 파일은 따로 권장되는 입력 방식이 없나요 ? (줄바꿈 이라던지)

안녕하세요 ! 우선 좋은 모델 만들어주셔서 감사합니다 : )
띄어쓰기 때문에 간단한 리뷰 데이터 NLP 과정에서도 오류가 많아 좀 개선해보고자 찾아보다가 soyspacing을 발견했네요 !
현재 산업군과 연관성 높으면서 띄어쓰기가 어느정도 잘 되어있는 텍스트 데이터를 수집 했고, soyspacing으로 모델 생성 해보려고 시도 중입니다.
생각보다 학습이 잘 안되는 것 같아서,, 입력데이터를 조정해보면서 최적화 해보려 하는데요.

혹시 학습시킬 txt 파일의 데이터 입력 형태가 영향을 줄까요 ?
예를들어 특정 article 들의 본문 데이터를 수집 해서 txt로 저장했을 때,
txt 파일에 문장 단위로 줄바꿈이 되어있는 경우와 (index 마다 문장 단위로 입력된 형태)
문단 단위로 줄바꿈 되어 있는 경우 (index 마다 하나의 article이 들어가 있는 형태)
혹은 전체 텍스트 데이터가 줄바꿈 없이 띄어쓰기로만 들어간 형태 .
중에 model.train() 의 입력 데이터로 더 적합한 형태가 있을지요 ?

초보라서.. 열심히 따라는 하는데 생각보다 결과가 잘 안나오네요 ㅜ.ㅜ
조언 주시면 감사하겠습니다 !

lovit / soyspacing Goto Github PK

soyspacing's People

Contributors

Stargazers

Watchers

Forkers

soyspacing's Issues

문장의 마지막에 위치한 단어에는 RuleDict 가 적용되지 않는 문제

count-base_spacing_tutorial 오류메시지

tutorial 의 제일 마지막줄에서 에러가 나네요..
실행환경과 관련이 있을까요?

Input: ? ? ? ? ? ? ? 1 ? ? ? ? ? ? ? ? ? 1

학습시간

usb메모리 => usb 메모리

한쪽에 띄어쓰기가 되어이을 경우 rule 이 적용되지 않는 문제

학습용 txt 파일은 따로 권장되는 입력 방식이 없나요 ? (줄바꿈 이라던지)

학습

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent

lovit / soyspacing Goto Github PK

soyspacing's People

Contributors

Stargazers

Watchers

Forkers

soyspacing's Issues

tutorial 의 제일 마지막줄에서 에러가 나네요.. 실행환경과 관련이 있을까요?

Input: ? ? ? ? ? ? ? 1 ? ? ? ? ? ? ? ? ? 1

Recommend Projects

Recommend Topics

Recommend Org

tutorial 의 제일 마지막줄에서 에러가 나네요..
실행환경과 관련이 있을까요?