Comments (3)
@zzq118 分词的时候需要跟字典里的词匹配,我们知道输入的句子可能是各种情况,如果不在前面统一正规化,字典里就需要罗列所有词各种拼写组合。比如全角-半角,大写-小写,这样会导致词典变的很臃肿,而且还不一定能罗列全面。
另外分词主要用于文字检索,为了提高检索效率,搜索引擎也会对用户查询词或者索引文本正规化处理,这也是不把分词结果跟原句子大小写保持一致的原因。
举个栗子:
C++,输入可能是 C++、c++、c++、C++..
你如果想要分词结果保持跟原词汇一致,可以根据输出的每个词的偏移量,重新从原句子 substring 一下
from jieba-analysis.
from jieba-analysis.
不完全同意这个回复。
- 如果只考虑比较原始的搜索场景确实可以忽略大小甚至 lucene words。但是如果考虑 NLP 领域的任务,比如带有 word embedding 或 NER 的任务时,大小写是一个很关键的区分不同词汇/实体的特征,很多训练好的 embedding 也是区分大小写的。
- 原版的 jieba 是不会在做分词时将输出结果改变的,无论找字典和检索时应该如何做,作为一个单纯的 package 和 api,第一应该和原版尽量保持一致,第二就是尽量不要改变原始的输出内容,这样分词自动小写等于原始的 query 被改变了。
@zzq118 分词的时候需要跟字典里的词匹配,我们知道输入的句子可能是各种情况,如果不在前面统一正规化,字典里就需要罗列所有词各种拼写组合。比如全角-半角,大写-小写,这样会导致词典变的很臃肿,而且还不一定能罗列全面。
另外分词主要用于文字检索,为了提高检索效率,搜索引擎也会对用户查询词或者索引文本正规化处理,这也是不把分词结果跟原句子大小写保持一致的原因。
举个栗子:
C++,输入可能是 C++、c++、c++、C++..你如果想要分词结果保持跟原词汇一致,可以根据输出的每个词的偏移量,重新从原句子 substring 一下
from jieba-analysis.
Related Issues (20)
- INDEX模式处理Emojis出现异常
- maven仓库地址有吗 HOT 2
- 英文大字都变成了小字 HOT 2
- jieba1.0.2对应的jiba的python版本是哪个呀? HOT 2
- 你好能不能抽空把Maven上面的更新到1.0.3,需要用到你的新特性 HOT 3
- java版的分词结果和Python版的分词结果不一致 HOT 3
- TFIDFAnalyzer逻辑错误
- KeyWord中compareTo排序算法不兼容JDK7+
- 没有使用方法,原python版本有详细的说明
- Where is Path? HOT 1
- Java版SegMode与Python分词模式的对应关系?
- Push 1.0.3 to maven central HOT 3
- 默认的分词词库写死了,不能设置自己的词库
- java.lang.NoClassDefFoundError: com/qianxinyao/analysis/jieba/keyword/Keyword
- java版本和python版本分词结果不一致,怎么处理啊? HOT 1
- jieba现在后续发布的版本为什么都是snapshot?难道还不稳定吗?java的版本发布哪里有变更说明? HOT 1
- Keyword比较器在jdk7以上的情况下会报错 HOT 2
- 無法編譯 HOT 1
- 自定义用户词典分词带空格 HOT 2
- tfidf分析方法中的关键词排序错误
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from jieba-analysis.