Fast-Chinese-NeroParser(快速神经网络分词包)

版本号：10.0.8 已经完成第一版未修正版：简体中文带声调拼音包，英，法，德，韩，日，西，俄，阿语言 9种专业级别语料库。

1 ：The first unrevised version has been completed: 8 professional level corpora of Chinese, French, German, Korean, Japanese, Spanish, Russian and Arabic languages.

2 ：第1版未修正版:**、フランス、ドイツ、韩国、日本、スペイン、ロシア、アラビア语8种类の専门レベルの言语データベースが完成した。

3 ：이미 제1 판의 수정되지 않은 수정판은 중국, 프랑스, 독일, 한국, 일본, 서부, 로씨야, 아랍어 등 8개 전업급 언어자료창고이다.

4 ：La première édition n’a pas été modifiée: le corpus des langues chinoise, française, allemande, coréenne, japonaise, occidentale, russe et arabe.

5 ：Die erste unänderte fassung der ersten ausgabe wurde abgeschlossen: in der mitte, frankreich, korea, japan, russland, dem 8. Sprachzentrum auf hoher ebene

6 ：Завершено первое неисправленное издание: Китай, Франция, Германия, хан, Япония, западная, российская и арабская языки, восемь специализированных корпусов.

7 ：Se han completado las primeras ediciones sin modificaciones: el corpus juris de 8 niveles profesionales en idiomas chino, francés, alemán, coreano, japonés, occidental, ruso y árabe.

8 ：وقد اكتملت الطبعة الأولى من دون تعديل، وهي مجموعة من ثماني مجموعات متخصصة من اللغات الإسبانية والفرنسية والألمانية والورية واليابانية والغربية والروسية.

功能：

已完成功能： Die deutsche sprachdatenbank wurde nicht geändert.

已完成功能： أُنجزت نسخة غير معدلة من قاعدة المفردات المتخصصة باللغة العربية

已完成功能： Versión no detectada del corpus español completa。

已完成功能： 한국의 언어 자재 고는 이미 완벽하다。

已完成功能：日本语のデータベースはすでに第1版が完成しました。

已完成功能： Le corpus français est terminé A1, A2, A3, A4, B1, B2。

已完成功能：首次采用《VPC架构》海量线程注册保证调用函数速度。

已完成功能：支持海量并发运算，后端接口调用运算，纯全虚接口同步运算。

已完成功能：经过SONAR 最高级认证（感知最高认证，语义最高认证，语法最高认证，行为最高认证，逻辑最高认证）。

已完成功能：扩展词语非常简单：基于《格式化线性语料库》。

已完成功能：查询词语非常方便：基于《离散森林网络加权字典递归索引》。

已完成功能：搜索词语非常迅捷：基于《2分法搜索欧基里德距离进行位运算散列存储字符集数据森林》。

已完成功能：匹配词语非常精准：基于《决策树深度 NLP 正向隐马可夫匹配》。

已完成功能：病句分析非常完善：基于《双向马可夫词性 POS 打分修正策略》。

已完成功能：词频统计接近光速：基于《线性科学最强的快排第6代的基础上作者进行以作者名字命名的小高峰过滤法修正算法，导致快排6的速度再翻2倍》。

已完成功能：速度：每秒高达1300万中文简体字准确分词。因为通过国际SONAR最高认证，牺牲了程序执行时间十分之三的速度效率（自行修改去掉sonar认知模式可达1700万字分词每秒，性能比应该是世界第二，世界第一赠给高斯林先生，因为我用的是java，没办法）。

已完成功能：中英混合分词。最高达到每秒1700万 ~ 2700万中英文混合常规格式分词。（每毫秒分20,000字+）

已完成功能：速度每秒高达900万词语的中文词性索引。（Part Of Speech, POS），

已完成功能：机制为分词和词性分析可拆分使用。采用一次实例，多并发执行**。

已完成功能：词库：多达23700+的中文语料库精确简体中文词汇，有效的辨别新词。

已完成功能：大小：55Kb。

已完成功能：多核模式：可以自己写 parallelStream() 函数去实现，jdk8以上已经支持, CogsBinaryForestAnalyzer 支持海量多核多线程并发安全。

已完成功能：安全：VPC架构采用纯虚函数做反向映射跳过IOC，效率增加，线程安全高度严格保障。

已完成功能：部分中文短句翻译英语。

已完成功能：中英混合分词。最高达到每秒1700万 ~ 2700万中英文混合常规格式分词。

已完成功能：病句中乱码分析。

已完成功能： VPC进化到VPCS, 静态分流加速每秒又多增100万分词。

使用方法：

1 支持 java JDK 8 以上，字符集UTF-8 就够了，不需要任何插件和资源包。

分词使用如下：

大家可以自由添加词汇，添加在 org/tinos/fhmm/imp/words.lyg文件里。

https://github.com/yaoguangluo/NeroParser/blob/master/main/src/org/tinos/fhmm/imp/poscc.lyg

可以看下org/tinos/test里面的例子。

//1 实例化

Analyzer analyzer = new CogsBinaryForestAnalyzerImp();  //哈希森林索引 多核多线程安全 支持并发

//2初始

	analyzer.init();

//3 创建字符串 utf 8

String ss = "如果从容易开始于是从容不迫天下等于是非常识时务必为俊杰沿海南方向逃跑他说的确实在理结婚的和尚未结婚的提高产品质量中外科学名著内科学是临床医学的基础    内科学作为临床医学的基础学科，重点论述人体各个系统各种疾病的病因、发病机制、临床表现、诊断、治疗与预防";

//4 执行

List<String> sets = analyzer.parserString(ss);

//5 输出

int j=0;
	for(int i = 0; i < sets.size(); i++){
		System.out.print(sets.get(i)+" | ");
		j++;
		if(j>25) {
			j=0;
			System.out.println("");
		}
	}

效果：

如果 | 从 | 容易 | 开始 | 于是 | 从容不迫 | 天下 | 等于 | 是非 | 常识 | 时务 | 必 | 为 | 俊杰 | 沿 | 海南 | 方向 | 逃跑 | 他 | 说的 | 确实 | 在理 | 结婚 | 的 | 和 | 尚未 | 结婚 | 的 | 提高 | 产品 | 质量 | 中外 |
科学 | 名著 | 内科学 | 是 | 临床 | 医学 | 的 | 基础 | | 内科学 | 作为 | 临床 | 医学 | 的 | 基础 | 学科 |
， | 重点 | 论述 | 人体 | 各个 | 系统 | 各种 | 疾病 | 的 | 病因 | 、 | 发病 | 机制 | 、 | 临床 | 表现 |
、 | 诊断 | 、 | 治疗 | 与 | 预防 |

POS 词性分析如下：

###   //1 实例化
	//Analyzer analyzer = new CogsBinaryForestAnalyzerImp();  //哈希森林索引 多核多线程安全 支持并发
	Analyzer analyzer = new BinaryForestAnalyzerImp();  //哈希森林索引 单线程
	//Analyzer analyzer = new FastAnalyzerImp();        //快速线性索引 单线程
	//Analyzer analyzer = new PrettyAnalyzerImp();      //线性森林索引 单线程
	//Analyzer analyzer = new BaseAnalyzerImp();        //一元线性索引
	//Analyzer analyzer = new ScoreAnalyzerImp();       //森林打分索引

//2初始

analyzer.init();
Map<String, String> pos = analyzer.getWord();

//3 创建字符串 utf 8

String ss = "他说的确实在理结婚的和尚未结婚的提高产品质量中外科学名著内科学是临床医学的基础    内科学作为临床医学的基础学科，重点论述人体各个系统各种疾病的病因、发病机制、临床表现、诊断、治疗与预防";

//4 执行

List<String> sets = analyzer.parserString(ss);

//5 输出

int j=0;
	for(int i = 0; i < sets.size(); i++){
		System.out.print(sets.get(i)+"/"+pos.get(sets.get(i)) +"  ");
		j++;
		if(j>8) {
			j=0;
			System.out.println("");
		}
	}

效果：

他/人称代词说/动词的的确/副词实在/副词理/形谓词结婚/动词的/结构助词和/连词尚未/副词
结婚/动词的/结构助词提高/动词产品/名词质量/名词中外/名词科学/名词名著/名词内科学/名词
是/动词临床/名词医学/名词的/结构助词基础/名词内科学/名词作为/动词临床/名词医学/名词
的/结构助词基础/名词学科/名词，/标点重点/名词论述/名词人体/名词各个/限定词系统/名词
各种/名词疾病/名词的/结构助词病因/名词、/标点发病/动词机制/名词、/标点临床/名词
表现/名词、/标点诊断/名词、/标点治疗/动词与/连词预防/动词

复杂病句分析：

输入病句-->和尚未来的和尚未和从容易开始念经那和尚未进行告别不显得从容易知和尚未结婚的施主一样其实都不和尚未成佛的心态有关因为这和尚未成佛

期望分词-->和尚未来的和尚未和从容易开始念经那和尚未进行告别不显得从容易知和尚未结婚的施主一样其实都不和尚未成佛的心态有关因为这和尚未成佛

真实结果-->和尚未来的和尚未和从容易开始念经那和尚未进行告别不显得从容易知和尚未结婚的施主一样其实都不和尚未成佛的心态有关因为这和尚未成佛

感谢声明

1 感谢**复旦大学的FNLP人工智能团队。本人在设计数据字典扩充的时候应用其新词识别函数帮我节省了大量词语录入需花费的时间。

应用方法：本人用FNLP函数将文章中的词语将我分出词进行词性标注，得到的标注如果在我的词库里面没有出现，于是扩充在我的词库。特此声明。

2 谷歌翻译，百度翻译，有道翻译团队。本人在做多国语言翻译的时候应用其免费在线翻译网页进行词语翻译和矫正。减少大量词汇录入时间。

特别感谢有道翻译。

代码协作贡献者（协作者按代码百分比享有项目各种合法权益与收益）

尚无

第三方开源包的引用和修改

尚无

参与讨论者

LetWang（神州泰岳）在扩充词库量的方法上提出了很多新颖的意见。

未完善功能：英语复句翻译。

未完善功能：混合分词的时候空格问题对第一个英文单词的区分校准。

未完善功能：多国语言词汇转换系统。

未完善功能：英语特殊句型翻译。

未完善功能：分词情感识别。

未完善功能：分词矫正识别。

未完善功能：新词搜索互联网更新词库功能。

未完善功能：功能接口计划。

未完善功能：线程分词的内存实时检测。

未完善功能：等等。

基于该分词系统的项目实例

有疑问联系[email protected] 罗瑶光

电话 15116110525

谢谢！

2019/2/23

hhy5277 / neroparser Goto Github PK

neroparser's Introduction

Fast-Chinese-NeroParser(快速神经网络分词包)

版本号：10.0.8 已经完成第一版未修正版：简体中文带声调拼音包，英，法，德，韩，日，西，俄，阿 语言 9种专业级别语料库。

1 ：The first unrevised version has been completed: 8 professional level corpora of Chinese, French, German, Korean, Japanese, Spanish, Russian and Arabic languages.

2 ：第1版未修正版:**、フランス、ドイツ、韩国、日本、スペイン、ロシア、アラビア语8种类の専门レベルの言语データベースが完成した。

3 ：이미 제1 판의 수정되지 않은 수정판은 중국, 프랑스, 독일, 한국, 일본, 서부, 로씨야, 아랍어 등 8개 전업급 언어자료창고이다.

4 ：La première édition n’a pas été modifiée: le corpus des langues chinoise, française, allemande, coréenne, japonaise, occidentale, russe et arabe.

5 ：Die erste unänderte fassung der ersten ausgabe wurde abgeschlossen: in der mitte, frankreich, korea, japan, russland, dem 8. Sprachzentrum auf hoher ebene

6 ：Завершено первое неисправленное издание: Китай, Франция, Германия, хан, Япония, западная, российская и арабская языки, восемь специализированных корпусов.

7 ：Se han completado las primeras ediciones sin modificaciones: el corpus juris de 8 niveles profesionales en idiomas chino, francés, alemán, coreano, japonés, occidental, ruso y árabe.

8 ：وقد اكتملت الطبعة الأولى من دون تعديل، وهي مجموعة من ثماني مجموعات متخصصة من اللغات الإسبانية والفرنسية والألمانية والورية واليابانية والغربية والروسية.

功能：

已完成功能： Die deutsche sprachdatenbank wurde nicht geändert.

已完成功能： أُنجزت نسخة غير معدلة من قاعدة المفردات المتخصصة باللغة العربية

已完成功能： Versión no detectada del corpus español completa。

已完成功能： 한국의 언어 자재 고는 이미 완벽하다。

已完成功能： 日本语のデータベースはすでに第1版が完成しました。

已完成功能： Le corpus français est terminé A1, A2, A3, A4, B1, B2。

已完成功能： 首次采用《VPC架构》海量线程注册保证调用函数速度。

已完成功能： 支持海量并发运算，后端接口调用运算，纯全虚接口同步运算。

已完成功能： 经过SONAR 最高级认证（感知最高认证，语义最高认证，语法最高认证，行为最高认证，逻辑最高认证）。

已完成功能： 扩展词语非常简单：基于 《格式化线性语料库》。

已完成功能： 查询词语非常方便：基于 《离散森林网络加权字典递归索引》。

已完成功能： 搜索词语非常迅捷：基于 《2分法搜索 欧基里德距离 进行 位运算散列存储 字符集数据森林》。

已完成功能： 匹配词语非常精准：基于 《决策树深度 NLP 正向隐马可夫匹配》。

已完成功能： 病句分析非常完善：基于 《双向马可夫词性 POS 打分修正策略》。

已完成功能： 词频统计接近光速：基于《线性科学最强的快排第6代的基础上作者进行以作者名字命名的小高峰过滤法修正算法，导致快排6的速度再翻2倍》。

已完成功能： 中英混合分词。最高达到每秒1700万 ~ 2700万中英文混合常规格式分词。（每毫秒分20,000字+）

已完成功能： 速度每秒高达900万词语的中文词性索引。（Part Of Speech, POS），

已完成功能： 机制为分词和词性分析可拆分使用。采用一次实例，多并发执行**。

已完成功能： 词库：多达23700+的中文语料库精确简体中文词汇，有效的辨别新词。

已完成功能： 大小：55Kb。

已完成功能： 多核模式：可以自己写 parallelStream() 函数去实现，jdk8以上已经支持, CogsBinaryForestAnalyzer 支持海量多核多线程并发安全 。

已完成功能： 安全：VPC架构采用纯虚函数做反向映射跳过IOC，效率增加，线程安全高度严格保障。

已完成功能： 部分中文短句翻译英语。

已完成功能： 中英混合分词。最高达到每秒1700万 ~ 2700万中英文混合常规格式分词。

已完成功能： 病句中乱码分析。

已完成功能： VPC进化到VPCS, 静态分流加速每秒又多增100万分词。

使用方法：

1 支持 java JDK 8 以上，字符集UTF-8 就够了，不需要任何插件和资源包。

分词使用如下：

大家可以自由添加词汇，添加在 org/tinos/fhmm/imp/words.lyg文件里。

可以看下org/tinos/test里面的例子。

//1 实例化

//2初始

//3 创建字符串 utf 8

//4 执行

//5 输出

效果：

POS 词性分析如下：

//2初始

//3 创建字符串 utf 8

//4 执行

//5 输出

效果：

复杂病句分析：

输入病句-->和尚未来的和尚未和从容易开始念经那和尚未进行告别不显得从容易知和尚未结婚的施主一样其实都不和尚未成佛的心态有关因为这和尚未成佛

期望分词-->和 尚未 来 的 和尚 未 和 从 容易 开始 念经 那 和尚 未 进行 告别 不 显得 从容 易 知 和 尚未 结婚 的 施主 一样 其实 都 不 和 尚未 成佛 的 心态 有关 因为 这 和尚 未 成佛

真实结果-->和 尚未 来 的 和尚 未 和 从 容易 开始 念经 那 和尚 未 进行 告别 不 显得 从容 易 知 和 尚未 结婚 的 施主 一样 其实 都 不 和 尚未 成佛 的 心态 有关 因为 这 和尚 未 成佛

感谢声明

1 感谢**复旦大学的FNLP人工智能团队。 本人在设计数据字典扩充的时候 应用其新词识别函数 帮我节省了大量词语录入需花费的时间。

2 谷歌翻译，百度翻译，有道翻译团队。本人在做多国语言翻译的时候 应用其免费在线翻译网页进行词语翻译和矫正。减少大量词汇录入时间。

代码协作贡献者 （协作者按代码百分比享有项目各种合法权益与收益）

第三方开源包的引用和修改

参与讨论者

未完善功能：英语复句翻译。

未完善功能：混合分词的时候空格问题对第一个英文单词的区分校准。

未完善功能：多国语言词汇转换系统。

未完善功能：英语特殊句型翻译。

未完善功能：分词情感识别。

未完善功能：分词矫正识别。

未完善功能：新词搜索互联网更新词库功能。

未完善功能：功能接口计划。

未完善功能：线程分词的内存实时检测。

未完善功能：等等。

基于该分词系统的项目实例

有疑问联系[email protected] 罗瑶光

电话 15116110525

谢谢！

版本号：10.0.8 已经完成第一版未修正版：简体中文带声调拼音包，英，法，德，韩，日，西，俄，阿语言 9种专业级别语料库。

已完成功能：日本语のデータベースはすでに第1版が完成しました。

已完成功能：首次采用《VPC架构》海量线程注册保证调用函数速度。

已完成功能：支持海量并发运算，后端接口调用运算，纯全虚接口同步运算。

已完成功能：经过SONAR 最高级认证（感知最高认证，语义最高认证，语法最高认证，行为最高认证，逻辑最高认证）。

已完成功能：扩展词语非常简单：基于《格式化线性语料库》。

已完成功能：查询词语非常方便：基于《离散森林网络加权字典递归索引》。

已完成功能：搜索词语非常迅捷：基于《2分法搜索欧基里德距离进行位运算散列存储字符集数据森林》。

已完成功能：匹配词语非常精准：基于《决策树深度 NLP 正向隐马可夫匹配》。

已完成功能：病句分析非常完善：基于《双向马可夫词性 POS 打分修正策略》。

已完成功能：词频统计接近光速：基于《线性科学最强的快排第6代的基础上作者进行以作者名字命名的小高峰过滤法修正算法，导致快排6的速度再翻2倍》。

已完成功能：中英混合分词。最高达到每秒1700万 ~ 2700万中英文混合常规格式分词。（每毫秒分20,000字+）

已完成功能：速度每秒高达900万词语的中文词性索引。（Part Of Speech, POS），

已完成功能：机制为分词和词性分析可拆分使用。采用一次实例，多并发执行**。

已完成功能：词库：多达23700+的中文语料库精确简体中文词汇，有效的辨别新词。

已完成功能：大小：55Kb。

已完成功能：多核模式：可以自己写 parallelStream() 函数去实现，jdk8以上已经支持, CogsBinaryForestAnalyzer 支持海量多核多线程并发安全。

已完成功能：安全：VPC架构采用纯虚函数做反向映射跳过IOC，效率增加，线程安全高度严格保障。

已完成功能：部分中文短句翻译英语。

已完成功能：中英混合分词。最高达到每秒1700万 ~ 2700万中英文混合常规格式分词。

已完成功能：病句中乱码分析。

期望分词-->和尚未来的和尚未和从容易开始念经那和尚未进行告别不显得从容易知和尚未结婚的施主一样其实都不和尚未成佛的心态有关因为这和尚未成佛

真实结果-->和尚未来的和尚未和从容易开始念经那和尚未进行告别不显得从容易知和尚未结婚的施主一样其实都不和尚未成佛的心态有关因为这和尚未成佛

1 感谢**复旦大学的FNLP人工智能团队。本人在设计数据字典扩充的时候应用其新词识别函数帮我节省了大量词语录入需花费的时间。

2 谷歌翻译，百度翻译，有道翻译团队。本人在做多国语言翻译的时候应用其免费在线翻译网页进行词语翻译和矫正。减少大量词汇录入时间。

代码协作贡献者（协作者按代码百分比享有项目各种合法权益与收益）