使用crf++实现了命名实体识别
- 配置文件config:可以配置数据的存取位置
- run.py:主控文件
create_jd_data()
create_tag_data_to_mongodb()
run_flask()
create_entity_user_dict()
create_train_test_data()
运行crf.train_model_predict.py
即可
- 新增加的词位于:new.txt
- 挑选好后,放入data.change_data下的两个文件里
- 执行上面的步骤5------>预测------>添加新词(手动)
- 根据yaml文件将错误的技术实体全部替换成正确的技术实体
- 爬取技术实体的wiki数据
- 将数据从数据库里取出来
- 消除歧义
- 保存到图数据库