babermuyu / 2020ccf-ner Goto Github PK
View Code? Open in Web Editor NEW2020 CCF大数据与计算智能大赛-非结构化商业文本信息中隐私信息识别-第7名方案
2020 CCF大数据与计算智能大赛-非结构化商业文本信息中隐私信息识别-第7名方案
请教一个问题:
通过代码生成的一个样本:
"text": "《别告诉我你懂PPT》《不懂项目管理还敢拼职场》《让营销更性感》的作者李治(Liz),《不懂项目管理,还敢拼职场》及《别告诉我你懂PPT》的作者"", "entities": [], "lattice": [["告诉", 2, 3], ["项目", 14, 15], ["管理", 16, 17], ["职场", 21, 22], ["营销", 26, 27], ["性感", 29, 30], ["作者", 33, 34], ["项目", 46, 47], ["管理", 48, 49], ["职场", 54, 55], ["告诉", 60, 61], ["作者", 70, 71]]}
text经过bert_tokenizer后的结果是:
[101, 517, 1166, 1440, 6401, 2769, 872, 2743, 8842, 518, 517, 679, 2743, 7555, 4680, 5052, 4415, 6820, 3140, 2894, 5466, 1767, 518, 517, 6375, 5852, 7218, 3291, 2595, 2697, 518, 4638, 868, 5442, 3330, 3780, 8020, 9341, 8253, 8021, 8024, 517, 679, 2743, 7555, 4680, 5052, 4415, 8024, 6820, 3140, 2894, 5466, 1767, 518, 1350, 517, 1166, 1440, 6401, 2769, 872, 2743, 8842, 518, 4638, 868, 5442, 107, 102]
发现一个现象是 lattice的start 和end和text_ids 不对应,比如 项目 14 15 text_ids的14、15对应的文本并不是项目,这样处理会有影响吗?
(出现这个现象的原因的ppt这个词都tokenzie成了1个id)
看了一圈代码没看到生成这两个文件的地方,第一个用到这两个文件的都是load操作
作者用的训练机器配置是什么样的?
我训练到第二轮的时候就报这种错,是batch_size: 16设置太大了吗,还是哪里可能导致显存不释放
请问,代码中,在计算 word_mask,part_size等 (NERModelFitting.py 中 collate_fn_test 方法),这种有点奇怪的方式,有什么依据吗?
如果只是处理为正常的 FLAT 输入,在我看来结果是错的。还有这个奇怪的 mask,在 Model 的 Tranformer 计算时,明显已经把正常的 text token 都 mask 掉了。
所以,冒昧想问一下,这么处理有没有什么理由,还是说,恰巧得到了比较好的分数,或者上传的不是最终的正确代码。
还请不吝赐教,谢谢
大佬,打扰一下。我跑代码发现:No such file or directory: '/Users//2020CCF-NER-main/data/ccf2020/train_data/'
是需要将另外将数据放在ccf2020文件夹下面吗?
小白提问:
在本地执行时运行一会儿电脑崩溃直接关机,想着是配置太低了跑不了
然后我把项目放到了kaggle上执行,
为什么还是会出现out of memory的问题?
请教一个问题:
通过代码生成的一个样本:
"text": "《别告诉我你懂PPT》《不懂项目管理还敢拼职场》《让营销更性感》的作者李治(Liz),《不懂项目管理,还敢拼职场》及《别告诉我你懂PPT》的作者"", "entities": [], "lattice": [["告诉", 2, 3], ["项目", 14, 15], ["管理", 16, 17], ["职场", 21, 22], ["营销", 26, 27], ["性感", 29, 30], ["作者", 33, 34], ["项目", 46, 47], ["管理", 48, 49], ["职场", 54, 55], ["告诉", 60, 61], ["作者", 70, 71]]}
text经过bert_tokenizer后的结果是:
[101, 517, 1166, 1440, 6401, 2769, 872, 2743, 8842, 518, 517, 679, 2743, 7555, 4680, 5052, 4415, 6820, 3140, 2894, 5466, 1767, 518, 517, 6375, 5852, 7218, 3291, 2595, 2697, 518, 4638, 868, 5442, 3330, 3780, 8020, 9341, 8253, 8021, 8024, 517, 679, 2743, 7555, 4680, 5052, 4415, 8024, 6820, 3140, 2894, 5466, 1767, 518, 1350, 517, 1166, 1440, 6401, 2769, 872, 2743, 8842, 518, 4638, 868, 5442, 107, 102]
发现一个现象是 lattice的start 和end和text_ids 不对应,比如 项目 14 15 text_ids的14、15对应的文本并不是项目,这样处理会有影响吗?
(出现这个现象的原因的ppt这个词都tokenize成了1个id)
大佬大佬,请问w2v_vocab.pkl和w2v_vector.pkl文件是您自己生成的么,我没有找到相关生成的代码
大佬问下pu learning大概是哪一部分代码?
encoder.py这个文件中的vec是str类型,vec.detach()这样写会报错,请问作者这里是不是去掉detach()
def get_bert_vec(self, text, text_mask, text_pos=None):
if text_pos is None:
_, _, text_vecs = self.bert(text, text_mask)
else:
_, _, text_vecs = self.bert(text, text_mask, position_ids=text_pos)
text_vecs = list(text_vecs)
if self.detach_ptm_flag:
for i, vec in enumerate(text_vecs):
text_vecs[i] = vec.detach()
return text_vecs
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.