一种基于中文命名实体识别与线性回归的刑期预测方法 博客链接:https://blog.csdn.net/dreamtheworld1/article/details/84666505
量刑建议又称“求刑建议”,是指检察院在刑事诉讼中对被告人应当判处的刑罚依法向法院提出的建议。 现有刑期预测方案均基于深度学习模型进行的量刑建议,针对犯罪内容构建模型,训练后进行量刑预测,此方案可解释性差,应用与司法领域难以使领域专家理解。 本文提出一种基于犯罪事实的刑期预测方法,首先对犯罪事实中的判定实体进行抽取。利用犯罪事实中判定实体分布进行线性预测
运行步骤: 1.实体抽取采用的是基于 规则+biLSTM-CRF的一种改进模型的抽取方式。 训练集采用法院判决书格式文本,原始数据在final_all_data中,标注数据由于是自己标注的没有上传,研究需要可以留言。
标注实体包括凶器、受伤、伤情鉴定、证据;可以利用博客指定规则进行粗略标注。标注后将数据放置模型指定文件夹,使用data.py文件训练字符编码.pkl文件 模型炼丹后 acc=88%+,recall=66%+,f1=50%+
2.经与检察官沟通后,发现影响刑期主要因素为伤情鉴定。根据抽取出的伤情,由于一则犯罪事实中可能有多人受伤,则采用类似one-hot编码方式进行编码 之后利用传统线性回归模型,测试加权和未加权方法进行回归预测。