http://www.gsxt.gov.cn/index.html
在国家企业信用信息公示系统上进行数据爬取时, 会通过语序顺序的彩色汉字验证码识别, 该识别需要按照常用短语顺序点击验证图像上的汉字字符, 汉字字符存在,字体不同,旋转,模糊以及在彩色图像的背景中 如下图:
分为:
- 训练的网络用于获取单个字体的位置,从而分割出来:
crnn_chinese_characters_rec-master/gen_printed_char_white_wirtelabel.py
- 该组代码可以实现模拟左下角的字体生成训练的数据 生成过程中字体有旋转和遮挡等变化,以适应文字的变化。
参考使用: https://github.com/fxsjy/jieba
yolov3-master
crnn_chinese_characters_rec-master/gen_printed_char_white_wirtelabel-64X64-xieti.py
该组代码可以实现黑白的和color中类似的斜体.
-
这些字体帮助分类黑白的字体,而彩色验证码需要 通过分割的办法减少背景干扰
G-Copy2.pth 是用来分割的网络,是通过wgan获取的 wgan-pytorch
-
后面仍然和左下角的分类类似,不同的是训练集
左下角获取了文字和顺序后,再与彩色部分获取的结果做对照,对应好一一的顺序,后得到最后的结果输出,按照顺序的中间坐标。
-
crnn_model_path 是训练出来的左下角的辅助词汇部分的验证码的单汉字识别的模型的路径 对应模型是model_crnn
-
color_crnn_model_path 是训练出来的彩色词汇部分的验证码的单汉字识别的模型的路径 对应
- 获得左下角的字体内容和顺序
- 获得彩色部分的,并结合左下角的结果