构造拼写替换数据的项目:https://github.com/nghuyong/cscd-ime, 请阅读readme_en下载相关文件(如果本地没有的话),配好相关环境
服务器路径:[email protected]
服务器项目地址:/home/jsyan/code/cscd-ime
在构造数据之前,需要准备好没有错别字的句子级别的数据。数据保存为一个txt文件,每一行一句话。
nohup bash build.sh >nohup.log 2>&1 &
程序执行一段时间会遇到segment fault问题,该问题会导致程序挂掉。为了解决这个问题,该脚本写了个循环脚本,当程序挂掉时,会计算当前处理的行数,并从处理的行数开始,重新执行脚本,处理剩余的数据。
参数说明
-
COMMAND:执行build的命令,根据具体文件路径和环境更改
-
DATA_PATH:待处理文件的路径
-
TARGET_FILE:生成数据后,写入的路径,每一行的格式为
含错别字的句子\t不含错别字的句子
-
EXPECTED_LINES:待处理文件的行数