andrewzhe / lawyer-llama Goto Github PK

View Code? Open in Web Editor NEW

760.0 11.0 96.0 7.01 MB

中文法律LLaMA (LLaMA for Chinese legel domain)

License: Apache License 2.0

Python 100.00%

alpaca llama legal-ai nlp plm pretrained-language-model large-language-models llm pretrained-models

lawyer-llama's Introduction

[ZH] [EN]

Lawyer LLaMA

通过指令微调，LLaMA 模型在通用领域展现出了非常好的表现。但由于缺少合适的数据，少有人探究LLaMA在法律领域的能力。为了弥补这一空白，我们提出了Lawyer LLaMA，一个在法律领域数据上进行了额外训练的模型。

Lawyer LLaMA 首先在大规模法律语料上进行了continual pretraining，让它系统的学习**的法律知识体系。在此基础上，我们借助ChatGPT收集了一批对**国家统一法律职业资格考试客观题（以下简称法考）的分析和对法律咨询的回答，利用收集到的数据对模型进行指令微调，让模型习得将法律知识应用到具体场景中的能力。

我们的模型能够：

掌握**法律知识： 能够正确的理解民法、刑法、行政法、诉讼法等常见领域的法律概念。例如，掌握了刑法中的犯罪构成理论，能够从刑事案件的事实描述中识别犯罪主体、犯罪客体、犯罪行为、主观心理状态等犯罪构成要件。模型利用学到的法律概念与理论，能够较好回答法考中的大部分题目。
应用于**法律实务：能够以通俗易懂的语言解释法律概念，并且进行基础的法律咨询，涵盖婚姻、借贷、海商、刑事等法律领域。

为了给中文法律大模型的开放研究添砖加瓦，本项目将开源一系列法律领域的指令微调数据和基于LLaMA训练的中文法律大模型的参数 。

新闻

[2024/4/25] 🆕 发布了新版Lawyer LLaMA 2 (lawyer-llama-13b-v2)模型参数，以及更高质量的法律指令微调数据。

[2023/10/14] 更新了Lawyer LLaMA技术报告Lawyer LLaMA: Enhancing LLMs with Legal Knowledge，提供了更多的技术细节和研究发现。

[2023/6/8] 开源了lawyer-llama-13b-beta1.0模型参数。

[2023/5/25] 开源了更大规模的指令微调数据，发布了包含和用户问题相关法条的对话数据。

[2023/5/25] 发布了Lawyer LLaMA技术报告。

[2023/4/13] 开源了由ChatGPT生成的指令微调数据，包含2k条法考题目的解答及5k条法律咨询回复。

训练数据

法律领域纯文本语料

我们收集了部分公开的法律数据用于模型的continual training，包括法律条文、裁判文书等。

通用指令微调数据

Alpaca-GPT4 52k 中文，52k 英文。

法律指令微调数据

开源数据概览

文件名	规模	描述
🆕 fakao_gpt4.json	1,000	GPT-4生成的法考题解答
🆕 zixun_gpt4.json	1,000	GPT-4基于法条生成的法律咨询回复
judical_examination.json	2,000	GPT-3.5生成的法考题解答
judical_examination_v2.json	5,000	GPT-3.5生成的法考题解答（第二批）
legal_advice.json	5,000	GPT-3.5生成的法律咨询回复
legal_counsel_v2.json	8,000	GPT-3.5生成的法律咨询回复（第二批）
legal_counsel_with_article_v2.json	1,000	GPT-3.5基于法条生成的法律咨询回复
legal_counsel_multi_turn_with_article_v2.json	476	GPT-3.5基于法条生成的多轮法律咨询对话

在Lawyer LLaMA 2 (lawyer-llama-13b-v2)的训练中我们使用了新版的法律微调数据，以下是一些新旧数据的对比。

法考数据

我们将JEC-QA**法考数据集中的试题输入ChatGPT，让其生成对每个答案的解析。

以下对比了新旧版本Lawyer LLaMA使用的数据：

GPT-3.5生成	🆕 GPT-4生成
问题：根据《物权法》，下列关于物权变动的特别规定，表述正确吗？因继承或者受遗赠取得物权的，自继承或者受遗赠开始时发生效力请给出详细的推理过程之后再给出答案。回复：这个表述是正确的。根据《物权法》第X条规定：“因继承或者受遗赠取得物权的，自继承或者受遗赠开始时发生效力。”这意味着，当一个人通过继承或受遗赠获得物权时，这个物权的效力是从继承或受遗赠开始时就生效的，而不是从物权转移的时间开始生效。这是因为，继承或受遗赠是一种法定的方式来获得物权，因此，物权的效力应该从这个法定的时间点开始生效。	问题：情景分析：张某欠李某2万元，张某有一辆出租车价值4万元，现张某将该车赠与其友王五；李某发现张某无其他值钱的东西，这一赠与会影响张某偿还债务，于是向法院起诉请求撤销张某的赠与行为。法院对该赠与行为的效力应认定。回复：张某欠李某2万元，而张某将其价值4万元的出租车赠与给王五，这一行为在法律上可能构成恶意转移财产，目的在于逃避债务。李某因此向法院提起诉讼，请求撤销张某的赠与行为，以保护自己的债权不受损害。首先，根据《中华人民共和国民法典》第二百五十四条规定，债务人恶意转移财产，损害债权人利益的，债权人有权请求人民法院撤销债务人的行为。在本案中，张某的赠与行为可能被视为恶意转移财产，因为这一行为发生在张某欠债的情况下，且张某无其他值钱的东西，这一赠与行为很可能导致李某的债权无法实现。其次，根据《中华人民共和国民法典》第二百五十五条规定，请求撤销权的行使，不得损害善意第三人的权益。然而，在本案中，王五作为接受赠与的一方，是否具有善意以及是否知道张某的赠与行为会损害债权人（李某）的利益，对于判断赠与行为是否有效是关键。如果王五知道张某的赠与行为是为了逃避偿还债务而进行的，则王五不能被视为善意第三人。因此，结合上述分析，张某的赠与行为损害了债权人李某的利益，且在债务人恶意转移财产的情况下进行，根据《中华人民共和国民法典》相关规定，法院应当认定该赠与行为无效。这样的判决旨在保护债权人的利益，防止债务人通过转移财产逃避债务的行为。因此，法院对该赠与行为的效力应认定为无效。

GPT-3.5生成

🆕 GPT-4生成

问题： 根据《物权法》，下列关于物权变动的特别规定，表述正确吗？
因继承或者受遗赠取得物权的，自继承或者受遗赠开始时发生效力
请给出详细的推理过程之后再给出答案。
回复： 这个表述是正确的。
根据《物权法》第X条规定：“因继承或者受遗赠取得物权的，自继承或者受遗赠开始时发生效力。”这意味着，当一个人通过继承或受遗赠获得物权时，这个物权的效力是从继承或受遗赠开始时就生效的，而不是从物权转移的时间开始生效。这是因为，继承或受遗赠是一种法定的方式来获得物权，因此，物权的效力应该从这个法定的时间点开始生效。

问题： 情景分析：张某欠李某2万元，张某有一辆出租车价值4万元，现张某将该车赠与其友王五；李某发现张某无其他值钱的东西，这一赠与会影响张某偿还债务，于是向法院起诉请求撤销张某的赠与行为。法院对该赠与行为的效力应认定。
回复： 张某欠李某2万元，而张某将其价值4万元的出租车赠与给王五，这一行为在法律上可能构成恶意转移财产，目的在于逃避债务。李某因此向法院提起诉讼，请求撤销张某的赠与行为，以保护自己的债权不受损害。
首先，根据《中华人民共和国民法典》第二百五十四条规定，债务人恶意转移财产，损害债权人利益的，债权人有权请求人民法院撤销债务人的行为。在本案中，张某的赠与行为可能被视为恶意转移财产，因为这一行为发生在张某欠债的情况下，且张某无其他值钱的东西，这一赠与行为很可能导致李某的债权无法实现。
其次，根据《中华人民共和国民法典》第二百五十五条规定，请求撤销权的行使，不得损害善意第三人的权益。然而，在本案中，王五作为接受赠与的一方，是否具有善意以及是否知道张某的赠与行为会损害债权人（李某）的利益，对于判断赠与行为是否有效是关键。如果王五知道张某的赠与行为是为了逃避偿还债务而进行的，则王五不能被视为善意第三人。
因此，结合上述分析，张某的赠与行为损害了债权人李某的利益，且在债务人恶意转移财产的情况下进行，根据《中华人民共和国民法典》相关规定，法院应当认定该赠与行为无效。这样的判决旨在保护债权人的利益，防止债务人通过转移财产逃避债务的行为。因此，法院对该赠与行为的效力应认定为无效。

法律咨询

我们从开放数据集中收集了一些咨询问题，输入ChatGPT，让ChatGPT扮演律师解答问题。将相关法条一同输入，可以提升ChatGPT生成的质量。

以下对比了新旧版本Lawyer LLaMA使用的数据：

GPT-3.5生成	🆕 GPT-4生成
问题：你好，离婚后夫妻的财产是怎么分配的回复：您好，根据《民法典》的相关规定，离婚后夫妻的财产分配可以通过夫妻双方协商处理，如果没有协商一致，则需要由法院根据财产的具体情况，按照照顾子女、女方和无过错方权益的原则进行判决。对于夫妻在婚姻关系存续期间所得的共同财产，包括工资、奖金、劳务报酬、生产、经营、投资的收益、知识产权的收益、继承或者受赠的财产以及其他应当归共同所有的财产，应当平分。而夫妻在婚姻关系存续期间所获得的个人财产，包括婚前财产、因受到人身损害获得的赔偿或者补偿、遗嘱或者赠与合同中确定只归一方的财产、一方专用的生活用品，应当归该方所有。请问你们在婚姻关系存续期间所得的财产情况如何呢？	问题：我老公经常不回家，我知道他在外面有人，同时干了许多坏事，一年365天，这个情况怎么办呢？回复：根据您提供的情况，您老公长期不回家且外面有其他人，这可能触及到《民法典》第一千零四十二条中关于“禁止有配偶者与他人同居”的规定。若您的老公确实与他人同居，这在法律上构成违法行为，您作为受害一方，有权采取相应的法律行动。首先，您需要收集证据。这包括但不限于您老公与他人同居的证据、他不回家的时间以及他所做的“许多坏事”的相关证据。证据可以是照片、视频、通讯记录、目击者的证词等，这对于您后续的法律行动至关重要。其次，若您老公的行为给您造成了精神伤害或经济损失，根据《民法典》的相关规定，您可以要求赔偿。婚姻法内还规定了夫妻之间忠诚的义务，一旦违反，受损害一方有权要求精神损害赔偿。第三，考虑到您提到的您老公“干了许多坏事”，具体情况需要进一步明确。这些行为是涉及违法犯罪还是道德层面的“坏事”？如果涉及违法犯罪，您可以考虑向相关部门举报。这不仅是维护自己权益的行为，也是对社会责任的履行。最后，关于是否结束婚姻，这是一个需要认真考虑的问题。不忠是许多人选择离婚的重要原因之一，根据您收集的证据，如果决定采取此步骤，可以向人民法院提起离婚诉讼，请求分割夫妻共同财产、争取子女抚养权（如果有）等。在这个过程中，考虑到法律问题的复杂性，您可能需要寻求专业律师的帮助，他们可以为您提供更专业的法律意见，并代表您进行诉讼活动。总而言之，您面临的情况较为复杂，但您完全有权利采取行动保护自己的合法权益。关键在于搜集证据、评估情况，并在必要时寻求专业法律帮助。

GPT-3.5生成

🆕 GPT-4生成

问题： 你好，离婚后夫妻的财产是怎么分配的
回复： 您好，根据《民法典》的相关规定，离婚后夫妻的财产分配可以通过夫妻双方协商处理，如果没有协商一致，则需要由法院根据财产的具体情况，按照照顾子女、女方和无过错方权益的原则进行判决。对于夫妻在婚姻关系存续期间所得的共同财产，包括工资、奖金、劳务报酬、生产、经营、投资的收益、知识产权的收益、继承或者受赠的财产以及其他应当归共同所有的财产，应当平分。而夫妻在婚姻关系存续期间所获得的个人财产，包括婚前财产、因受到人身损害获得的赔偿或者补偿、遗嘱或者赠与合同中确定只归一方的财产、一方专用的生活用品，应当归该方所有。请问你们在婚姻关系存续期间所得的财产情况如何呢？

问题： 我老公经常不回家，我知道他在外面有人，同时干了许多坏事，一年365天，这个情况怎么办呢？
回复： 根据您提供的情况，您老公长期不回家且外面有其他人，这可能触及到《民法典》第一千零四十二条中关于“禁止有配偶者与他人同居”的规定。若您的老公确实与他人同居，这在法律上构成违法行为，您作为受害一方，有权采取相应的法律行动。
首先，您需要收集证据。这包括但不限于您老公与他人同居的证据、他不回家的时间以及他所做的“许多坏事”的相关证据。证据可以是照片、视频、通讯记录、目击者的证词等，这对于您后续的法律行动至关重要。
其次，若您老公的行为给您造成了精神伤害或经济损失，根据《民法典》的相关规定，您可以要求赔偿。婚姻法内还规定了夫妻之间忠诚的义务，一旦违反，受损害一方有权要求精神损害赔偿。
第三，考虑到您提到的您老公“干了许多坏事”，具体情况需要进一步明确。这些行为是涉及违法犯罪还是道德层面的“坏事”？如果涉及违法犯罪，您可以考虑向相关部门举报。这不仅是维护自己权益的行为，也是对社会责任的履行。
最后，关于是否结束婚姻，这是一个需要认真考虑的问题。不忠是许多人选择离婚的重要原因之一，根据您收集的证据，如果决定采取此步骤，可以向人民法院提起离婚诉讼，请求分割夫妻共同财产、争取子女抚养权（如果有）等。
在这个过程中，考虑到法律问题的复杂性，您可能需要寻求专业律师的帮助，他们可以为您提供更专业的法律意见，并代表您进行诉讼活动。
总而言之，您面临的情况较为复杂，但您完全有权利采取行动保护自己的合法权益。关键在于搜集证据、评估情况，并在必要时寻求专业法律帮助。

模型参数

目前公开了以下版本的Lawyer LLaMA：

🆕 lawyer-llama-13b-v2: 以quzhe/llama_chinese_13B（对LLaMA-2进行了中文持续预训练）为基础，使用通用instruction和GPT-4生成的法律instruction进行SFT，配有婚姻相关法律检索模块。下载地址和使用方法见demo/run_inference_v2.md。
lawyer-llama-13b-beta1.0: 以Chinese-LLaMA-13B为基础，使用通用instruction和GPT-3.5生成的法律instruction进行SFT，配有婚姻相关法律检索模块。下载地址和使用方法见demo/run_inference_v1.md。

系统效果

自动评测

我们使用Chain-of-Discussion中的200条婚姻家事相关的咨询问题，对以下模型进行测试：

🆕 Lawyer LLaMA 2 (lawyer-llama-13b-v2)
Lawyer LLaMA 1 (lawyer-llama-13b-beta1.0)
DISC-LawLLM
GPT-3.5-Turbo
Gemini-1.0-Pro

使用GPT-4对咨询回复质量打分（满分10分）。在评分的过程中，我们要求GPT-4模型围绕着文本的流畅性、逻辑性、是否引用了无关法条、是否与律师撰写的金标准回复在语义上一致等角度进行评分。各模型表现如下：

模型	得分
🆕 Lawyer LLaMA 2	6.71
Lawyer LLaMA 1	5.61
DISC-LawLLM	5.70
GPT-3.5-Turbo	6.90
Gemini-1.0-Pro	6.94

关于旧版模型lawyer-llama-13b-beta1.0的表现，请参考旧版README.

输出样例

下面展示了Lawyer LLaMA 2、Lawyer LLaMA 1和DISC-LawLLM对于同一问题的输出。

问题： 没有赡养老人就无法继承财产吗？

相关法条：

《民法典》第一千一百三十条：同一顺序继承人继承遗产的份额，一般应当均等。对生活有特殊困难又缺乏劳动能力的继承人，分配遗产时，应当予以照顾。对被继承人尽了主要扶养义务或者与被继承人共同生活的继承人，分配遗产时，可以多分。有扶养能力和有扶养条件的继承人，不尽扶养义务的，分配遗产时，应当不分或者少分。继承人协商同意的，也可以不均等。
《民法典》第一千一百二十五条：继承人有下列行为之一的，丧失继承权：（一）故意杀害被继承人；（二）为争夺遗产而杀害其他继承人；（三）遗弃被继承人，或者虐待被继承人情节严重；（四）伪造、篡改、隐匿或者销毁遗嘱，情节严重；（五）以欺诈、胁迫手段迫使或者妨碍被继承人设立、变更或者撤回遗嘱，情节严重。继承人有前款第三项至第五项行为，确有悔改表现，被继承人表示宽恕或者事后在遗嘱中将其列为继承人的，该继承人不丧失继承权。受遗赠人有本条第一款规定行为的，丧失受遗赠权。
《民法典》第一千一百二十七条：遗产按照下列顺序继承：（一）第一顺序：配偶、子女、父母；（二）第二顺序：兄弟姐妹、祖父母、外祖父母。继承开始后，由第一顺序继承人继承，第二顺序继承人不继承；没有第一顺序继承人继承的，由第二顺序继承人继承。本编所称子女，包括婚生子女、非婚生子女、养子女和有扶养关系的继子女。本编所称父母，包括生父母、养父母和有扶养关系的继父母。本编所称兄弟姐妹，包括同父母的兄弟姐妹、同父异母或者同母异父的兄弟姐妹、养兄弟姐妹、有扶养关系的继兄弟姐妹。

模型输出：

DISC-LawLLM	Lawyer LLaMA 1	🆕 Lawyer LLaMA 2
GPT-4评分：4分根据《民法典》规定，子女对父母有赡养扶助的义务。如果成年子女不履行赡养义务的话，缺乏劳动能力或者生活困难的父母，有要求成年子女给付赡养费的权利。所以，在法律上，未尽到赡养老人的义务是会丧失继承权的。但是需要注意的是，是否存在“丧失继承权”的情况应当由法院根据具体案件情况来进行认定，而不能直接将所有未赡养老人的行为一概而论。	GPT-4评分：3分您好，根据**的法律规定，没有赡养老人就不能成为继承人，但是如果被继承人已经去世，其财产将按照法定继承顺序分配给合法的继承人。同时，如果被继承人在生前曾经给予过抚养或扶养，则在分配遗产时，可以给予一定的照顾。此外，如果被继承人遗嘱中有关于财产分配的规定，则应按照遗嘱执行。请问您的具体情况是什么呢？	GPT-4评分：8分依据您的咨询，关于是否因为没有赡养老就不能继承财产的问题，我们可以从《民法典》的相关规定进行分析。首先，根据《民法典》第一千一百三十条的规定，继承人在继承遗产时，如果对被继承人尽了主要扶养义务或者与被继承人共同生活的继承人，可以多分遗产。这意味着，如果继承人在被继承人生前对其进行了经济上的支持或生活上的照料，那么在继承遗产时可能会得到更多的份额。其次，《民法典》第一千一百二十五条明确指出，继承人有遗弃被继承人，或者虐待被继承人情节严重的，将丧失继承权。这表明，如果继承人在被继承人生前对其进行了遗弃或虐待，导致其生活处于困境，那么在继承遗产时可能会受到限制。然而，《民法典》并没有直接规定说没有赡养老就不能继承财产。继承权的获取主要基于血缘关系和法律规定的继承人范围，而不是直接取决于赡养老的行为。因此，即使在没有履行赡养老义务的情况下，继承人仍然有权继承遗产。综上所述，虽然赡养老行为可能会影响继承权的行使，但不赡养老并不直接剥夺继承权。继承权的获得主要取决于血缘关系和法律规定的继承人资格。如果您有继承权的疑问，建议详细了解自己的继承权情况，并考虑是否有遗弃或虐待行为，以免影响继承权利的行使。

致谢

本项目的开放过程中，获得了以下项目的帮助，在此表示感谢。

https://jecqa.thunlp.org/

https://opendata.pku.edu.cn/dataset.xhtml?persistentId=doi:10.18170/DVN/OLO4G8

https://github.com/tatsu-lab/stanford_alpaca

https://github.com/LianjiaTech/BELLE

https://github.com/ymcui/Chinese-LLaMA-Alpaca

https://github.com/pointnetwork/point-alpaca

本项目贡献人员：

黄曲哲*，陶铭绪*，张晨*，安震威*，姜聪，陈智斌，伍子睿，冯岩松

* Equal Contribution

本项目是在冯岩松教授的指导下进行的。

局限性和使用限制

本项目内容仅供用于学术研究，不得用于商业以及其他会对社会带来危害的用途。使用涉及第三方代码的部分时，请严格遵循相应的开源协议。

本项目中使用的数据由ChatGPT生成，未经严格验证，可能会存在错误内容，在使用时请注意甄别。

本项目中的模型输出并非专业法律咨询结果，可能会包含错误内容。如需法律援助，请从专业人士处获得帮助。

引用

如果您使用了本项目的内容，或者认为本项目对您的研究有帮助，请引用本项目。

@misc{huang2023lawyer,
      title={Lawyer LLaMA Technical Report}, 
      author={Quzhe Huang and Mingxu Tao and Chen Zhang and Zhenwei An and Cong Jiang and Zhibin Chen and Zirui Wu and Yansong Feng},
      year={2023},
      eprint={2305.15062},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

@misc{Lawyer-LLama,
  title={Lawyer Llama},
  author={Quzhe Huang and Mingxu Tao and Chen Zhang and Zhenwei An and Cong Jiang and Zhibin Chen and Zirui Wu and Yansong Feng},
  year={2023},
  publisher={GitHub},
  journal={GitHub repository},
  howpublished={\url{https://github.com/AndrewZhe/lawyer-llama}},
}

lawyer-llama's People

Contributors

Stargazers

Watchers

Forkers

loutussun makoofficial wsj-7416 knightcn1983 binflyfiled yuanmeng1120 allensmile mars-wei hxmhxm rosefun fat-ugly-man lance-007 delez911 leetjoe jiangcong7 cdzhl blue0rigin xa-amour apollohuang1 huyongjun miraclemin owenjsw shawshining blankxyz zhangmi0991 yoyo1010 ylkxzhengyangyang baifengbai woshicqy sjkjsandy qqq-tech brewswang caoyongshengcys jiaxueli1999 jamesnornand domy2008 hfchiu chimpansee lxy117 odoochain jackel3812 liuliyehuo alexyu1231 jqk6 hawkbear jwen6118 zfruit123 cycitizen naymerlee vegadai santana815 cymaven kaiji3166 himino74 duckmario tomastaro admanda gerokoma siamins dbmins gulin13 hosganini shibalagu satan60 combatidy raat27 liukang25 goroking vase32 cgu31 hkour30 carless28 click689 poikfj wissen33 juleyap88 ubox26 jbdk24 konglao63 vullnet25 liushuchun shenyaojun xdrszyhrl yunweidai jadeluo zotown coffenhu xinhen wofeichangaiwoai vital121 wlmsoft tianyabanbu octag0no jackeylove1 orangels almutama

lawyer-llama's Issues

请问作者检索模型的参数会公开吗

demo_cmd.py报错HTTPConnectionPool(host='127.0.0.1', port=9098): Max retries exceeded with url:

感谢作者分享这和repo。
我在运行的时候遇到了这个报错，检查了防火墙，还是无法链接9098这个接口
可以帮忙看看是什么问题吗
error_demo_web.txt

continue training样本

请问continue training的时候的样本是怎么处理的？具体的输入到模型的每条样本都是什么样的？

Continual training数据请求

你好，请问continual training的数据会公开吗？

请问，模型支持多长的长度呢？2k or longer

项目咨询：请问有运行安装文档步骤吗

如题，刚接触 AI 领域，对该项目感兴趣，想跑这个模型的话，怎么部署运行呢？

希望取得联系

尊敬的lawyer-llama 应用开发者，我是 InternLM 社区开发者&志愿者尖米, 大佬开源的工作对我的启发很大，希望可以探讨使用 InternLM 实现lawyer-llama 的可能性和实现路径，我的微信是mzm312，希望可以取得联系进行更深度的交流

retrieval模块后续是否会更新

目前的提取模块是仅限于婚姻的民法典，所以我自己在使用的时候接了langchain来使用。不知道后续有没有官方的通用匹配更新计划，或者我可以把我自己的工作pr上去吗

Eval dataset

作者你好，请问会开源相关的 eval 数据集和评测脚本吗

chat_history[:-1] 为什么把最近一次的对话给去掉？

demo_cmd.py 66 行， chat_history[:-1] 为什么把最近一次的对话给去掉？

Error no file named pytorch_model.bin

(base) /mnt/workspace/lawyer-llama/demo> python demo_web.py --port 7863 --checkpoint /mnt/workspace/lawyer-llama/lawyer-llama-13b-beta1.0
Loading model...
Traceback (most recent call last):
File "/mnt/workspace/lawyer-llama/demo/demo_web.py", line 52, in
model = LlamaForCausalLM.from_pretrained(checkpoint, device_map="auto", torch_dtype=torch.float16)
File "/home/pai/lib/python3.9/site-packages/transformers/modeling_utils.py", line 2405, in from_pretrained
raise EnvironmentError(
OSError: Error no file named pytorch_model.bin, tf_model.h5, model.ckpt.index or flax_model.msgpack found in directory /mnt/workspace/lawyer-llama/lawyer-llama-13b-beta1.0.

关于预训练资源和时间的估计

你好！首先恭喜，神作！通篇挑不出毛病，且证实了我之前的猜测：1，扩充词表会让中文能力降低，但是不知道ymcui后来推出的plus版本，即增大了增量预训练的语料，会不会有更好的表现。2，经过领域增量训练后，即使是广义的SFT就可以具备应付专业领域的问题了。

anyway跑题了，麻烦可否提供一个计算资源和所需时间的估计，尤其是S1（增量中文训练）和S4（增量法律训练），且这两个阶段的语料库大致是什么样的量级，以及sample articles存在某种策略吗还是随机的，我似乎没有找到这方面的细节。

非常感谢，再次恭喜如此高质量的工作！

对话数据的构建方法

作者你好，首先非常感谢你们辛苦的研究工作，并致以崇高的敬意！

我有几个问题，还请不吝赐教。

在构建单轮对话数据集的时候，你们提到这么一段话

We sample seed questions from an open-source dataset of legal consultation (Chen, 2018) and use ChatGPT to generate responses.

seed questions是人工筛选的，那对应后续的问题是不是还是采用self instruct的方式，让LLM(chatGPT)生成。
2. 在构建多轮对话数据集的时候，你们提到这么一段话

To generate multi-turn dialogues for a legal consultation question, we design two different prompts, asking ChatGPT to act as a client and as a lawyer, respectively. We use these two prompts alternately, together with the dialogue history, as the input to ChatGPT.

我想问下dialogue history是哪里来的？

理解能力似乎偏弱

问题：小明和小红结婚15年，现感情不和要离婚，有3出房产分别在海淀、朝阳和亦庄，有存款300万，有一个小男孩12岁在海淀读初中，一个小女孩9岁也在海淀读初中，男孩比较喜欢和小明在一起，由小明照顾，帮忙生成离婚协议
结果：

明白了您的情况，我可以进一步为您提供以下建议：
关于房产分割问题，根据《中华人民共和国婚姻法》的规定，夫妻共同财产应当由双方协商处理。如果双方无法协商，则可以向人民法院提起诉讼，由法院进行裁决。因此，您需要与对方商议如何分割房产，并达成书面协议。
关于子女抚养问题，根据《中华人民共和国民法典》规定，父母对未成年子女的抚养、教育、保护等权利和义务应共同履行。因此，您需要与对方商议子女抚养问题，并达成书面协议。
关于离婚协议书的起草，您可以请律师帮助您起草离婚协议书，并在协议书中详细说明财产分割和子女抚养等问题。同时，您还需要考虑其他可能影响离婚协议的条款，例如离婚后是否需要支付赡养费、抚养费等。
关于子女的抚养问题，根据《中华人民共和国民法典》规定，父母对未成年子女的抚养、教育、保护等权利和义务应共同履行。因此，您需要考虑如何安排子女的抚养问题，并与对方商议。
关于财产分割问题，根据《中华人民共和国婚姻法》的规定，夫妻共同财产应当由双方协商处理。如果双方无法协商，则可以向人民法院提起诉讼，由法院进行裁决。因此，您需要与对方商议如何分割财产，并达成书面协议。
关于离婚协议书的起草，您可以请律师帮助您起草离婚协议书，并在协议书中详细说明财产分割和子女抚养等问题。同时，您还需要考虑其他可能影响离婚协议的条款，例如离婚后是否需要支付赡养费、抚养费等。
关于子女的抚养问题，根据《中华人民共和国民法典》规定

chatgpt3.5:

离婚协议
甲方：小明，身份证号码：XXXXXX，现居住地：XXXXXX
乙方：小红，身份证号码：XXXXXX，现居住地：XXXXXX
经过双方协商，为了维护双方和睦离婚，达成如下协议：
一、财产分割
1. 房产分割
(1) 位于海淀的房产归甲方所有，乙方无异议；
(2) 位于朝阳的房产归乙方所有，甲方无异议；
(3) 位于亦庄的房产由双方共同拥有，经评估后，按照房产市场价值的50%分给甲方，50%分给乙方。
2. 存款分割
双方共同拥有存款300万，经过协商，按照存款总额的50%分给甲方，50%分给乙方。
二、子女抚养
1. 子女抚养权归乙方所有，甲方无异议。
2. 甲方有权每周末接小女孩在海淀的家里过周末，小男孩归甲方抚养，由甲方照顾。
3. 甲方需支付小男孩每月在海淀读初中的学费、生活费和医疗费，共计人民币XXXX元，直至小男孩完成初中学业。
4. 如小男孩需要就医，甲方有权陪同前往医院并支付医疗费用。
三、其他
1. 双方离婚后，互不干涉对方的生活和事业。
2. 双方自愿签署本协议，协议生效后，具有法律效力。
3. 本协议一式两份，甲方和乙方各执一份，具有同等效力。
甲方（签字）：_____________ 日期：_____________
乙方（签字）：_____________ 日期：_____________
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

ChatGPT4 结果：

根据您提供的信息，以下是一个离婚协议草案：
离婚协议
甲方：小明
乙方：小红
鉴于甲乙双方自愿离婚，根据《中华人民共和国婚姻法》及相关法律法规的规定，经双方友好协商，达成以下离婚协议：
一、离婚事宜

甲乙双方自愿离婚，自本协议签署之日起生效。
二、财产分割
甲乙双方共有房产三套，分别位于海淀、朝阳和亦庄。经协商，甲方获得海淀房产，乙方获得朝阳和亦庄房产。
甲乙双方共有存款300万元。经协商，甲方获得150万元，乙方获得150万元。
三、子女抚养权及抚养费用
甲乙双方共有一子一女，分别为12岁的小男孩和9岁的小女孩。小男孩由甲方抚养，小女孩由乙方抚养。
甲乙双方同意，子女抚养费用由双方共同承担。甲方每月支付乙方抚养费用2,000元，直至子女成年。
子女教育、医疗等费用由甲乙双方共同承担。
四、其他事项
甲乙双方承诺，离婚后不得侵犯对方的人身权、财产权等合法权益。
本协议经甲乙双方签字盖章后生效，自愿履行本协议约定的各项内容。
若甲乙双方在履行本协议过程中发生纠纷，应友好协商解决；协商不成的，可以向有管辖权的人民法院起诉。
甲方（签名）：小明
乙方（签名）：小红
签订日期：2023年6月13日
请注意，本协议仅供参考，具体内容请根据双方实际情况协商确定。建议在签订正式协议前，征求专业律师的意见。

解码需要llama-13-hf吗

是不是我直接下载
通过Hugging Face或者百度网盘（提取码：lwhx）获取Lawyer LLaMA权重。

利用原始LLaMA文件中的7B/consolidated.00.pth文件，运行以下bash命令，使用decrypt.py对Lawyer LLaMA模型文件进行解码。

就可以得到权重了，需要下载 llama-13-hf吗

About the dataset

hello!

i read your paper and github. i notice that you train the pre-trained model.
but i don't know how much data did you use in the pre-train.
can you provide any further information?

thank you!

retrieval model有更多的细节吗？

technical report中说到retrieval model可以达到0.85recall@1, 但并没有提到这部分训练数据的规模，有更多的细节可以公布吗？感觉这个recall已经让人很吃惊了

请问继续预训练用的全参微调还是lora后合并呢

如题

Error: "pytorch_model-00002-of-00003.bin"Checksums do not match. The file may be corrupted.

Decrypting file /lawyer-llama-13b-beta1.0/pytorch_model-00002-of-00003.bin.58352e4e890197aa518502ba6ea6f4fad0918d01fa64b630562bf163d46754a3.enc with 127 workers
Writing final chunks...
Error: Checksums do not match. The file may be corrupted.

请教一下，试过几次了，从https://huggingface.co/pkupie/lawyer-llama-13b-beta1.0/tree/main，下载的“pytorch_model-00002-of-00003.bin.58352e4e890197aa518502ba6ea6f4fad0918d01fa64b630562bf163d46754a3.enc”文件，在解密后做chunks时一直报错。

关于技术报告的一些疑问

感谢作者的分享！在阅读技术报告中有些疑问希望能够解答：

Table1中，S6与S11的区别是什么？看起来一样的？
The General SFT Dataset是什么作用？从S12的效果来看，是否做任务相关的训练都得加上这样一类General SFT一起训练才有效？

请问是否有升级到Llama-2的计划？

Llama-2协议友好而且是llama1的升级版，改为使用llama-2更有利于模型的传播和研究，至少可以省去增量编/解码的步骤。
请问贵团队是否有此计划？

关于检索器的训练数据

请问人工注释的训练法律文章检索器的数据集规模有多大呢？数据可以公开吗

你好方便介绍一下lawyer-llama SFT使用的数据嘛？

比如总量多少，每部分大概有多少，具体如何处理清洗的？

请问作者关于注入法律知识的continual training与有监督的指令微调两种训练方式有什么区别？

如题！两种训练方式的训练目标是一样的么？两者的训练数据构造有什么区别？谢谢！

Add your paper hyperlink

Could you please put your paper hyperlink on the README page? Thanks a lot!

各阶段训练参数的设置问题

非常棒的工作，感谢作者的开源。
在阅读技术报告的时候，个人产生一些疑问麻烦作者解答下。
Figure 3 中的s12模型，实际上是跨了5个阶段训练的产物，我比较想知道在不同阶段的各种参数是如何进行衔接来避免知识遗忘的？
在我实验设置中，stage 2 使用 stage 1数据的子集来继续微调，如果采用同样的初始学习率等超参，stage 1 中的其它数据就会产生灾难性遗忘。请问你们是如何避免这种情况的？

SFT训练数据类型占比问题

您好请教下，看到项目里提到训练集既有“通用数据”也有“法律数据”，这两部分数据是混合在一起参与训练吗？这样的动机是什么呢？

按教程复现不了，尤其是bash decrypt.py这一步

想要跟ChatGPT官网一样的可以分享整个聊天记录的功能和接受用户评价（点赞和点踩）的功能，以及关于开源软件许可证方面的优化建议

我现在跟模型产生了互动，形成了一个完整的聊天记录，想要分享整个聊天记录，或者保存整个聊天记录。
现在想要通过模型输出产生反馈似乎只能通过提issue的方式？您可以尝试像ChatGPT一样直接在网站上设置用户通过对模型回复进行点赞/点踩/评论等功能，来直接收集用户的反馈。
我咨询模型关于开源软件许可证的相关事宜，感觉模型应该有收集一些信息，但是主要问题是所知的事实信息不全（比如不知道MulanPSL-2.0），其次是输出的建议比较模糊、大而化之（但这一点应该是很多LLM的通病，而且似乎本来就建议通过人工进一步操作来进行细化）。
感觉仅供参考的话还是有价值的，但是仍然可以改进，总之我也给您这边提一下这个情况。我的对话历史是：
另外就是，我能够输入GPT-3.5 API的文本长度似乎不能完全输入Lawyer LLaMA，想问一下Lawyer LLaMA的输入输出限长是多少呢？

使用Nginx配置反向代理访问lawyer_llama13B

demo_server.py启动了一个web交互界面,但是只能通过ip访问.
我在这里提供了配置nginx反向代理访问此服务的方法,供需要的人自取.

请问近期有开源计划吗?

开源数据仅使用JEC-QA的train构造吗? 有留出test集吗

以及

judical_examination.json	2,000	ChatGPT生成的法考题解答
judical_examination_v2.json	5,000	ChatGPT生成的法考题解答（第二批公开）

这两份数据是使用JE-Q2EA还是JE-QA2E方法构造的呀 ? 有什么其他的处理吗 ?

法考题解答的数据问题

为什么没有具体的法条编号，全是“第X条”这种……

预训练后的模型能很好复述法规吗

您好，请教下哈，我希望模型能够背诵出一些重要知识，比如法律法规条款，于是在做增量预训练过程中，我增加了相关数据被采样的epoch，loss也下降明显，达到了0.几的水平，但模型还是无法很好地复述相关知识（给提示让模型补全下文）。请问您做预训练有遇到过类似的问题吗，有没啥经验呢。

对13B预训练模型关于提问者身份认定的问题的反馈

非常荣幸获得了13B预训练模型的内测资格，因为在提页面里没有找到反馈入口，所以提交在了这里。

在进行提问时，遇到了ai回答对提问者身份的判定问题。

比如我在提问：
『未成年人在学校遭遇同龄人敲诈勒索，该如何保护自己？』
时，其回答内容有：
『您也可以考虑向警方报案』
『您可以向家长寻求帮助』
这种把提问者当作当事人的回答；

当我提问一些关于婚后财产分配的问题时，AI回答了：
『如果您担心男方可能会采取其他手段侵占您的财产』
这种在提问者没有表明身份的情况下就将提问者身份设定为女方当事人的语句。
之前的回答中会有『假如您是女方』这样的描述好很多，但还是把提问者当成了当事人。

另外在提问未成年人问题时，AI回答第一句是：『非常抱歉您遭遇这样的问题』，这样确实显得亲切了很多，但是却存在：
『提问者是单纯咨询』还是『提问者是当事人』这样的判定问题。

我所期望的对话是AI应该保持冷静客观，就事论事，不要对提问者进行当事人身份假定。

一点个人见解，仅供参考！

运行法条检索模块报错，请问是什么原因该如何修复？

训练代码能开源吗？

训练和微调的所有项目代码会开源吗？感谢

关于marriage article retrieval托管方式的建议

冒昧提一个小建议

我注意到开源出的lawyer llama13b里有用到一个marriage article retrieval项目，但是代码是通过百度网盘分享的。为什么不直接创建一个git仓库呢，使用git lfs可以解决大文件问题。
还是出于某些别的考虑呢？

关于中文词表选择不扩充的问题

论文3.1节提到

To improve the decoding efficiency of Chinese sentences, Cui et al. (2023) expand the vocabulary by adding common Chinese characters and re-training these newly added word embeddings along with the model parameters. However, our prior study shows that expanding the vocabulary does not seem to bring further improvement on downstream Chinese NLU tasks. We therefore choose to keep LLaMA’s vocabulary unchanged during the training.

请问一下，关于prior study能提供更详细一点的描述吗？