pku-yuangroup / chatlaw Goto Github PK

View Code? Open in Web Editor NEW

6.6K 6.6K 519.0 11.23 MB

ChatLaw：A Powerful LLM Tailored for Chinese Legal. 中文法律大模型

Home Page: https://chatlaw.cloud/

License: GNU Affero General Public License v3.0

chatlaw's People

Contributors

Stargazers

Watchers

Forkers

sxm1129 montanus2019 itsharex lyhiving maodandanqiu hoshino-wind apollohuang1 imiracle tttxii petercao cruisecai moistrain liuslevis tonywang-sh liang7878 friendmine xlight5 ajawebx d4617078 nanqiai hongweichen wuxiaoxrj omnipotentai yanhn eric23 lkkklxy tchaowen lihai-26 tangjiachen blunt1973 nanijiayou tianyuez chenqing24 horanran cdsas3223 haorand noontiger wzhengkai speakfly aww3482 somebodyhackme faraday121 mithyer xu-chao driphub handsomebubu jmaigc bziwei scys wym0913 hairtony royesha hqcfly loslandy tyrant08ms kililixi pandaupc sharpboy2008 tcmzhou yyflightai hugangyi110 cirozhu explcre qq6690876 parety pseudoprogrammer zgzwelldone chen343-sys yuanmeng1120 thelongestusernameofall jtsang4 evwang scorpiozq gentoolin jeleanor1108 wuwenrui jinhua0 qwang-big skyward666 jnightlee lhqin liweisr41 shuibo97 yuntaow bamaao bajitanglang sszqdz haoboy007 glaceage l342723951 focusv zkx06111 wangzloong cooper147 xiangyoulu lionyu66 jonnyquan light333333 chenxioaye0212 256yangwei

chatlaw's Issues

Comparison with existing models

Impressive work! I believe it would achieve STOA performance. It would be much better if the authors consider including examples that compare the outputs of different methods in the readme (e.g., LawGPT, and different variants in your repo). Just a kind suggestion :).

是否可以开放部分训练数据,或者是少量的典型数据,帮助我们了解在垂直领域如何组织数据对应强逻辑性的模型微调?

如题~~

请问评测数据是否开源

我们最近也在做法律垂域相关的，请问下评测数据能否开源，方便进行横向对比，谢谢！

Readme链接问题

Readme中https://chatlaw.cloud/lawchat/ 显示为404

希望取得联系

尊敬的chatlaw 应用开发者，我是 InternLM 社区开发者&志愿者尖米, 大佬开源的工作对我的启发很大，希望可以探讨使用 InternLM 实现chatlaw 的可能性和实现路径，我的微信是mzm312，希望可以取得联系进行更深度的交流；

为什么Huggingface仓库没有config.json文件呢，模型合并了也无法运行啊

如题。
另外：把合并好的Ziya带进去直接就能跑起，就是缺少config文件啊，为什么hf仓库没有上传呢

微调训练机器配置和时长

请问，llama13b模型微调训练机器配置和时长大概是什么样的？

关于训练数据demo中meta_instruction的问题

感谢你们贡献如此优秀的开源项目。
在训练数据demo中，meta_instruction中的指令并不通顺（你一个名叫）
"meta_instruction": "你一个名叫ChatLAW
请问这是疏忽还是有意为之，这会影响模型的效果吗？

你好，群满了，还有其他途径进群交流吗？

demo 2有错误

刑法第二百六十七条不是故意伤害罪，而是第二百三十四条。二百六十七条为: 抢劫罪。
详见维基百科: https://zh.wikisource.org/wiki/%E4%B8%AD%E5%8D%8E%E4%BA%BA%E6%B0%91%E5%85%B1%E5%92%8C%E5%9B%BD%E5%88%91%E6%B3%95

另附上ChatGPT答案:

模型合并好了，跑示例代码报错了

RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cpu and cuda:0! (when checking argument for argument index in method wrapper_CUDA__index_select)a'

LLaMa2 权重发布了，有没有相应的合并？

或者你们模型的同步升级。

合并以后跑出来的是unk

import re
import torch
from peft import PeftModel
from transformers import GenerationConfig, LlamaForCausalLM, LlamaTokenizer

ziya_model_path = "/Ziya-LLaMA-13B-v1/" # 完整的子牙模型权重路径
chatlaw_model_path = 'JessyTsu1_ChatLaw-13B_adapter'# chatlaw模型权重
'''
tokenizer = LlamaTokenizer.from_pretrained(ziya_model_path)
model = LlamaForCausalLM.from_pretrained(
        ziya_model_path,
        torch_dtype=torch.float16,
        device_map="auto",
    )

'''
model = PeftModel.from_pretrained(model, chatlaw_model_path)

if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.unk_token
    
#model.half()
model.eval()

生成：

def law_answer(query):
    gen_conf={
      "bos_token_id": tokenizer.bos_token_id,
      "do_sample": True,
      #"num_beams": 4,
      "eos_token_id": tokenizer.eos_token_id,
      "max_new_tokens": 256,
      "pad_token_id": 0,
      "penalty_alpha": 0.3,
      "repetition_penalty": 1.0,
      "temperature": 0.65,
      "top_k": 15,
      "top_p": 0.85,
    }
    
    gen_conf= {
        "max_new_tokens": 512,
        "temperature": 0.1,
        "top_p": 0.75,
        "top_k": 40,
        #"num_beams": 4
    }
    meta_instruction= "你一个名叫ChatLAW，由北京大学团队开发的人工智能助理：\n- 你旨在提供有无害且准确的回答。\n- 你必须拒绝回答非法的问题。\n- 你的回应不能含糊、指责、粗鲁、有争议、离题或防御性。\n- 你的回应必须有礼貌。"

    #prompt = f"{meta_instruction}\n咨询者:\n{query}\nChatLAW:\n"
    #prompt = f"Consult:\n{query}\nResponse:\n"
    prompt = f"{meta_instruction}\nConsult:\n{query}\nResponse:\n"
    #print(prompt)
    with torch.no_grad():
        inputs=tokenizer(query,return_tensors='pt')
        inputs=inputs.to(model.device)
        output=model.generate(**inputs,**gen_conf)
        decoded_text=tokenizer.decode(output[0])
        decoded_text= decoded_text.replace("<s>","").replace("</s>","")
        return decoded_text[len(query)+1:]

生成结果：

query= "公司无故辞退摸鱼员工，是否触犯法律？"

law_answer(query)

<unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk><unk>

ImportError: cannot import name 'LlamaForCausalLM' from 'transformers'

当我运行demo/web.py程序是，得到如下错误提示：
ImportError: cannot import name 'LlamaForCausalLM' from 'transformers’

官方交流群微信二维码提示：超200人，无法加群

求更新：首页的微信群二维码

训练数据的量级及配比问题

请问chatlaw是否只使用了领域相关的训练数据?
若不是的话，领域数据/通用数据的配比及数据量能否透露？

能大概分享一下keyWord模型的训练思路吗

能大概分享一下keyWord模型的训练思路吗？是按照大模型训练还是小模型训练，需要多大的数据量呢

从“大学生扣饭事件”问题回答中发现的可优化的点

回答中直接提到了

Web UI

可以请问下前端的 Web UI 是怎么制作的么

“we fine-tuned an LLM to extract the keywords from user queries.”

是怎么从input中提取keywords的（甚至出现input中不存在的单词）？

fine-tune LLM后将input输入给LLM后得到的输出就是keywords吗?还是又对输出进行了处理得到的keywords？
@JessyTsu1

能不能通过司法考试呢？

Keyword LLM 是如何訓練的?

您好, 我的理解是要 fine-tune Keyowrd LLM 是需要先有對應輸入文章的關鍵詞輸出才能訓練。想請問是否有建構關鍵詞資料集?

训练语录数据

训练语录数据会开源吗？

请问一下 Law Text2Vec 这个模型的语料会开源吗？

内测申请

请问内测申请大概多久可以审批完成？

好东西希望能长期维护

交流群4满了，进不去了，还有新群吗

Self-Suggestion seems not provided in the demo code

"We propose a self-attention method to enhance the ability of large models to overcome errors present in reference data, further optimizing the issue of model hallucinations at the model level and improving the problem-solving capabilities of large models. "

Would you like to provide these parts of codes?