Comments (21)
目前感觉中文开源大模型效果最好的就是chatglm6b,大佬有内部测试过吗?
你是来砸场子的么?
from moss.
亲测,ChatGLM-6B强一些。例如你让它写一段react代码,感觉这个模型在胡言乱语
from moss.
实际上的效果6b大于16B
from moss.
亲测,一个略显尴尬的事实,ChatGLM-6B强不少
from moss.
实测了一下,和chatglm6b效果有不少差距,例如在做prompt tuning时,moss经常会无法准确理解用户的意图,导致回答很奇怪。不过考虑到moss基座只有16b,glm的基座是130b,语义理解能力有差距很正常。感谢moss团队的开源,期待后续尝试更大的基座,看能否有进一步提高
from moss.
理论上来说16B的模型效果肯定比6B的好
不是参数量越大越好的,moss16b实测效果不如glm6b,感觉跟基座模型能力有关
from moss.
我怀疑你在搞事情
from moss.
(⊙_⊙)
from moss.
+1
from moss.
哪位大佬用gpt4给来个测评
from moss.
理论上来说16B的模型效果肯定比6B的好
from moss.
能细细说下吗
from moss.
确实对效果挺好奇的。。。评测应该很快就有人做了
from moss.
实测了一下,和chatglm6b效果有不少差距,例如在做prompt tuning时,moss经常会无法准确理解用户的意图,导致回答很奇怪。不过考虑到moss基座只有16b,glm的基座是130b,语义理解能力有差距很正常。感谢moss团队的开源,期待后续尝试更大的基座,看能否有进一步提高
chatglm 6B的基座就是6B
from moss.
我看来看去,哪里写了16B?
from moss.
我看来看去,哪里写了16B?
看不懂readme的中文啊
from moss.
实测了一下,和chatglm6b效果有不少差距,例如在做prompt tuning时,moss经常会无法准确理解用户的意图,导致回答很奇怪。不过考虑到moss基座只有16b,glm的基座是130b,语义理解能力有差距很正常。感谢moss团队的开源,期待后续尝试更大的基座,看能否有进一步提高
chatglm 6B的基座就是6B
glm有个130b的基座,6b是基于这个优化训练而来的
from moss.
实测了一下,和chatglm6b效果有不少差距,例如在做prompt tuning时,moss经常会无法准确理解用户的意图,导致回答很奇怪。不过考虑到moss基座只有16b,glm的基座是130b,语义理解能力有差距很正常。感谢moss团队的开源,期待后续尝试更大的基座,看能否有进一步提高
chatglm 6B的基座就是6B
glm有个130b的基座,6b是基于这个优化训练而来的
“基于”其实基于数据和经验,并非基于130B的模型(6B不是130B蒸馏得到的),所以从模型规模来说,这就是6B。
from moss.
我看来看去,哪里写了16B?
看不懂readme的中文啊
这个README我是看不懂,一堆没用的中文,ctrl+F 16b 在哪呢?
from moss.
我看来看去,哪里写了16B?
看不懂readme的中文啊
这个README我是看不懂,一堆没用的中文,ctrl+F 16b 在哪呢?
16b就是160亿的意思,moss介绍里说了,它的参数量是160亿
from moss.
@MrToy @rayvzn119 @ykk648 @CodePothunter @YYGe01 @Aida-yy @ScottishFold007 @Siegfried-qgf @upupc @iron-js
之前README中给出的repetition penalty会导致代码生成质量低下,参考#42
from moss.
Related Issues (20)
- 求邀请码
- finetune的时候为何没有把<|Human|>的loss给mask掉?
- 微信群聊过期了
- moss-003-sft-plugin-data里面有很多错误
- 两张v100部署失败 HOT 2
- RuntimeError: indices should be either on cpu or on the same device as the indexed tensor (cuda:1) HOT 1
- 这是小时候的550W吗 HOT 1
- langchain+moss
- how to continue pretrain?
- export CUDA_LAUNCH_BLOCKING=1 Compile with `TORCH_USE_CUDA_DSA` to enable device-side assertions.
- 请问moss-003-pm-data偏好数据什么时间能开源? HOT 2
- how to run fnlp/moss-base-7b in multi gpus
- do_sample=True
- MOSS next release? HOT 3
- 你好,我想知道moss能否采用别的gpu调试 HOT 1
- 想问下moss的多轮sft数据是怎么制作出来的 HOT 1
- 你好,我有一个很有意思的想法。能不能提供帮助 HOT 3
- 多轮对话数据构造的时候是否会有上下文不一致的问题
- moss-moon-003-sft Jupyter测试失败 HOT 2
- moss为什么不更新了
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from moss.