Comments (7)
而且模型训练非常快速,我3000轮在一张a40上只花了30分钟?不知道是不是我的训练方式有问题?
from xrayglm.
现在大部分模型的微调都存在灾难性遗忘,有一些其它研究可能在推进,来改变这种现状。
from xrayglm.
而且模型训练非常快速,我3000轮在一张a40上只花了30分钟?不知道是不是我的训练方式有问题?
当然不是,BLIP2以及一些加速训练策略都在VisualGLM-6B融合了,所以其实是很快的。
from xrayglm.
作者您好,我使用您提供的模型,没有出现过拟合现象,模型可以正常识别普通照片,而我自己的模型却出现了无法识别普通照片的问题。同时我看了您bilibili的视频,您在4卡a100上训练花费时间2~3小时,这很明显比我花费的时间更长。所以我觉得是否需要扩大微调的数据集来防止模型过拟合。也就是将一些普通的caption数据集加入训练。
from xrayglm.
作者您好,我使用您提供的模型,没有出现过拟合现象,模型可以正常识别普通照片,而我自己的模型却出现了无法识别普通照片的问题。同时我看了您bilibili的视频,您在4卡a100上训练花费时间2~3小时,这很明显比我花费的时间更长。所以我觉得是否需要扩大微调的数据集来防止模型过拟合。也就是将一些普通的caption数据集加入训练。
- 这里虽然我们提到了2-3小时完成的训练,但是其实显存我们并没有充分利用,因为任务不紧急,我们只使用了较小的bs。
- 能够扩大数据集当然是最好的,但是如果在医疗多模态数据集中加入通用场景下的数据集这样其实似乎是不合理的。
from xrayglm.
感谢作者耐心回答,今天尝试只训练300 iters,模型还能保持看懂普通场景的图片,但是随着训练iters的增加,模型确实存在灾难性遗忘的问题。希望后续的研究工作可以缓解这方面的问题。
from xrayglm.
您的意思是,微调是在x光胸片上进行的,微调之后在这中自然场景图像上测试的是吗? 请问您在测试这种自然场景的图像之前,有没有在这种自然场景图像上再次微调呢? 还是说您是在这种自然场景图像上微调之后,测试的时候模型的输出仍然是x光的病症语句吗? 谢谢
from xrayglm.
Related Issues (20)
- 'Namespace' object has no attribute 'pad_token_id' 请问这个问题怎么解决呢! HOT 2
- 关于微调之后模型的表现能力的问题
- 有没有尝试使用CogVLM进行训练 HOT 3
- 使用qlora微调后,运行cli_demo.py 对应的权重,报错RuntimeError: The size of tensor a (12288) must match the size of tensor b (25165824) at non-singleton dimension 0
- huggingface远程加载模型不稳定 HOT 1
- 中文医学多模态数据集问题 HOT 1
- (*bias): last dimension must be contiguous HOT 4
- 请问多轮对话数据格式如何设计? HOT 1
- 运行训练脚本报错
- 使用提供的模型权重推理时报模型加载出错
- 运行cli_demo.py 程序卡住不动 HOT 1
- 微调真的学习到了图片中的内容,还是只学习到了文字的说话方式
- 是否能提供体验的链接
- exits with return code = -11
- 请问有没有定量指标的结果?
- 模型下载的网站打不开啦。。。。。
- BadZipFile: File is not a zip file”
- 在尝试进行多卡微调的时候报错,这是因为nccl版本的问题吗? HOT 3
- 请问如何获取最好的模型权重
- AttributeError: 'Namespace' object has no attribute 'pad_token_id'. Did you mean: 'bos_token_id'? HOT 1
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from xrayglm.