Giter Site home page Giter Site logo

Comments (7)

Max-Teapot avatar Max-Teapot commented on July 22, 2024

而且模型训练非常快速,我3000轮在一张a40上只花了30分钟?不知道是不是我的训练方式有问题?

from xrayglm.

WangRongsheng avatar WangRongsheng commented on July 22, 2024

7a6308c70b469029321cfacad7edd89 模型在x光数据集上微调之后,变得只会说这些了。

现在大部分模型的微调都存在灾难性遗忘,有一些其它研究可能在推进,来改变这种现状。

from xrayglm.

WangRongsheng avatar WangRongsheng commented on July 22, 2024

而且模型训练非常快速,我3000轮在一张a40上只花了30分钟?不知道是不是我的训练方式有问题?

当然不是,BLIP2以及一些加速训练策略都在VisualGLM-6B融合了,所以其实是很快的。

from xrayglm.

Max-Teapot avatar Max-Teapot commented on July 22, 2024

作者您好,我使用您提供的模型,没有出现过拟合现象,模型可以正常识别普通照片,而我自己的模型却出现了无法识别普通照片的问题。同时我看了您bilibili的视频,您在4卡a100上训练花费时间2~3小时,这很明显比我花费的时间更长。所以我觉得是否需要扩大微调的数据集来防止模型过拟合。也就是将一些普通的caption数据集加入训练。

from xrayglm.

WangRongsheng avatar WangRongsheng commented on July 22, 2024

作者您好,我使用您提供的模型,没有出现过拟合现象,模型可以正常识别普通照片,而我自己的模型却出现了无法识别普通照片的问题。同时我看了您bilibili的视频,您在4卡a100上训练花费时间2~3小时,这很明显比我花费的时间更长。所以我觉得是否需要扩大微调的数据集来防止模型过拟合。也就是将一些普通的caption数据集加入训练。

  • 这里虽然我们提到了2-3小时完成的训练,但是其实显存我们并没有充分利用,因为任务不紧急,我们只使用了较小的bs。
  • 能够扩大数据集当然是最好的,但是如果在医疗多模态数据集中加入通用场景下的数据集这样其实似乎是不合理的。

from xrayglm.

Max-Teapot avatar Max-Teapot commented on July 22, 2024

感谢作者耐心回答,今天尝试只训练300 iters,模型还能保持看懂普通场景的图片,但是随着训练iters的增加,模型确实存在灾难性遗忘的问题。希望后续的研究工作可以缓解这方面的问题。

from xrayglm.

Suqingyong avatar Suqingyong commented on July 22, 2024

7a6308c70b469029321cfacad7edd89 模型在x光数据集上微调之后,变得只会说这些了。

您的意思是,微调是在x光胸片上进行的,微调之后在这中自然场景图像上测试的是吗? 请问您在测试这种自然场景的图像之前,有没有在这种自然场景图像上再次微调呢? 还是说您是在这种自然场景图像上微调之后,测试的时候模型的输出仍然是x光的病症语句吗? 谢谢

from xrayglm.

Related Issues (20)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.