Comments (6)
谢谢啦!
from chinese-clip.
您好,关于您关心的数据集相关问题,我们在技术报告论文中已经给出了比较详尽的说明哈。论文链接:https://arxiv.org/pdf/2211.01335.pdf
from chinese-clip.
想问一下这2亿对的图片pair对可以提供下载链接吗?
from chinese-clip.
@ywdong 您好,感谢您对我们工作的关注!目前我们暂时还不提供2亿图片直接打包下载的方式,这部分数据主体(~1.8亿)是Wukong和LAION-5B中文部分两个公开数据集组成,都已经是可根据图片url公开下载的,推荐使用LAION官方人员提供的img2dataset开源工具下载即可,我们也是使用了这个工具,效率很高。直接将这些图片打包提供,可能也会涉及原数据集和原始图片的版权问题。希望理解~
from chinese-clip.
你好,感谢分享开源中文模型。想问下wukong和VG数据应用细节:1、wukong数据把训练集和测试集数据都加入训练了吗? 2、VG数据的应用方式是把box对应的区域&文本作为输入,还是整图&文本作为数据?
from chinese-clip.
@liaoxijuneu 您好,感谢对于我们工作的认可!关于Wukong数据,我们只使用了训练集,没有加入其测试集。关于VG机翻数据,我们是将一张图的区域描述文本(机翻版本)拼接在一起,与整图作为一个图文对。VG这部分数据量级,相比于Wukong和LAION两个来源比例是非常小的。
from chinese-clip.
Related Issues (20)
- windows 单机单卡 脚本运行 HOT 4
- 请问有用immich相册的吗?这个模型怎么集成进immich?
- 相同文图get_similarity的结果每次都不一样? HOT 1
- onnx的下载地址
- 数据准备格式疑问
- 图像描述数据集图文特征提取finetune HOT 1
- Finetune模型时遇到的一些问题 HOT 2
- 知识蒸馏的一些疑问 HOT 2
- muge + finetune + distllation 运行失败, 寻求帮助 HOT 1
- convert rn50x16 HOT 1
- 如何将模型微调后应用于图像分类?
- 升级成deepspeed 多机器并行会比启动torch 并行方便很多
- Transform image to base64 string use PIL problem
- 您好,我想进行文搜图的任务。在notebook的演示流程中有需要8G显存的微调流程,但是我的笔记本只有6G,请问是否可以不进行微调,直接进行尝试? HOT 1
- 相同的文本词,使用encode_text产出的结果不一样 HOT 1
- 自建数据集微调的疑问 HOT 1
- 预训练模型授权洽詢
- hugging face demo访问出错了 HOT 1
- loss 为0 HOT 1
- 训练数据集图文多对多的情况,直接采样分类交叉熵是不是有问题?训练集应该怎么处理?
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from chinese-clip.