Giter Site home page Giter Site logo

如果我想用自己的数据集来跑crslab上的模型(如KBRD和KGSF),该如何做数据的兼容性更改,是否有什么规范或教程可以提供的?因为我们看到crslab上已有的几个数据集好像都有做一些兼容修改。 about crslab HOT 1 CLOSED

rucaibox avatar rucaibox commented on May 26, 2024
如果我想用自己的数据集来跑crslab上的模型(如KBRD和KGSF),该如何做数据的兼容性更改,是否有什么规范或教程可以提供的?因为我们看到crslab上已有的几个数据集好像都有做一些兼容修改。

from crslab.

Comments (1)

Zilize avatar Zilize commented on May 26, 2024

我们的数据处理流程是这样的:

  • 先对原始数据集(比如ReDial和TG-ReDial)进行分词、实体链接等预处理工作,其中实体链接配备实体级别和词汇级别的知识图谱,处理得到的中间数据集存放在网盘上。

  • 开发者在本地部署并运行CRSLab之后,会自动调用Download模块从云端下载中间数据集,并在本地进行进一步预处理。此时在Dataset中预处理得到的数据符合统一的规范

  • 上述得到统一格式的数据之后,将会交给DataLoader进行模型相关的数据处理和分发。

如果您希望将您的数据集适配到工具包中,需要完成如下工作:

  • 完成分词工作。

  • 如果需要用到知识图谱(比如KBRD、KGSF等模型),则需要进一步的实体链接工作。

  • 构建适配您数据集的Dataset子类,并将数据处理成符合要求的格式。

后续工作将由目前的工具包自动完成。

补充:由于目前线下的工作流程(分词、实体链接等预处理工作)较为复杂,而它们又是进行人机交互(interact功能)必不可少的,我们正在考虑并计划将这部分工作纳入CRSLab;如果下一版本工作推进顺利,届时可直接下载原始数据集,并调用CRSLab提供的utility function即可完成数据预处理工作。

from crslab.

Related Issues (20)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.