Giter Site home page Giter Site logo

jiaxiangbu / rumor_detection_2019_ncovex Goto Github PK

View Code? Open in Web Editor NEW
13.0 2.0 6.0 4 KB

疫情期间互联网虚假新闻检测实现代码和解析

Home Page: https://jiaxiangbu.github.io/rumor_detection_2019_ncov/

License: MIT License

covid-19 multi-domain

rumor_detection_2019_ncovex's Introduction

rumor_detection_2019_ncov

The goal of rumor_detection_2019_ncov is to …

  1. 比赛官网: 疫情期间互联网虚假新闻检测
  2. 数据集地址
  3. GitBook: notebook
  4. Paper Review

赛题背景

新型冠状病毒肺炎(COVID-19)疫情威胁着国民健康和社会秩序,准确、及时地向民众传达疫情相关信息对打赢这场人民战争至关重要。然而,一些疫情相关的虚假新闻也在互联网上广泛传播,给防疫工作有序开展带来了极大的阻碍。疫情期间,大蒜、土霉素、维生素C、单枞茶、胡柚、花椒水等二十多种食物、药品被传有预防或治疗新冠肺炎的作用,后被证实无科学依据。这些假新闻给民众科学防疫带来了显著的负面影响。在社交媒体上,疫情有关的虚假新闻内容更新快、扩散速度快,但人工审核存在滞后低效的问题,因此,开展自动化虚假新闻检测工作具有重要意义。 本赛题针对疫情相关虚假新闻检测中面临的两个实际问题: 一、检测时效性要求高。此次新冠肺炎疫情影响广泛,每一条新消息的发布都牵动着全国人们的心,虚假信息易造成爆炸性、病毒式传播。但在传播早期,其传播范围小,社会危害小。因此,对虚假信息进行早期检测并及时阻断其传播,可以极大降低虚假新闻带来的危害。 二、缺少专用数据。短时间内,难以得到训练模型需要的高质量的疫情相关新闻数据。但学术界在多年研究中,已积累了丰富的历史数据。将历史数据上训练的模型迁移到疫情相关新闻的真假检测上,有助于快速获得高性能的特定领域(时间)的检测模型。 本赛题由**科学院计算技术研究所指导,旨在抑制本次疫情中虚假新闻的传播,营造清朗的网络舆论空间。

赛题任务

本次比赛提供多模态虚假新闻检测数据集,每条数据包括微博正文、评论、图片、所属领域等多个字段,包含三种类别,分别是无需判断,虚假新闻和真实新闻。训练集为和本次疫情无关的数据,评测集为和本次疫情相关的数据,要求参赛者将在其他领域学到的虚假新闻检测能力迁移到疫情领域中。同时,根据提供的评论时间进行划分,能越早进行进行检测的模型得分将越高。此外,本次比赛还提供一份疫情相关的辟谣数据集,可供灵活使用。

因此是一个多模态的多分类任务。

主要是通过分析图像和文本的 correlation,然后将图像和文本到同一空间(高德宏 2020)。

这里的多模态是提取图像和文本作为特征进行监督学习。

主要处理

  1. 文本数据词向量化,LSTM
  2. 图像数据 CNN 化
  3. 加入了 attention 提高准确率

不足/待办

  1. 图像没有加入 ResNet
  2. 加入 TF hub 的例子

Code of Conduct

Please note that the rumor_detection_2019_ncov project is released with a Contributor Code of Conduct.
By contributing to this project, you agree to abide by its terms.

License

高德宏. 2020. “FashionBERT 电商领域多模态研究:如何做图文拟合?.” 天池大数据科研平台. 2020. https://mp.weixin.qq.com/s/UQYG4fUbrGVwNPOd7_xQ6Q.

rumor_detection_2019_ncovex's People

Contributors

jiaxiangbu avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar

rumor_detection_2019_ncovex's Issues

zh.vec文件缺失

你好,我在尝试运行你的代码时,发现有个zh.vec文件,请问这个文件是哪里来的?我在比赛网站上并没有看到这个文件呀。
应该是自己做的中文词向量文件,请问能开源吗?

2.1 加载训练好的词向量 中,第一行
zh_model = KeyedVectors.load_word2vec_format('../data/zh.vec')

关于程序的一些个人问题

作者君您好,在实现代码过程中,应该是由于官方数据变化的原因,训练集多加了几个label,所以想问一下,np.save( "../data/train_label.npy",train["label"].to_numpy())生成的文件中train_label指的是什么?现有的是
ncw_ label:取值为{0,1},0表示需要进行真假判断,1表示不需要进行真假判断。
fake_ label:取值为{0,1},0表示非虚假新闻,1表示虚假新闻。
real_ label:取值为{0,1},0表示非真实新闻,1表示真实新闻。

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.