Giter Site home page Giter Site logo

data-journalism / data-journalism.github.io Goto Github PK

View Code? Open in Web Editor NEW
26.0 26.0 9.0 2.1 MB

My Book of Computational Journalism

Home Page: https://data-journalism.github.io/

License: Apache License 2.0

HTML 2.42% Smarty 0.19% Ruby 0.01% JavaScript 1.38% CSS 1.00% Shell 0.01% Jupyter Notebook 94.96% SCSS 0.03%

data-journalism.github.io's People

Contributors

chengjun avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar

data-journalism.github.io's Issues

案例 | “传统”数据新闻有何可取之处:《美国得州堕胎禁令被限制执行,为何讨论还未结束 》

Discussed in #67

Originally posted by XinhangLiao November 22, 2021
第1组
小组成员:陈俊沂 魏铱遥 吴昊明 廖欣航 林凌
《美国得州堕胎禁令被限制执行,为何讨论还未结束》
作品链接:https://m.thepaper.cn/newsDetail_forward_14811562

一、内容梳理
(1)德州堕胎法案,为什么美国社会反应这么大?
怀孕超过6周即不可堕胎

2218297e26b9bf31e03ad387fef2fae

数据:美国各州的堕胎“DDL”

专家:6周对于女性太过苛刻:围绕胎儿心跳的争议;女生通过月经判断自己可能怀孕。

(2)堕胎和反堕胎究竟在争什么?
从短时段来看:反堕胎和共和党选民画像

从长时段来看:20年来变化

横向和纵向对比。变量关联。
1995年至2021年美国民众对堕胎权的态度变化,身份标签对民众对堕胎权的支持程度的影响

a794a00cc5ae11e34fcc22a3c0889f4

共和党为什么要严格限制堕胎?

共和党的声称1:保护尚未出生的胎儿的生命。

反驳1:刻意回避把堕过胎的女性称为杀人犯。故作者得出结论:坚持“政治正确”,当然是为了选票。

例证1:特朗普在被正式提名为共和党候选人前夕提出应对接受堕胎手术的妇女施加“某种形式的惩罚”。遭到共和党人士的谴责。

例证2:共和党最初并不持有反堕胎的坚定立场。例子:1968年,美国加州支持堕胎权的改革法案,就是由共和党人士、时任州长罗纳德·里根签署的。
作者认为的深层原因:堕胎权成为共产党的民意基础的原因:天主教与新教福音派内部保守势力打入共和党内部,排挤其中的开明派。

共和党的声称2:反对堕胎是为美国长远的发展考虑,因为一旦放开限制,堕胎的数量会居高不下

反驳2:数据显示无论以哪个维度衡量,美国的堕胎案例都呈下降趋势,共和党的忧虑显然是站不住脚的。
81ca8cf608800e88e9026d4f07427db

(3)反堕胎可能仅仅是起点——反堕胎法案和宪法的关系

宪法背景:1973年,美国最高法院对罗诉韦德案(Roe v. Wade)案做出了判决,以7比2的票数认定

“三阶段标准”:在孕期第一个阶段(即孕早期,第1至第12周),政府不能禁止堕胎;
孕期第二个阶段,政府可以限制堕胎,但应以保护孕妇健康的需要为必要前提;
在孕期第三个阶段(即孕晚期,大约在孕28周至分娩),除去为挽救母亲生命或健康的例外情况,政府可以全面禁止堕胎。

保守派的“曙光”:最高法院法官的保守倾向
1a2231ae146d8d3deace3f45ee52697

得州法律如何绕开了宪法规定?
将限制堕胎的权利“委托”给了与孕妇或诊所毫无关系的公民个人,鼓励他们向法院检举与起诉所有实施或“协助和唆使”(“aids and abets”)堕胎的个体,若胜诉,原告可获得1万美元的奖金。如果期望以违宪为由废止该法律,人们通常需要起诉执行法律的州政府官员,但遗憾的是,后者并未参与其中,因而得州新法也难以因此在法庭上被挑战。

其他议题是否也会效仿?

二、数据实现
(1)数据来源分析
1、Guttmacher Institute古特马赫研究所
https://www.guttmacher.org/state-policy/explore/overview-abortion-laws

作为一家研究生殖健康政策的非营利组织,是唯一一家致力于计算美国所有堕胎数量的机构,统计结果公开在官方网站上。本图所用的各州数据在网站“流产——国家法律和政策——堕胎法概述”中可以获取。

3e9d6619afadd03d5cbc307fd0dcfd6

2、Pew Research Center独立民调机构
https://ropercenter.cornell.edu/pew-research-center
f76ce5b34ef3447e8c16b990d15d69c

(2)可视化分析
没有交互的静态图如何做的清晰?
数字的标用
标题和图例

三、为什么推荐这一篇“传统”数据新闻
(1)信息增量
在现行宪法下,红州普遍堕胎期限为22周,蓝州为24周以后。得州法案绕开宪法,限制堕胎期限在6周。

20多年来,美国民众对堕胎权的态度变化不大
不仅女性,男性整体也支持堕胎权。
新福音教白人新教徒是唯一不支持堕胎权的宗教类型
年龄和受教育程度,与支持堕胎权的比例相关
30年来,美国堕胎数量显著下降。共和党认为一旦放开限制,堕胎的数量会居高不下
是不正确的

保守党的野心
美国对堕胎的既有判决,保守党如何绕过宪法

(2)如何提供读者不关心的知识:解释的维度
横向和纵向;应然和实然;历史与未来

四、存在的问题
(1)“客观”的民调?

美国全国民意调查评议会(NCPP)建议,新闻媒体在报道民意调查前先要回答20 个问题,诸如谁做的调查?谁资助了调查?采访了多少人?被访问者是如何挑选的?结论是否基于所有受访者的反馈?反馈率是多少?何时进行的?问了什么问题?这些问题的顺序如何?结论与其他相关调查是否相同?等。

哥伦比亚广播公司(CBS)的规定除了NCPP 的20 个问题外,还要求审查统计误差、问题表述,等等。CBS 还规定,关于民意调查本身的报道要尽可能多地介绍民调特征和背景。CBS 禁止报道和引用“伪民调”(尤其是自选择调查)。

《用数字说话:民意调查如何塑造美国政治》 苏珊·赫伯斯特

(2)“遥远”的叙述?

如何贴近**显示?堕胎与人口?**的堕胎情况?美国的堕胎权案例历史?

(3)清晰的可视化?

动态交互的优势。

案例:跨越时空的奥运比赛

Discussed in #39

Originally posted by Fanhr September 27, 2021
小组成员:洪梓栋、范宏瑞、陈文杰、税戈洋、史书晓

作品链接

澎湃新闻:H5|东京奥运会前,我们让所有奥运冠军一起PK了一把

纽约时报:One (imaginary) race with every medalist ever

final.1037f052.mp4

创作缘起

这篇数据新闻受《纽约时报》8月1日发表的文章《One race with every medalist ever》的启发,介绍了1896-2016间田赛、径赛、游泳、射击等众多奥运项目的冠军成绩变化,以体现人类在各项奥运项目中对于更高、更快、更强的追求,回溯人类近百年来在运动方面不断突破极限的足迹。

纽约时报的文章主要介绍了跳远、百米赛跑和游泳三个项目自进入奥运会以来的成绩变化,并都制作了视频作相关介绍,而澎湃的这篇数据新闻则搜集了几乎所有的奥运项目自进入奥运以来的冠军成绩变化。

image
image

(纽约时报关于男子100米自进入奥运会以来的成绩变化的可视化作品截图)

内容介绍

引入:1996亚特兰大奥运会和2012伦敦奥运会100米冠军比赛过程的对比(视频)

  • 作男子100米历届(1896~2012)冠军成绩曲线图
  • 提出疑问:当2012年的博尔特跑到终点时,1896年的伯克刚跑了80.25米,那120年来奥运会各赛事项目都前进了多少呢?

数据呈现

  • 作1896-2016田赛、径赛、游泳、射击奥运冠军成绩变化图:

以每个项目首次进入奥运会的成绩为标准值,将历届奥运冠军成绩相连,绘制出一根根成绩线,绘制出一根根成绩线,纵坐标表示选手在其比赛项目上的长度、高度或速度成绩,位置越高则成绩提升越快。

数据分析

  • 奥运会成绩提升最厉害的项目:男子铁饼;
  • 奥运会上纪录被打破次数超过14次的运动项目高达18项;
  • 女子4×100游泳接力冠军成绩曾被突破22次;
  • 到2016年里约奥运会为止,有16项奥运项目至少5届未能突破历史最佳成绩;
  • 最受瞩目的世界纪录:1968年鲍勃·比蒙9米的跳远成绩至今未被超越;
  • 科技的进步让我们更好地突破极限——如撑杆器材的进化让撑杆跳成绩节节高

附自由探索界面:读者可自行查看任一体育项目近百年来的奥运冠军成绩变化曲线

升华主题

提出疑问:奥运会的比拼已经进入白热化阶段:我们是不是逼近极限了?

1935年著名田径教练布鲁图斯对跳远、跳高等田径项目做出的预言已被打破,记录正不断被人类刷新——我们无法预测奥运项目中人类的极限。

开始的视频其实是参照纽约时报的做法,让历届百米飞人同台竞技,做了一个可视化,并把视角换到俯视图使得画面从竞赛视频巧妙地变成一个散点图。在散点图上,就能非常直观地看出随着时间的变化,奥运选手跑得越来越快。

可视化效果分析

1、动静结合、视角桥面的折线图

新闻主题是运动相关,在案例引入中,呈现贝利和博尔特两位冠军的差距时,由动态的视频对照,转变为静态的折线图,且将运动员轨迹连成折线,非常巧妙地体现出距离的差距。

image
image
image

2、插入视频,场景再现

在选取特殊案例时,展示了比赛现场的视频片段,更有视觉冲击力和代入感。

image

3、互动性好、检索功能强

在该新闻的最后一个板块,读者可以自由选择想要查看的历届奥运会冠军成绩,同时对标到折线图上的位置,检索便利,且达到了比较的效果。

image

image

4、热血漫画、简笔风

该新闻虽然是奥运会的宏大主题,但不落窠臼,利用热血漫画的整体风格,将运动精神朴实地呈现出来,也更有观赏性,受众更广且更容易产生兴趣。

image

5、音效和视觉的双重效果

音效上,从新闻开始就利用比赛现场原声烘托了整体氛围,与所提供的各个比赛夺冠片段一同对读者感官产生冲击。

与纽约时报报道的区别

纽约时报和澎湃的处理方式有一些细微的差别。纽约时报仅做了男子百米、自由泳和跳远三个项目的可视化,而且差距是以距离来衡量(即最快/最高的人和其它人的距离差别);而澎湃则扩展了项目的范围,扩大至所有夏季奥运田径项目,在曲线的处理上维度是成绩,也就是最高点就是世界记录,所以在径赛中时间越短坐标越高(这一点其实不是很好)

纽约时报的形式是视频+可互动的散点图,每个点的颜色代表国籍,鼠标选中可以显示名字和成绩。澎湃的形式更加符合移动传播,是H5页面,开头有动漫风的视频作为引子,随着下滑不断推进叙事,并且整个数据可供读者自选探索,更为自由。

不过,纽约时报和澎湃的处理方式有一些细微的差别。纽约时报仅做了男子百米、自由泳和跳远三个项目的可视化,而且差距是以距离来衡量(即最快/最高的人和其它人的距离差别);而澎湃则扩展了项目的范围,扩大至所有夏季奥运田径项目,在曲线的处理上维度是成绩,也就是最高点就是世界记录,所以在径赛中时间越短坐标越高(这一点其实不是很好)

纽约时报的形式是视频+可互动的散点图,每个点的颜色代表国籍,鼠标选中可以显示名字和成绩。澎湃的形式更加符合移动传播,是H5页面,开头有动漫风的视频作为引子,随着下滑不断推进叙事,并且整个数据可供读者自选探索,更为自由。

技术实现

我们采访了参与这篇报道的澎湃新闻实习生李嘉豪,了解做出这篇数据新闻的技术路径。首先是数据源:国际奥委会官网以及Olympedia奥运百科网站。这两篇网站有历届奥运会各项目冠军的记载,但是没有打包的数据集合,需要爬虫爬取名字、照片、国籍、时间和比赛成绩等数据,并对疏漏的地方人工清洗和补充。

而开头的动画,则需要视频动画团队进行制作,涉及AE等软件的使用。

另外,这样的H5作品具有良好的移动设备适配和交互性,也需要一定的开发工具。澎湃新闻使用的开发工具如下:

1. Scrollama.js —— 滚动交互

Vue Scrollama是一个可轻松设置滚动驱动的交互的组件。直接放置在Scrollama组件内部的任何元素都将被视为步骤。随着用户滚动,将触发并发出事件,可以对进入,退出或通过视口的元素进行监听。

观察《奥运》的H5源码,可以发现其自动展示部分主要是由11个事件(或者说是Step)构成,当用户上下滑动时,会进行步骤间的切换,从而呈现不同主题的信息。

image

image

2. webpack —— 打包压缩

webpack 是一个模块打包器。webpack 的主要目标是将JavaScript 文件打包在一起,打包后的文件用于在浏览器中使用,但它也能够胜任转换(transform)、打包(bundle)或包裹(package)任何资源(resource or asset)。Webpack 可以将多种静态资源 js、css、less 转换成一个静态文件,减少了页面的请求。

image

3. Vue-cli —— 组件式开发

vue-cli 是 Vue.js 开发的标准工具。它简化了程序员基于 webpack 创建工程化的 Vue 项目的过程。

根据封装的**,把页面上可重用的 UI 结构封装为组件,从而方便项目的开发和维护。

《奥运》中最后的自由探索Part就是由搜索组件、信息框组件、数据展示组件三个部分组成。

image

image

4. canvas —— 视频控制

是 HTML5 新增的元素,可用于通过使用 JavaScript 中的脚本来绘制图形。例如,它可以用于绘制图形、制作照片、创建动画,甚至可以进行实时视频处理或渲染。这里需要划重点的是, 只是一个画布,本身并不具有绘图的能力,绘图必须使用 JavaScript 等脚本语言。

《奥运》通过在一个 canvas (画布)上结合 video 元素功能,实时地操纵视频帧数据来合成各种视觉特效到正在呈现的视频画面中。

image
image

优点与缺点

本数据新闻案例优点如下:①互动性较强,受众可以自由选择自己感兴趣的奥运会项目进行单独的查阅;②结合事实,在奥运会期间推出数据新闻热度较高;③可视化效果好,H5动画呈现让受众一下子就被吸引。

但是,它也有可以进一步探索,从信息跃迁为知识的空间。比如:可以结合近年来运动科学、医学、营养学等的发展,尝试解释人类不断突破背后的原因,进而为读者提供更多的知识,而不是仅仅呈现了一个历史维度比较的信息。它还可以和其他方面的数据做对比,比如**日渐下降的体测平均成绩,揭示出体质方面上出现的“马太定律”。此外,这个案例最为巧妙的在于开头的动画效果将跨越时空的赛跑转换为以跑道为纵横坐标的散点图,但这个创意却是纽约时报的报道先做出来的。总的而言,国内的数据新闻在可视化和交互上比起国外媒体缺乏一些创意。

综合而言,这是一篇很有趣、能够快速捕捉到热点的数据新闻,也有翔实的数据呈现以及精美的可视化。澎湃新闻美数课团队,在华语媒体中也属于数据新闻的第一梯队,值得我们学习。

案例:华盛顿邮报 | 俄罗斯甲烷泄漏

Discussed in #60

Originally posted by Fanhr November 8, 2021
第三小组
小组成员:洪梓栋、陈文杰、范宏瑞、税戈洋、史书晓
《Russia allows methane leaks at planet’s peril》
2021年10月29日刊载于《华盛顿邮报》

新闻介绍

2020年6月4日上午,俄罗斯鞑靼斯坦州的一条地下天然气管道发生了泄露,欧洲的卫星监测到了这次泄露,并描绘出了一幅甲烷气体泄漏的图景。根据美国宇航局的数据,甲烷作为天然气的主要成分,是仅次于二氧化碳的第二大温室气体,大约占工业革命以来全球变暖的四分之一。俄罗斯是全球第二大天然气生产国,在全球变暖的趋势下,美国和欧洲发起了一项全球甲烷承诺,旨在到2030年减少近三分之一的甲烷排放。数十个国家,包括9个世界甲烷排放量前二十的国家,已经签署了协议,但到目前为止,俄罗斯还没有。
华盛顿邮报以6月4日的泄露事件为切口,向读者展示了俄罗斯甲烷泄露的现状与疑点,号召重视甲烷排放这一环保问题。

叙事路线与内容

引入

6月4日星期五上午,俄罗斯鞑靼斯坦州的地下天然气管道发生了泄漏。

这次的泄露并不是小事,且更多我们未曾关注到的泄露正在不为人知的地方发生。

监测卫星可以提供大规模、未报告的甲烷泄漏的实时证据,以及谁应该对此负责。科学家用卫星测量来试图解释世界上的甲烷排放。

这些卫星的披露可能会使11月在苏格兰举行的一个关键的联合国气候峰会进一步复杂化。在这次峰会上,世界各国领导人将面临削减温室气体排放的压力,而许多国家尚未兑现他们在2015年制定巴黎气候协议时所做的承诺。

科学家们表示,迅速减少甲烷排放很可能是减缓气候变暖速度的最有效的方法。近年甲烷排放量居高不下。多国已经签署了协议减少甲烷排放,但不包含俄罗斯。

针对俄罗斯甲烷排放的数据分析

1、俄罗斯声称,2019年石油和天然气部门排放了400万吨甲烷。但邮报回顾了六项研究和科学排放数据集,发现近年来俄罗斯的排放量官方数据要高得多,在某些情况下是前者的两到三倍。经总部位于巴黎的国际能源机构(IEA)证实,俄罗斯2020年的甲烷排放量接近1400万吨,这将使俄罗斯成为世界上最大的石油和天然气甲烷排放国。
2、俄罗斯一再修订其排放量的计算方法,不仅缩减实际排放数据,而且还回调过往的预估排放量。2010年,在向联合国提交的一系列年度报告中,俄罗斯将当年石油和天然气甲烷排放预估量从1540万吨改为3150万吨,再到2470万吨、2360万吨、650万吨、510万吨。2006年,俄罗斯向联合国报告的石油和天然气相关甲烷年排放量显示,自1990年以来,石油和天然气行业的年排放量约为1000万吨。但是后来又多次调整数据,甚至出入很大。俄方宣称,排放量的误差来自于基础设施故障和难以追踪,这也是他提出联合卫星监测的原因之一。
3、在最近的报告中,俄罗斯修订后的油气甲烷排放数据处于目前为止的最低水平。专家表示,虽然过去报告的非常高的数字可能有些夸张,但在现在看来,这个国家确实低估了其甲烷问题。
4、应《华盛顿邮报》的要求,来自环境保护基金(EDF)和哈佛大学的专家试图利用哨兵5p卫星收集的红外数据、使用一种被称为大气“反演”的技术来测量俄罗斯最近的排放量。据估计,在俄罗斯最大的石油和天然气地区,他们每年会排放760万吨甲烷,而全国共830万吨。这是俄罗斯最新报告数据的两倍多。
5、欧洲监管机构正计划在贸易战中开辟一条新战线,征收进口税,以惩罚在欧洲销售天然气、同时也留下甲烷排放隐患的公司。科学家和监管机构一致认为,减缓全球变暖产生最快速有效的方法是定位及减少煤炭、石油和天然气燃烧而带来的甲烷排放。20多年来,它对气候变暖的影响是二氧化碳的80倍多,并且在油气行业捕获甲烷在技术上是比二氧化碳简单的。有科学家称,如果世界尽最大可能减少甲烷的排放,到2050年,将把全球变暖限制在0.3摄氏度内。

俄罗斯的天然气工业现状

俄罗斯庞大的天然气业务的中心位于一个比宾夕法尼亚州更大的偏远半岛,这个半岛位于北极圈的北部,他们去年生产了1000亿立方米的天然气——占天然气全球输出的2.5%。然而,尽管甲烷排放量的增加使地球升温,俄罗斯也没有阻止天然气生产的计划。
俄罗斯北极部分地区的气温已经是全球平均水平的两倍甚至三倍。如果这一趋势持续一个世纪,这样的变暖将摧毁大片的北极永久冻土地区,农田和城市都将持续升温,摧毁软化土壤中的石油和天然气基础设施。
长期以来,俄罗斯一直因设定较低的气候目标、没有采取更多措施遏制其大规模化石燃料工业而面临批评。气候行动追踪器公司的专家们将俄罗斯目前在2030年巴黎协定里所定的目标评价为评为“非常不足”。
对全球变暖的新关注并没有延伸到俄罗斯的天然气管道网络上,天然气泄漏很少引起媒体的关注。即使在俄罗斯的环保活动人士圈子里,甲烷也很少被讨论——尽管天然气高泄漏会使其比煤炭泄漏更有害。
然而就马克西姆·埃夫多基莫夫(多年在俄罗斯各地的气田担任建筑和机械工头)的态度来看,大多数人并没有意识到甲烷泄露是一种危害。
俄罗斯的天然气企业仍被默认为“禁区”。比如位于亚马尔半岛大部分地区的主要天然气设施周围地区,未经国家安全部门特别许可的非俄罗斯人被禁止入内。
俄罗斯庞大的天然气基础设施是人们怀疑俄罗斯的甲烷排放量与俄罗斯自己最近的估计排放量有巨大出入的原因之一。文章接着介绍了甲烷泄露的三种方式,俄罗斯天然气工业股份公司在俄罗斯的管网约为1.1万米,但他们的天然气设施十分容易引起甲烷泄露,他们鉴别并处理甲烷泄露的方式也很古老,并且最终并没有从根本上解决甲烷泄露问题,更别提大多数时候,他们会选择不处理而直接排放泄露的气体。
此外,俄罗斯天然气工业股份公司只有在释放量超过国家规定的配额后才会面临罚款。俄罗斯最高气候顾问埃德尔格利耶夫说,一旦监管机构完成审查,俄罗斯天然气工业股份公司可能会倒闭付钱。但他认为,国家管道那么长,他们的情况不算很严重,或者说,国家的标准很低
然而,对标更高要求的环保标准,俄罗斯甲烷泄露的现状十分严峻,甲烷泄露事故频发,也引发了国际社会越来越广泛的关注,多数设施和操作都需要全面整改。

文章紧接着介绍了目前各种监测甲烷泄露的监测技术,而由这些技术检测到的数据显示,甲烷排放问题理应得到更多重视,这是一个不可忽视的环境问题。

俄罗斯甲烷泄露问题引起更多重视

随着格拉斯哥气候会议的临近,俄罗斯已经详细绘制了用化石燃料铺成的路线图。该公司表示,其温室气体排放量将在未来30年内每年增加8.2%。但据说,植树、恢复湿地和遏制野火将使俄罗斯森林吸收二氧化碳的能力增加一倍,并抵消气体排放的增加。
欧洲拟议中的气候税可能会对俄罗斯带来新的考验——它将适用于所有东西,包括钢铁、制成品和天然气,不仅适用于俄罗斯,而且适用于美国墨西哥湾沿岸的液化天然气。
鉴于俄罗斯庞大的石油和天然气行业,气候峰会观察人士透露,他们说服俄罗斯总统普京堵塞俄罗斯泄漏的管道,并推迟增加天然气出口的计划,这是很重要的。
全球各地的科学家也正在努力从各个方面试图解决甲烷排放问题,环保之路任重道远,每个国家都应承担起其应有的责任。

可视化图表的分析

1、报道引入介绍部分可视化呈现方式形象具体,帮助读者快速构建认知
该报道开篇在介绍事件发生背景时运用了立体地图定位的方式帮助读者快速的了解甲烷泄露事件所发生的事件地点及如何探测出甲烷泄露;伴随着报道讲解的不断深入,地图的精度也不断提升,同时还用颜色的深度来帮读者还原泄露的情况。
image

2、报道阐释甲烷如何泄露时采用了模拟动画的方式,帮助读者理解
该部分,报道中首先讲述了甲烷泄露的三种原因,即排气、燃烧和泄露,并还原呈现了勘探钻井现场到管道运输再到市场的全过程动画,借助每个环节动画中的气体逸出的颜色深度来帮助读者了解此环节在真实过程中可能出现的甲烷泄露情况
image
https://user-images.githubusercontent.com/62193117/140712407-4d61f9ab-8cd9-4231-a396-4fec68954a2f.mp4

3、采用折线图清晰呈现俄罗斯每年提交的甲烷排放数据并进行纵向、横向比对
由于报道中讲述了俄罗斯每年向联合国提交的甲烷排放数据变化极大,出现了多次修改数据的情况,甚至前后出现了降幅达90.5%的情况,因此作者制作了俄罗斯自2006年至2021年陆续提供的8份报告的数据折线图,来对比前后的差异。
image

4、采用滚动信息条的方式配合可视化呈现
在该报导中,所有可视化呈现过程中都配有一定的文字说明或者信息补充,其呈现方式都伴随着可视化的不断深入而逐步滚动出现,如伴随着勘探钻井现场到管道运输再到市场的全过程动画,每个环节动画的出现都伴随着文字的解读和说明,这样帮助读者及时理解内容不需要前后翻找,极大地降低了阅读的成本。

优点:

1、可视化呈现方式形象具体,帮助读者理解,同时十分简洁明了,并不会显得报道内容头重脚轻
2、动画效果出色,报道运用了动画动态还原的方式还原了事件发生的时间地点情况并讲述了背后的原因
3、在文字多但没有图表的地方插入摄影图片,丰富阅读的视觉感受

缺点:

可视化呈现方式较为单一,在图表呈现上仅采用了折线图一种,相比于动画呈现则较为单一,可能可以运用更多的图表来帮助读者更好地理解报道中的数据。

技术路线

1. Mark标签

Mark是H5支持的一种标签,顾名思义主要用来突出显示部分文本。
image
本篇报道中广泛运用了Mark标签,如下图所示,并在其基础的突出显示功能上,自定义了 “拓展卡片”功能(见下图)。当前台检测到用户的鼠标点击事件时,会从侧边栏弹出一个富文本卡片,针对该词条进行一个更为细致的说明。与此同时,页面除卡片外的其他部分都会叠加一个类似于淡化的效果,让读者将注意力聚焦到卡片之上。
image
我们从网站的CSS外链中提取出了有关mark部分的源代码,发现开发人员针对不同的事件(hover,click,before等)设置了不同格式的Mark标签,充分体现了HTML语言及CSS框架的开放性、多样化特点。
当我们点击Mark标签所覆盖的文本时,会触发相应的响应机制(类似于超链接),网站会自动定位并调取与该文本对应的富文本卡片,卡片都是按下面格式的格式进行定义,并调用了一些自定义的CSS样式。

2. 动态交互

本网站可视化的一个亮点是酷炫的动态交互。

2.1 空间变换

以3D地图为背景,当网站监测到前台的滚动事件时,不仅会有文字上面的变动,而且3D地图的聚焦点也会发生偏离,那么这一特效的背后是有什么黑科技呢?
image
image
我们找到了该部分的实现源码,没有像预料的那样是通过调包、调模块实现,很令人惊讶,该动态交互部分居然是通过HTML/JS/CSS一行行代码原装写出来的,主要运用到的包括canvas,transform,dom等。
其中Transform属性应用于元素的2D或3D转换。这个属性允许你将元素旋转,缩放,移动,倾斜等。
canvas 元素则用于图形的绘制,通过脚本 (通常是JavaScript)来完成,canvas标签只是图形容器,您必须使用脚本来绘制图形。
Js主要用来监测用户的滚动操作,并将位移参数传给transform等,实现对应的元素移动。
image
image

2.2 内嵌图表

和3D地图类似,这张亮眼的内嵌折线图也是通过原生的HTML/CSS/JS实现。
它整体被封装在SVG>G的矢量位图标签内,G的内部由若干个Line标签组成,每个Line标签对应显示在G图中的一条折线,Line标签内含Opacity(不透明度)属性,据此来呈现不同事件时间段的预设显示内容。
image
另外该内嵌图表还采用了“背景不动前景动”的设计,图表展示完毕后,随鼠标滑动而变动的是出现在图前的文字,而图表本身并不会发生变化,属于当前比较流行的一种样式,实现代码如下。
image

案例:数据新闻的另一种视角与实现——《转角遇到爱》作品分析

Discussed in #43

Originally posted by Tiffany0718 October 11, 2021
作品链接:https://h5.thepaper.cn/html/zt/2018/08/seekinglove/index.html

简介:获得2018年SND(美国新闻媒体视觉设计协会)最佳数字设计铜奖。选一个晴天的周日,从上海人民广场地铁站9号口出门,左手边就是闻名全国的人民广场相亲角。五六十岁模样的大叔大妈们带着伞和小板凳,在这里为他们的晚辈寻觅一份姻缘。澎湃新闻(www.thepaper.cn)和姐妹英文媒体“第六声”的数据记者花费了六个周末的时间,收集了874份相亲广告。从中可以读出关于618位女士和256位男士的觅爱故事。

创作缘起

1、“相亲”“催婚”的话题是当下热门的社会话题,媒体也会聚焦于此,且主创团队的成员也有被催婚的经历;
2、目前这个题材被做的很多,但是在数据方面挖掘的并不多。
3、方向确定:数据新闻编辑部试图把相亲角每一把伞上的信息收集起来,在对数据中的个人信息进行脱敏后,从微观的视角来看看这些信息背后有什么特点。编辑部把这些文本数据结构化后,想看看在相亲角这个地方,人们(更多是家长们)是如何定义自己(的孩子),如何描述想要的对象,以及人和人之间价值是在一个什么样的基础上进行交换的。

内容介绍

引入:上海相亲角的俯瞰图
-记者前往上海人民广场相亲角6次收集了874份征婚启事
-地图显示上海相亲角的位置
image

数据呈现
收集到的874份征婚广告经过脱敏处理,每则广告由一把伞来表示,广告的内容按照_【性别、年龄、学历、户口、退休、海外】_几类条件呈现为不同颜色的伞沿。
image

874份征婚广告代表着874个人,按照性别,男士用蓝色的小球来代替,女士用红色的小球代替,用柱状图、桑基图、条形图等对比分析了相亲者的_【年龄、身高、婚姻状况、出生地、户口、学历、工作、年薪、外貌、性格、兴趣爱好、家庭状况、房产】_情况。
image
image
image
image
image

数据分析
-以性别为基础分类
-例举典型、展示信息填写率
-要求“门当户对”的比例:没有直接给出数据,但用深色小球表示
image

-相亲人年龄:女性更加年轻,男性年龄分布更加平均
-相亲人对对方年龄的要求:男性更偏好比自己年轻的,女方对年龄的要求比较分散
-对房产的要求:男性大多不要求对方有房产,有房产要求的男性基本自己都有房产,展示了房产条件与要求的细节。
-户口要求:最能看出资源互换的意味。
-兴趣爱好:填写率过低,内容大多集中于“无不良嗜好”。
-性格的自我描述:存在严重的同质化。

升华主题
【展现事实,提出问题】
作品最后引用孙沛东教授对于“相亲”这一现象的描述:“以关爱为情感基础的相亲活动,反而成为一种变相的商品交易活动...真正具有情感内容的过程——谈情说爱的过程——被舍弃了”这一点可以在极低的兴趣爱好填写率和高度同质化的性格描述中得到印证。相亲角的男男女女,多数更加关注物质条件,很少关注未来的另一半、甚至自己的精神世界。“

上海政府网曾有报道称,这里的成功配对不足1%。从澎湃新闻的相亲角数据库来看,相亲角的男女至少有十对是可以互相精确匹配的。TA们,有遇见彼此吗?”这个作品想展现的不仅是相亲角中男男女女的自身情况和相亲要求,更多地是想唤起对于当代社会人际关系的思考。

可视化效果分析

调查数据形象呈现:易读性
报道巧妙地用伞来象征相亲角的征婚广告,每把伞代表一则广告,并用6种不同的伞沿颜色表示不同的条件类型。最终将他们的调查结果用出现的伞沿颜色显示出来——伞沿有颜色,则表示该广告中出现了相应条件类型的描述。
image

报道中除了列举了每则广告的类型条件,还以图文结合的形式展现了整体的征婚条件。
image
image

对比分析
涉及需要对比分析的数据,大多数报道会采用条形图或百分比数据等方式来展示。该报道将每一个调查数据视为一个小圆点,并用不同颜色划分性别,用不同颜色深浅划分满足的条件类型。
image
image

报道以运动的小球为主,以数轴、折线、文字、词条多形式为辅相结合的方式来展示并进行对比分析,既表现了每一个类别的具体数据,又方便读者对各种类别的数据进行直观的对比。
image

数据动图:动态呈现自身条件与需求差异
报道使用数据动图,将抽象的数据含义用丰富的可视化图表表现得更加具象,同时也通过动态的形式来反映上海相亲角的征婚人群自身条件的差异以及需求的差异。
image
image

交互体验——参与和互动
报道除了将数据直观地展示给读者,也会让读者自主选择。数据的表现形式也不仅仅是数字或图形,同时也注重用户对数据的体验。报道中的数据除了有具体量化的表现形式,还利用了交互式的伞状图,通过点击不同的伞就可以看到不同的征婚广告,更加具有沉浸感、交互性和想象力,让读者能够产生更多互动,增强参与感。
image

技术实现

数据脱敏
《转角遇到爱》中的一大特点就是对文本数据的处理,其中进行了隐私内容脱敏处理。这个过程的主要目标就是,这几种信息合在一起,不让涉及到的相亲男女周围的人察觉到他们是谁。比如,有个人是“市级医院XX主任” ,当时大家觉得已经去敏了,但吕老师就觉得,这条信息和其他信息放在一起,他周围人的可能一下就会认出来所以就又做了一步“医院科主任”这样范围就更模糊了。

这就是我们常说的数据脱敏。数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。这样就可以在开发、测试和其它非生产环境以及外包环境中安全地使用脱敏后的真实数据集。

如果大家对数据脱敏的做法感兴趣,或者想了解如何进行数据脱敏处理不妨参考下面的链接。
数据脱敏的6种方案_胖大海-CSDN博客_数据脱敏的常用方法:https://blog.csdn.net/u010517268/article/details/112864274

Swiper
我们经常在看很多H5的数据新闻时,会看到滑动滚播的效果,这种效果很显然也在《转角遇到爱》中获得了实现。这其实和一款基于JAVA SCRIPT的插件有关。这个小魔法就是Swiper。

swiper是一款轻量级的轮播图插件,不仅支持pc端更是为移动端而生,用它可以快速地做出一个轮播图,或者扩展使其做出复杂的轮播效果。Swiper常用于移动端网站的内容触摸滑动。Swiper能实现触屏焦点图、触屏Tab切换、触屏轮播图切换等常用效果。Swiper开源、免费、稳定、使用简单、功能强大,是架构移动终端网站的重要选择!如果想了解如何使用Swiper实现自己想要的效果,可以参考以下的链接。

Swiper中文网-轮播图幻灯片js插件,H5页面前端开发:https://swiper.com.cn/

总结

这个作品向我们诠释了数据新闻的另一种可能。这也就迎合了该作品的主创人的初期想法。“数据新闻,不一定要是非常数字化的东西,其实在我们的生活当中有很多可能被我们忽略到,但是放在一起就是一个很有趣的数据点,大家可能会觉得原来这个题可以这样子做,用数据的方法去做。”邹熳云分享道。这其实给我们做数据新闻的时候也提供了另一种思考的路径,什么样的东西可以成为选择数据新闻的选题,又可以怎样做?这些都是再去省思的点。

但是该作品的数据收集与数据分析部分并不是十全十美的。首先,数据收集的这874份相亲广告存在很强的随机性,所以并不能深入挖掘现象与问题,最多只能算是一种尝试。主创团队承认八百多份的样本量,还不足以证明任何假说。但是,这足够让我们对现在的相亲市场乃至婚恋市场进行一场深入的观察。其次,针对问题我们才找到文本数据来支撑分析,然而这个前提在于文本内容本身符合我们方向与要求。但是,这些相亲广告可能由父母或亲友代笔,也可能由子女自己写作,所以我们无法确定双方的看法各占多少。

案例:新冠病例数据的更多可能——《11699位患者和我们的这一年》

Discussed in #63

Originally posted by Tiffany0718 November 15, 2021
第二小组
小组成员:陈琪雯、潘筱楠、王亦千、李思恬、黄捷
《11699位患者和我们的这一年》
作品链接:http://h5.thepaper.cn/html/zt/2020/12/liudiao/index.html

一、内容介绍

引入:情境再现
以新冠疫情爆发初期人们手机上密集的新闻弹窗将观众带回到2020年初。
手机屏幕上的时间从2019年12月31日到2020年1月31日,以新闻标题简短地回顾了疫情爆发初期所发生的一切。随后出现了 “我们该如何记住2020年这场疫情”字样。

截至2020年10月23日,澎湃收集到11699名在**确诊的新冠患者的流调详情,报道中例举了几位如:和丈夫一起在浙江务工的女士在自驾回家的途中感染、一名50岁的男性船员在武汉岸上卸货时感染。

关于武汉的数据
在**,疫情最初在武汉爆发,在11699份数据中,27%的患者和上面两位一样,发病前去到过武汉。

澎湃将这些数据整理后,把它们分成组,以代表他们之间的传染关系。这里的每棵树代表一簇有传染关系的患者们。树干的两段连着两名患者,上面移动的光电是传染方向,没有光点则说明这两名患者只是接触、但不一定谁传给谁。

一共有1191条树干带着光点,635条树干没有光点。这意味着,1191组患者存在着明确的传染关系。

家人、亲戚之间的传染占75%,其他传染关系如同事、朋友、公共场合擦肩而过的人,占21%。

关于全国的数据
52条传染链,最开始的源头都曾到过武汉。
但很快,疫情蔓延全国,131条传染链,传染源都不曾接触过武汉。

关于症状的数据
病毒不断更新,对出现症状的判断也越来越不确定了。
树状图展示了“没有记录症状”、仅有呼吸系统症状”、“呼吸系统及其他症状”、“没有呼吸系统症状”四类患者,放大的效果展现更多关于个体的细节。

提出邀请
还有更多不同的数据维度,澎湃新闻邀请大家尝试挖掘探索,用自己的方式书写这特殊的一年。
数据链接:https://github.com/839Studio/liudiao_data
图片1

二、可视化效果分析

话题引入:沉浸式的生活化表达
报道开篇首先呈现了一个手机锁屏页面,不断有消息提醒弹出,并且弹出速度不断加快。从国家卫健委专家组初抵武汉,到各地病例不断增多,几秒钟的时间为我们呈现疫情爆发初期的时间脉络,而手机锁屏页面这样的生活化表现也让我们更加带入到当时焦虑、恐慌的情绪中。
图片2

随后画面推进入一个宇宙般的浩瀚星海,其中每一个星星一样的小蓝点代表一位在**确证新冠的患者。读者仿佛可以沉浸入这个美丽却深不见底的空间中,11699名患者的流调数据仿佛触手可及却又远在天边,给人一种震撼的、宏大的审美快感。
图片3

传染关系:沉浸式的交互体验
澎湃用“树”表现患者间的传染关系,树干两端链接两名患者,移动的光点是传染方向,没有光点则代表方向不明。平视和俯视两种视角向我们充分展示了“传染簇”数量规模之壮观。
图片4
图片5

而且,我们可以随意点击蓝色圆点查看患者的具体流调数据,还可以任意拖拽画面,改变观察视角,在“传染簇”中自由穿梭,方便深入了解每位病例间的联系,也提升了作品的互动性,让读者沉浸式地“体会数据”,而不是干巴巴的“阅读数据”。
图片6
图片7

感染症状:宏观到微观的推进式呈现
对于感染症状分布,作品先用柱状图总体呈现,随后画面迅速拉近,我们才会发现这些柱形都是由一个个代表患者的小蓝点组成。这样的设计,给读者带来了一种“渺沧海之一粟”的震撼感。从宏观到微观的推进式呈现,让读者深刻感受到了时代的大背景下个人遭遇的飘摇与无奈。
图片8
图片9

三、技术实现

该作品实现了炫酷的视觉效果,其背后是开源项目的支持。分析其调用的插件发现都来自于下面这个强大优秀的开源网站,网站上的代码库可以直接调用。
image

BootCDN - Bootstrap 中文网开源项目免费 CDN 加速服务
BootCDN是猫云联合Bootstrap中文网共同支持并维护的前端开源项目免费CDN服务,致力于为Bootstrap、jQuery、React、Vue.js一样优秀的前端开源项目提供稳定、快速的免费CDN加速服务。BootCDN所收录的开源项目主要同步于cdnjs开源项目仓库。

本作品中调用的插件主要有:
1、 three.js
Three.JS是基于WebGL的Javascript开源框架,简言之,就是能够实现3D效果的JS库。创建一个场景 – three.js docs (threejs.org)(如果对该插件的应用有更多的兴趣,可以参考该网站进行学习)
利用Three.JS可以制作出很多酷炫的3D动画,并且Three.js还可以通过鼠标、键盘、拖拽等事件形成交互,在页面上增加一些3D动画和3D交互可以产生更好的用户体验。通过Three.JS可以实现全景视图,这些全景视图应用在房产、家装行业能够带来更直观的视觉体验。在电商行业利用Three.JS可以实现产品的3D效果,这样用户就可以360度全方位地观察商品了,给用户带来更好的购物体验。另外,使用Three.JS还可以制作类似微信跳一跳那样的小游戏。随着技术的发展、基础网络的建设,web3D技术还能得到更广泛的应用。Three.js - 走进3D的奇妙世界。 - 知乎 (zhihu.com)(点击有更详细的介绍)

2、 jquery(jQuery
jQuery是一个快速、简洁的JavaScript框架,是继Prototype之后又一个优秀的JavaScript代码库(框架)于2006年1月由John Resig发布。jQuery设计的宗旨是“write Less,Do More”,即倡导写更少的代码,做更多的事情。它封装JavaScript常用的功能代码,提供一种简便的JavaScript设计模式,优化HTML文档操作、事件处理、动画设计和Ajax交互。
jQuery的核心特性可以总结为:具有独特的链式语法和短小清晰的多功能接口;具有高效灵活的CSS选择器,并且可对CSS选择器进行扩展;拥有便捷的插件扩展机制和丰富的插件。jQuery兼容各种主流浏览器,如IE 6.0+、FF 1.5+、Safari 2.0+、Opera 9.0+等。
可以实现的效果
(1)快速获取文档元素
jQuery的选择机制构建于Css的选择器,它提供了快速查询DOM文档中元素的能力,而且大大强化了JavaScript中获取页面元素的方式。
(2)提供漂亮的页面动态效果
jQuery中内置了一系列的动画效果,可以开发出非常漂亮的网页,许多网站都使用jQuery的内置的效果,比如淡入淡出、元素移除等动态特效。
(3)创建AJAX无刷新网页
AJAX是异步的JavaScript和XML的简称,可以开发出非常灵敏无刷新的网页,特别是开发服务器端网页时,比如PHP网站,需要往返地与服务器通信,如果不使用AJAX,每次数据更新不得不重新刷新网页,而使用AJAX特效后,可以对页面进行局部刷新,提供动态的效果。
(4)提供对JavaScript语言的增强
jQuery提供了对基本JavaScript结构的增强,比如元素迭代和数组处理等操作。
(5)增强的事件处理
jQuery提供了各种页面事件,它可以避免程序员在HTML中添加太多事件处理代码,最重要的是,它的事件处理器消除了各种浏览器兼容性问题。
(6)更改网页内容
jQuery可以修改网页中的内容,比如更改网页的文本、插入或者翻转网页图像,jQuery简化了原本使用JavaScript代码需要处理的方式。
可以实现的网页效果预览(在网站开发中很有用的8个 jQuery 效果【附源码】 - 梦想天空(山边小溪) - 博客园 (cnblogs.com)
如果有自学的兴趣这里推荐一个网站(jQuery 安装 | 菜鸟教程 (runoob.com)

3、 gsap(GSAP - GreenSock
GreenSock动画平台(GSAP)可以对JavaScript可以操作的所有内容进行动画处理(CSS属性,SVG,React,画布,通用对象等),同时解决了不同浏览器上存在的兼容性问题,而且速度极快(比jQuery 快20倍)。大约有1000万个站点和许多主要品牌都使用 GSAP。动画其实是每秒多次改变元素属性值,元素看起来就仿佛在动一样,比如淡入淡出,旋转,移动等。而GSAP捕捉一个起始值和一个结束值,然后每秒在它们之间插值60次。如果从技术上面来讲,GSAP其实应该被称为“GreenSock属性操纵器”(GSPM)。
GSAP非常的灵活,几乎可以处理所有页面上可以通过JS进行改变的元素,例如:
• CSS:2D和3D变换,颜色,width,opacity,border-radius,margin,和几乎所有CSS值。
• SVG属性:viewBox,width,height,fill,stroke,cx,r,opacity,等插件,像MorphSVG和DrawSVG可用于高级特效。
• 任何数值,例如,呈现为的对象。对3D场景中的相机位置进行动画处理或过滤值。GSAP通常与Three.js和Pixi.js一起使用。
GSAP几乎可以做到你想要的任何动画,包括DOM的拖动,滚动触发,运动路径插件等等,唯一的缺点就是它包含可以实现的动画实在是太多了,需要花费一定的时间进行学习,不像Animate.css和Anime.js这些动画库一样简单易用,不过如果你的网页需要大量动画,GSAP不失为一个很好的选择。
如果想要学习也可以参考(Learning Center - Learning Center - GreenSock)。

四、不足与反思

这篇作品无疑是一篇优秀的数据新闻,为公众传达了清晰宏观的疫情整体图景,在知识管理和知识共享上做的非常好,但同时也存在一些问题:

1、 核心问题不明确。作为一篇疫情发展后期的数据新闻,这篇报道更多的是一种数据的呈现,而非解释或者预测。从知识社会学的角度来审视这篇报道,它生产的是一种熟悉性知识,而非理解性知识。读者可能会被酷炫的视觉呈现所震撼,但读完之后又会觉得没有任何信息增量,从内容来看只是一个新冠疫情的年终总结。

2、 数据挖掘不充分。报道使用到的数据库记录了11699例确诊病例的流调详情,这是一份非常庞大的数据库,作者舍弃了深度而去追求广度,最后形成了一篇看起来像是数字博物馆的作品。在报道的最后,作者也说:“这份数据还有许多不同的数据维度,我们邀请你一起尝试探索挖掘,用自己的方式去书写这特殊的一年。”因而这份数据库还有非常大的挖掘空间和挖掘潜力。

3、 数据分析偏向前端。我们将这篇作品与其他以疫情为主题的数据新闻报道进行了对比。本篇报道的数据分析主要是针对人们如何确诊新冠、如何被传染、有哪些症状,但对于后端的疫情影响、疫情防控分析不足。这也是因为整篇报道立足的数据库是确诊病例流调数据库,数据库本身还具有一定的局限性。关于疫情影响的数据新闻,推荐阅读《后疫情时代 | 我们如何被新冠肺炎改变了生活?》,其中分析了疫情对于全国各地人民卫生习惯、经济收入、心理心态、未来预期的影响。

因而我们作出以下的反思:首先数据新闻要发挥自己“大数据”,“强逻辑性”以及“时空延续性”的优势,不仅去关注更复杂、更重大的社会议题,还要尝试从多种维度去分析解释、甚至预测。“把数据与社会、数据与个人之间的复杂关系用可视化手段向公众展示,以客观、易于理解的报道方式激发公众对公共议题的关注与参与。”第二,要树立问题意识,明确核心问题。随着网络时代的发展,信息数据收集技术和各种可视化技术会更加多样和成熟。所以我们更要明确,数据新闻不只是“各式各样的数据”和“五花八门的可视化技术”的堆积,而要充分挖掘数据背后蕴含的问题,做数据新闻也要坚守做传统新闻时“以人为本”的初心。密切关注人类社会,做人性化的新闻设计,让数据带上人情味,做“落到实地”的数据新闻,才能真正走得长远。

五、再创作方向

1、标题是《11699位患者和我们这一年》,但整篇报道更多地偏向11699位患者,作为同样是疫情亲历者的“我们”却没有什么笔墨。
新闻开头部分的引入,弹窗的形式唤起了2020年初每个人的状态。当时成千上万的人闭门不出,时刻密切地关注着一切有关新冠疫情的消息,无可避免地,相当一部分人出现了替代性创伤、焦虑、疑病、恐惧等心理现象。“我们”虽然不是患者,但是“我们”身上的信息也可以被挖掘和呈现,作品可以增加这方面的内容。

2、澎湃提供的流调数据中有常住地、起始地、中转地、目的地、收治及隔离地。利用这些数据可以展现春运期间的人口流动趋势,以及全国各地中哪些地方的收治压力大,隔离压力大。

结语:新冠疫情开始已经将近两年,在过去的两年内,成百上千的报道关注并报道新冠疫情。时至今日,与新冠相关的数据是否还有更大的挖掘空间?这篇报道为我们提供了一种可能,而它也期待着我们探索出更多的再创作方向。

《916篇性侵儿童判决书的背后:隐秘的角落,谁来保护孩子们?》

Discussed in #55

Originally posted by 7wan7 October 26, 2021

也许在未来的某一天,我们每个人都可以为隐秘的角落点起一盏灯。

作品链接

https://598346469.wixsite.com/protectchildren

image

作品简介

  • 作品名称:《916篇性侵儿童判决书的背后:隐秘的角落,谁来保护孩子们?》/《Hidden Corner, Who Can Protect the Children?》

  • 作品内容:作者通过分析近年来的性侵儿童的判决书,并重点分析了2019年的916篇文书,去揭开儿童性侵案背后的各种细节,最终给出我们能做的建议。

  • 数据来源

    • 中华社会救助基金会儿童安全基金女童保护项目

    • 北大法宝

    • 《法制日报》

创作缘由

2013年5月的时候,海南万宁某小学被爆出性侵事件,犯罪嫌疑人正是小学的校长和一位政府职员,受害者是6名小学六年级的女孩。

这个事件可以说是一个标志事件,因为当时引起轩然大波,让全社会都关注到“性侵儿童”这一事件。

随后,媒体又爆料出更多的类似案件;大众也终于认识到,“性侵儿童”这种犯罪现象,可能就发生在我们的身边。

今天是2021年,离2013年的广宁事件已经过去整整7年,在这7年里,性侵儿童这一话题一次又一次登上舆论热点,又一次又一次被时间冲洗和淡忘。

我们想要知道,近些年,这些性侵儿童事件,离我们的生活有多远?那些性侵儿童的恶魔们,到底是怎样的面孔?那些无辜的孩子,在我们不知晓的隐秘角落,遭遇了什么样的痛苦?

以及更重要的问题是,在愤怒之后,我们已经做了什么来保护这些孩子们?我们还可以做什么来保护孩子们?

基于这样的目标和背景,作者搜集了近年来关于性侵儿童的判决书,并且重点分析了2019年的916篇文书,试图解答这些问题。

内容介绍

(1)没有被聚光灯照亮的角落

首先,我们从数量上看,媒体曝光的案例仅仅是实际案例的极小部分。

自2013年起,中华社会救助基金会儿童安全基金女童保护项目,对每年媒体公开报道的性侵儿童事件进行统计分析。仅仅2019年,被曝光的案件就有301起,然而这只是冰山一角。根据北大法宝可查的法律文书以及《法制日报》的报道,可以发现2019年法院实际审结案件数量为4159起,在“北大法宝”上有案件条目可查的数量为2942件,公开文书的为920件,被曝光的案例仅占实际案件数量的7.23%

有趣的是,为了严谨,作者统计了四类性侵儿童的案件数量,分别是:媒体报道的案件数量有文书可查的案件数量被登记在网上的案件数量以及法院审结的案件数量

而且作者采用“总分”的结构,一张总图,四张子图。

优点是

  1. 既可以比较四类案件数量的差异与趋势

  2. 也可以分别查看具体的每类案件数量的演变情况。因为如果全放一张图,数据量纲不太一致,会难以识别具体的直线走向,分成四个图来展示会更清晰一些。

缺点是数据之前存在重叠交叉。

1.1 各年案件数量总图

image

从图上可见

  1. 从总体趋势上看,性侵儿童的案件数量呈逐年上升趋势;一方面可能是犯罪事件本身在增多;另一方面也可能是,随着社会进步和完善,越来越多的事件被披露和勇敢的说出。

  2. 被媒体报道的案例长期远远落后于实际发生的案例数量;一方面,媒体出于自身利益考虑,会选择性报道典型案例;另一方面,媒体对于性侵儿童案件的关注度本身不够高。

1.2 媒体有报道的案件数量

image

从媒体报道的数量来看,2013年广宁事件后,儿童性侵的报道案例数量直线上升,且长期保持在较高位置。

这在某种程度上是一个好的现象,至少媒体提高了对儿童性侵的报道,有越来越多的人可以了解到这些案件的故事。

1.3 有文书可查的案件数量

image

随着案件数量的增多,有文书可查的案件数量也在增多,我们可以通过详细文书查看到明确的案件细节。

1.4 被登记在网络上的案件数量

image

被登记在网络上的案件数量也在增多。

1.5 法院审结数量

image

法院审结的案例数量也在增多。

  • 从数量上看,性侵儿童案例数量在近年不断攀升。

  • 但我们需要注意的是,受到社会环境、新闻传播观念等因素的影响,性侵儿童事件不一定会被披露,而且有可能因为当事人或周围人的消极情绪或认知水平的受限而不为人知。

  • 随着年龄的增长、**观念的变化,这类案件越来越多的进入我们的视野。

1.6 全国性侵儿童案件数量分布

从性侵案件发生的地理位置上看,1998年至2019年期间,浙江省累计审理758起,四川省累计审理457起,上海市累计审理347起,为全国前三,而相对来说,西藏自治区累计审理2起,海南省累计审理15起,青海省累计审理19起,则数量较少。

image

  • 缺点:自动播放时间,不能手动调整

1.7 学术关注度&媒体关注度

从性侵案件的学术关注度和媒体关注度来看,我们可喜的发现,自2013年,在广宁事件的影响下,关于儿童性侵的文献数量与报道数量激增。性侵儿童案件的媒体报道进入了包容多元期,大量的社论、报纸评论、学术文献涌出,大众认知度提高。

image

(2)性侵案件案件当事人都是谁?

image

了解了儿童性侵逐渐被关注的现状后,我们更想要知晓的,是这些性侵案件中的当事人是怎样的。

数据显示,大部分性侵施害者,和被害者都比较熟悉,只有10%为陌生人,约有30%为儿童的亲戚,例如叔叔伯伯;60%为其他熟人,如父母的朋友,保姆或邻居;

2.1 当事人关系图

image

在我们搜集到的213条有施害者和受害者关系的记录的文书中,有74条记录为师生关系,占比34%,53条记录为亲戚关系,占比24%,其中18条记录为继父女(或母亲同居男友),6条为亲生父亲。

家庭内部性侵事件并非个例,这53条记录更有可能只是此类事情的冰山一角。我国“以家庭为中心”的价值观可能会掩盖家庭内部的儿童性侵犯案件,也加大了我国司法部门干预这一问题的难度。家庭内部的性侵更隐秘、更难被发现,当亲密的互动发生在家庭成员之间,复杂的关系和情感不仅会使性侵的边界变得模糊,也会使披露或举报更加困难。

image

男性并不是不会被性侵。2019年,BBC纪录片《被性侵的男性:打破沉默》披露了一组令人触目惊心的数据:每小时,约有8名男性遭到性侵。在人生的不同阶段,1/6的男性遭到不同程度的性侵。

2.2 施害者曾犯罪情况

image

数据显示,8.5%的施害者并非首次犯罪,在他们曾经犯过的罪中,占比最高的为盗窃罪,出现23次,其次为猥亵儿童/奸淫幼女罪和强奸罪,分别出现22次和17次。

2.3 性别分布

虽然从数据上显示,男性儿童遭遇性侵事件的数量远低于女性儿童,但男生并不是不会被性侵。

image

2019年,BBC纪录片《被性侵的男性:打破沉默》披露了一组令人触目惊心的数据:每小时,约有8名男性遭到性侵。在人生的不同阶段,1/6的男性遭到不同程度的性侵。

可是90%的受害者对此穷其一生保持缄默——对于大多数男性性侵受害者而言,“女性是受害者、男性是加害者”的固有二元对立假设,阻碍了许多男性求助,**“性别”**是他们创伤中至关重要的一环,也是他们难以开口的痛点。

值得注意的是,在50起受害者为男性的案例中,有9起是“网站预约男童有偿性服务”。施害者通过网络,或是通过男童性服务中介介绍,与男童取得联系,在旅馆等约定地点对男童进行性侵。由于我国法律界定的强奸罪定义为“以暴力、胁迫或者其他手段强奸妇女”,因此当受害者为男性时,尽管发生了事实上的奸淫,但无法被判定为强奸罪。

同时我们发现,在这9起“网站预约男童有偿性服务”案件中,有6起案件的受害者都签署了谅解书,获得20000元至60000元不等的赔偿金额,达到了2/3,而对于整体916起案件来说,因赔偿而谅解的案件比例为19.76%。目前在我国,“娈童恋”还未引起足够的重视,通过网络进行的男童有偿性服务需要被关注。

(3)角落里,到底发生了什么?

image

3.1 关键词分布

从判决书的关键词分布来看,生殖器、胸部、嘴部、臀部,是被提及次数最多的遭到猥亵的部位。猥亵方式中,触摸、亲吻、搂抱、生殖器插入、抠摸、生殖器摩擦出现频率较高,同时,一些没有直接触碰被害人的猥亵方式也应该被注意,例如给儿童观看色情录像、拍摄儿童的裸体照片或视频、言语猥亵。

image

利用互联网性侵未成年人的案件也亟需关注。犯罪嫌疑人通过网络聊天等软件结识未成年人,利用未成年人认知、辨别和反抗能力较差的特点,采取欺骗、诱惑等方式获得未成年人的裸照或者视频,甚至进一步发展到在现实中的性关系。

然而与之相对的是,家长对于儿童使用手机、电脑等上网的监管存在缺位。在2018年及2019年的“女童保护”报告中,都只有大约**42%**的家长会对孩子上网进行严格监管。

image

3.2 被猥亵人数与次数

916件案例中,我们一共统计到1349名受害人(注:“多人”算为5人,“十余人”算为15人),平均每起案件有1.4名,而最多的一起案件有21名受害人。平均受到猥亵次数为2.24次(注:多次算5次,十余次算15次),最多的一起有70次。

image

3.3 猥亵地点

性侵儿童案的特点之一就是隐蔽性强,在916份判决书中,猥亵最常发生的地点是家中,其次是学校,以及车内、楼道、公厕,被判定为在公共场所发生的案件数量为58起,占全部案件数量的6.3%。

image

  • 可视化的方式展现地理位置

(4)噩梦之后,会有正义到来吗?

image

上市公司新城控股董事长王振华,因涉嫌性侵9岁女童,被判犯猥亵儿童罪,有期徒刑5年,判决结果一出便引发舆论风暴,民意一边倒地认为量刑偏轻。凤凰网“王振华猥亵女童被判5年你怎么看”的调查结果显示,超7成网民认为量刑太轻,另有近2成的网民认为王振华应当在狱中度过余生。

我们经常想问:该做什么来阻止这样的悲剧一次次重演?当挥起法律之利剑,我们是庆幸“持正义之天平”,还是哀叹“多少罪恶假汝之名”?

王振华案的判刑是否得当?其他的性侵儿童案件,都被判处了什么样的刑罚?

4.1 时间轴

image

从“北大法宝”的数据看,性侵儿童案大部分都是按猥亵儿童罪定罪处罚,也有与强奸罪、强制猥亵罪等罪名数罪并罚的情况。13.6%的案件都涉及数罪并罚,在这其中73.6%为强奸罪,也就是说,916个案件中,有10%的儿童都受到了法律概念上的强奸,即双方生殖器发生接触。

单从猥亵儿童罪的量刑来看,刑期多分布在1年-4年,案件的平均刑期为28.84个月,也就是两年四个月。当被判为强奸罪时,平均刑期为73.74个月,也就是六年两个月左右。

4.2 刑期分布

image

4.3 犯罪人职业限制

另一个值得注意的处罚是对于施害者的从业限制。916起案件中有21起的刑罚中提及了“禁止从事未成年人培训工作/教育工作/服务工作/相关工作“,禁止年限从3年到5年不等。三年至五年的禁业规定,对于预防职业犯罪再犯具有积极意义,但对于预防性侵未成年人犯罪而言,性侵未成年人罪犯在刑满释放五年之后,依然可以不受限制地进入学校以外的教育培训机构,依然可以有与未成年人密切接触的机会,其性侵未成年人犯罪再次发生的可能性依然存在。
美国司法部公开的统计数据显示,17%有性侵未成年人前科的人出狱后还会再次犯罪,如果这些人接触未成年人机会比较大,这一比例还会更高。
在我国刑法酌定量刑中,受害者签署刑事谅解书可以使施害者获得一定程度上的从轻处罚。

image

我们发现在916篇文书中,共有181个案件的受害人出具谅解书,占总数的19.76%,谅解原因多为施害者及其家属对受害者进行了赔偿。

但同时,令人心痛的是,另一个常见的谅解原因是被害人与施害人有着紧密的家庭关系,被害人不得不签署谅解书。例如在《杨吉高强奸罪一审刑事判决书》中,被告人杨吉高多次性侵继女,长达两年,但最终受害人因家庭关系的压力而出具了谅解书。

(5)如果光会照亮这里

image

在《2014年儿童防性侵教育及性侵儿童案件统计报告》中,家长没有对孩子进行性教育的原因有“孩子太小了”(85.8%)、“想教育但不知如何开口”(8.6%)、“怕教坏孩子”(2.5%)。我们的社会一直以来对“性”避之若浼,然而就像网上流传的那句话“你嫌性教育太早,坏人不会嫌你孩子太小”一样,某些程度上来说,性教育的匮乏成为了助长性犯罪的帮手。

5.1 家长不对孩子做性教育的原因

image

好在令人欣慰的是,综合分析2014-2019年“女童保护”的调查报告,我们发现家长逐渐产生了对孩子进行性教育的意识,对孩子进行性教育的家长逐年增多。在2014年,有51.4%的家长没有对孩子进行过性教育,而在2019年,这一比例减少到了22.24%。

5.2 性教育普及率

image

不仅仅是性教育需要被普及,在人们面对性侵受害者时的观念和态度也应转变。某性侵受害者说:“十六岁那年被强奸之后,我向家人求助。他们是这样’开导’我的:’你不要总想着自己是个受害者,你就当是个参与者好了。'这句话让我感到自己又被强奸了一次。回想起来,这句话甚至比被强奸本身还要痛。后来我才明白,这叫做’二次伤害’。”
家人、朋友、法律机构、大众舆论都有可能对受害者造成二次伤害,这样的伤害甚至会比性侵本身更严重。

5.3 关键词抽取

image

image

我们首先需要保持对受害者的同理和共情,再痛斥性犯罪本身。

作为普罗大众中的一员,我们希望性侵儿童案件不再是一件需要被掩埋在受害者羞耻、痛苦的目光里的事情,不再是一件会被舆论评价为受害者“一生的污点”的事情,不再是一件猎奇、戏谑、可以开黄色玩笑的事情。

我们希望尽我所能地做到我们能为孩子们做的事情,剩下的,交给时间,交给法律。

也许在未来的某一天,我们每个人都可以为隐秘的角落点起一盏灯。

可视化效果分析

  1. 作品整体色调为深绿,渲染压抑低沉的基调

  2. 在作品中穿插了很多图片以及卡通人物形象,丰富了可视化的效果

  3. 在各年案件数量部分,采用“总分”的结构,分别展示四类具体的案件数量,兼顾总体变化以及个体趋势。

  4. 在全国性侵儿童案件数量分布图中,地图的时间设置为自动默认,较为死板,不便于查看特定年份或实现年份对比。

  5. 在当事人关系图中,采用两层嵌套式的饼状图,便于突出数据的层级结构,清晰准确。

  6. 关键词云的设计具有人文关怀,抨击社会对儿童的侵害。

  7. 儿童性侵的高发地点图,采用可视化的卡通形象,生动形象展现。

技术实现

  1. Flourish:https://flourish.studio/

  2. 网站搭建:https://www.wix.com/lpviral/enviral?utm_campaign=vir_wixad_live&adsVersion=white&orig_msid=a3f7c108-6a63-4e05-a6e2-a286757bee96

总结:为什么选择这个话题

  1. 从展现形式来看,很引人入胜,打动人

  2. 从数据上来看,不是简单的罗列数据和机械的做图表,而是用心的了解和分析数据背后的故事。这个点非常重要。

熊丙奇:其实这些案件一直存在,只是新闻工作者没有意识去报道,又因为过去媒体报道的渠道相对单一,导致很多类似案件虽然发生,却未能进入公众视野

  1. 希望能够让更多的人关注到这个事情

  2. 曝光可能也是一种伤害?

案例《谁死于玛利亚飓风》

Discussed in #31

Originally posted by 7wan7 September 9, 2021
image

《谁死于玛利亚飓风》是一项关于在2017年玛利亚飓风事件中的遇难人数的调查。2017年9月20日,四级飓风“玛利亚”登陆拥有340万人口的美属岛屿波多黎各,对当地建筑与景观造成严重破坏,并产生电力与通讯中断、山体滑坡、洪水等影响。在12月波多黎各官方公布的受害者名单中,受害者人数为64人;然而,根据CPI、哈佛大学等机构的调查与研究,飓风“玛利亚”的死亡人数可能遭到严重低估,这一发现引发了国内对波多黎各官方及其统计机构的批评。2018年8月28日,波多黎各政府公布并承认了委托研究机构的调查结论,将在飓风“玛利亚”中直接或间接死亡的人数修正为2975人。

案例对比:《你被谁代表了?》VS《Who runs China》

Discussed in #48

Originally posted by XinhangLiao October 19, 2021
《你被谁代表了?2666位全国人大代表身份大全》
作品链接:https://mp.weixin.qq.com/s/s5HIxhauiHmXQfRiCkNFjg

一、作品内容
文章围绕人大代表的身份画像,上升到在**集中制体制下,谁在代表了广大人民的问题。文章包括了人大代表的籍贯、代表影响力(某籍贯人大代表在异地当选)、代表包容性(本地人大代表的异地籍贯)、性别比(横向、纵向比较)、年龄分布、民族、学历、党派、职业等信息。

c8314115523dff22ccf7e3a786dd53d
76253c33485ea9681521ad67317d908
edbf8583f8aeec6e9df759f7695e0da
efea5b702265f6da66c59fd8d1644ed

在综合分析以上诸多信息后,文章得出结论:**党员多、非**党员少;干部多、群众少;男的多、女的少;经营管理者多、普通职工少;个体私业主多、社会弱势群体少。同时,文章发现了女性代表占比提升,年轻代表中女性比例较高的趋势。

二、数据获取和文章形式
数据获取方式:在**人大网确定名单,核真录的记者们联系读者,一起人工爬取。每个人负责几个省份,在百度百科和维基百科搜索代表的各维度信息,确认好数据后,记者利用花火Hanabi作图(静态图 https://hanabi.data-viz.cn/templates?lang=zh-CN)最终制作成word文档,排版至微信公众号。

00f881897ff9a00abd73bee3b974e79
1b280b96b952cc4a160cb2098cc3e33

问题:
静态图,缺少互动,每张图能展现的内容有限
冗长 ,不方便读者查找

Who runs China?
作品链接:https://news.cgtn.com/event/2019/whorunschina/index.html
一、内容介绍:
1、引入
大数据交互可视化网络报道《Who Runs China》于2019年3月4日全国两会期间在CGTN官网、客户端、脸书、推特、微博、微信等平台同步上线,不到24小时便获得200万浏览量;上线两周,全平台单帖浏览量超过2000万,其中海外用户访问量超过80%。
作品从年龄分布、民族情况、教育程度、政治面貌等人文视角做了全国人大代表信息可视化呈现和分析。

b4437f17e22fc67a1dbf76b774a98e7

2、数据处理
搜集:部分人工搜索核对,大部分来自于使用python爬取全国人大代表信息库http://www.npc.gov.cn/

作者tips:先对于基本数据进行分析,得出若干数据结论,再根据主题想表达的内容叙事线进行数据结论以及数据的详略分配。

(1)人大代表画像
女性占比提升显著
第十三届全国人民代表大会实有代表2975人。其中,男性2233人,女性742人,女性占比24.94%,仅是男性代表的1/3;但相较于第十届全国人大代表,女性20.23%的占比有所增长。

eb831e917ff1718cbe8f491f3906f06

同时,全国人大代表越年轻,性别比例越均衡。50后男女比例超过7:1,60后接近4:1,80后比例接近持平。另外,本届还有28名全国人大代表是90后,其中女性比男性多出8人。

a747ee33efa56101d7c2cd39ed0bf46

顶梁柱——上世纪60年代人
他们的平均年龄是53.77岁。其中有超过一半的代表出生在上世纪60年代,占比最多。----社会掌握权力的群体集中在这一年龄段。

各民族均有一席之地
全国人大代表来自全国56个民族,其中汉族代表人数遥遥领先,占全国人大代表总人数的85%,而代表人数占本民族总人数比例最高的民族是塔塔尔族,大约每3600人中就有1人是全国人大代表;比例最低的是拉祜族,平均100万人中只有2.06人是全国人大代表。

67a30d24710eae17012d4aed84a5594

大部分人拥有高学历
2975名全国人大代表中,90%都拥有学士学位及以上学历,其中,硕士836人,博士584人。其中,文科生人数远超理科生,人数几乎是理科专业代表的两倍。另外,这些全国人大代表中有1/5都是管理学相关专业的毕业生。(其次是工程、经济、法律...)共有122名全国人大代表拥有海外留学经历。
940acfbae7740bd8a3c689f5d96226c
852fb6f096cf5a6a0e5800c72b4d4bf
e8c425fbcd7ef6baf68da56bc9acad0
e9f84118428d6792c6b4b967d027d9c

就政治面貌而言,这2975名人大代表中既有**共产党员(2172名),也有无党派人士(423名),还有部分来自8个**党派(共380名)。受教育程度最高的党派是九三学社,84%的成员拥有硕士和博士学位。
1adc269274f902df35db55728dafa4c

(2)政府工作报告分析

e46a018053f359a1208ff32533f862d
512b373343f966ea7f5d16adbb6b2f2
(3)法院检察院工作报告分析

6ce9278f6ab57af87ae7fbf29cb7526
二、可视化效果分析
(1)图表格式
在人大代表画像部分,每个点象征一个人物,随着学历、性别等等分类移动。
民族的展示:不同民族人大代表的数量对比+民族的多元。
籍贯和党派部分:桑基图
人民法院&人民检察院工作报告:复合树状图 超大信息量
手机端:对密恐人士不太友好
作者tips:首先绝大部分时间要保证清晰可读,特别偶尔可以“炫技”,“炫技”的可视化是一种强调,可视化方式根据数据和设计师的创作灵感。

(2)互动
体验:H5(手机端)&竖屏滑动
在手机端,用户竖屏上下滑动来感受图表、原点的变化--增强了视觉冲击感---容易接受信息&提升用户体验感
政府工作报告:字数统计&词频统计 变化过程:下滑网页-从1993年的发展指标过渡到2018年
用PC端观看时,鼠标点击每个小圆点--出现相对应的代表信息--满足不同受众对于不同信息的需求&提升受众在获取信息时的趣味性

三.主题升华
定位:政治色彩+对外
1随着互联网技术的发展,国家主流媒体对“两会”的报道更趋多元化、技术化,以此来满足我国社会群众及海外受众的需求。
2对外宣传我国的两会代表来自人民,具有广泛的人民性及代表性,并且随着时代的发展,我们的代表组成结构更趋于合理化全面化。
3它的内容涵盖方面较广,使受众增强了对“90后”以及“女性”这两个长期以来被特殊化了的群体的正面认识,同时增强了民族自豪感。
4**政府和司法体系越来越关注普通公民的福祉。

四.技术实现方式(作者特供+学习笔记)
明确几个概念
语言:JavaScript 前端语言 Java后端语言
前端:用来表示点一下鼠标会发生什么(表面)
后端:表示它会怎么处理你的请求,帮你读取什么数据(深层)
语言特质:一个交互机制,不像python一样按顺序运行,可以同时实现一个东西在移动,另一个东西在响应你的鼠标点击(一般能够设计界面的语言都有这个特质)
代码分成两部分:动画&交互
动画:显示粒子及其运动
交互:读者如何与网页进行交互,比如说点击触发弹窗

canvas:js的一种用来绘图的组件,一种画布,可以在屏幕上框出一个区域,通过写代码置入图片/调整位置
Svg:可以被显示在canvas上的一种图片格式,可以添加交互事件,d3和svg是差不多的东西
可以转成txt-读txt解析颜色形状位置大小-通过代码调整位置…
scrollama.js是一个js的插件(需要下载),是用来控制页面滚动的,鼠标滚动让页面来到某个地方的时候会触发什么事件

fsm是有限状态机
eg:网购商品-在商店/在购物车/已经下单,有限:状态数是有限的,而不是说是有无限多个状态
状态机:能够根据确定的事件去获得确定的结果 一些事件触发一些状态
滚动触发渲染
问题:
写好了一堆渲染-屏幕一次只能装一个渲染-滚动太快-前一个渲染没结束就触发下一个渲染(顶替)
布局:
Div:一个结构布局的概念
scaleToWindow库:把一些其它组件放进去来进行布局,提供了很多功能

Who runs china 实现方式简介 1.pdf
思考
*课程上学到的东西和业界作品有什么联系?
*新闻专业的学生如何在短时间内掌握代码并做出交互式作品?

案例《看不见的罪行:我们是否让性侵受害者失望了?》

Discussed in #35

Originally posted by meteoritesw September 13, 2021

数据新闻典型案例:看不见的罪行:我们是否让性侵受害者失望了?

链接:https://www.smh.com.au/interactive/2019/are-we-failing-victims-of-sexual-violence-v-2/
小组成员:常誉中、陈晨昱、王晓萱、薛敬文

一、简介

1. 奖项背景
2019年“信息之美奖”(The Kantar Information is Beautiful Awards)评选:《看不见的罪行:我们是否让性侵受害者失望了?》(The Invisible Crime: Are We Failing Victims Of Sexual Violence?)获得人道主义类金奖

2. 事件背景
澳大利亚性暴力事件很普遍,却很少受到起诉。
澳大利亚统计局2016-17年的调查:18万澳大利亚人经历过性暴力,只有9%至14%的人向警方报案,更少的人胜诉。
案件通常在三个关键点中的一个被放弃——向警方报案;提出指控;以及通过法庭程序。
这篇报道试图用数据来揭示这一现象,通过数据分析为什么司法系统没有更好地处理性侵犯问题。

3. 新闻内容

1. 第一部分:受害者

  1. 有多少性暴力事件的受害者?
  2. 有多少受害者向警方报案?
  3. 有多少报告给警方的案件进入下一步指控环节?

2. 第二部分:通往正义的漫长道路

  1. 以新南威尔士州的数据为例,追踪性侵犯案件在澳大利亚这个人口最多的州的司法系统中的情况。
  2. 数据显示,案件通常在三个关键点中的一个被放弃——向警方报案;提出指控;以及通过法庭程序。

3. 第三部分:性犯罪如何变得隐蔽(invisible)

  1. 第一阶段:向警察报案
    案件没有进行的原因有很多,包括受害者感到太痛苦而无法继续,或者没有足够的证据。
  2. 第二阶段:立案(提出指控)
    司法系统层面:司法系统没有明确对性同意的定义,警务部门也没有绝对清晰的标准,检察部门为此损耗了人力。
    警官层面:警官人员可能存在配备不足的情况,他们的工作量也在不断增加。此外,警官往往对性暴力事件有一个默认的立场:这些案件无法进入下一步法律程序。
  3. 第三阶段:通过法庭程序
    即使警方确实提出指控,如果检察院认为定罪的机会不大,也可以中止案件的审理,且检察官不需要向法院解释为什么中止案件。
    交付听证会给了被告一个检验案件的机会——包括对受害者进行交叉询问。但这一阶段中对于犯罪细节的过分强调可能会助长受害者的创伤。
    长时间的拖延是性侵犯案件的一个特点。来自新南威尔士州的数据显示,对于性侵犯案件的定罪时间正稳步增加。

二、数据来源

①Australian Bureau of Statistics澳大利亚统计局(ABS Personal Safety Survey个人安全调查, 2016; ABS Recorded Crime Victims - Australia, 犯罪受害者调查2018)
②Victorian/Western Australia/Queensland crime statistics agency 维多利亚州/西澳大利亚州/昆士兰州犯罪统计局
③Victoria’s sexual offencers and criminal investigation team(SOCIT) 维多利亚州性犯罪和刑事调查小组
④NSW higher criminal courts新南威尔士州高等刑事法院
⑤BOCSAR新州犯罪统计和研究局

三、数据的选取与处理方法

报道将数据的选取与处理方法特别列出,成文发布在《澳大利亚时代报》,供读者参考。
https://www.theage.com.au/national/invisible-crime-about-the-data-20190807-p52eo8.html?_ga=2.258644362.1619314112.1631520437-52355398.1631342566

此处主要介绍“对性暴力受害者人数的估计”以及“对性侵犯报案率的估计”这两项数据的选取与处理方法。

1. 性暴力受害者的人数统计The estimate of the number of sexual violence victims
解释内容:选取抽样调查的方法(ABS在2016.11-2017.6对21242人面对面访谈),对性侵犯、性威胁的定义,相对标准误差(11.6%,说明受害人数在18万至29万之间)。
选择个人安全调查而非犯罪受害者调查:更大的女性回答样本量,更低的相对标准误差,不是电话而是面对面访谈,受访者有更高的透露意愿
充分的解释与说明让读者在获得知情权的情况下对作者的处理更加信服。

2. 对性侵犯的报案率的估计数 The estimate on the reporting rate for sexual assault
计算方法:从澳大利亚统计局的犯罪受害者报案中获取报案的性侵犯受害者数量,并将其除以个人安全调查中性侵犯受害者人数的上下限。
结果:大约9%到14%的性侵犯被报告给警方。
“实际的受害者比向警方报告的受害者多7到11倍”。在说明计算方法的同时指出该数据与文中的联系,让读者更迅速地理解这组数据处理的意义。

影响数据处理准确性的不确定因素:
①两个调查开展的时间以及调查的时间范围并不相同
②两个调查对于性侵犯的定义略有不同
③数据未包含的一类人:童年时受到性侵犯,但向警方报告时已经成年的受害者
④犯罪受害者调查考虑了一个人受到多次性侵犯的情况,个人安全调查则没有
坦诚面对数据处理中不可避免的误差,更能体现出该篇报道的真实性,同时也能有效避免质疑。

四、数据分析

1. 框架结构
1
2. 叙述特点
1. 叙述目的明确。在引言部分,作者提出了性侵问题中最常见的一个问题:司法系统是否有更好的方法处理性侵?因此本报道全篇围绕此问题展开叙述,为读者介绍了性侵维权过程的曲折。
2. 行文逻辑遵循案件的处理顺序。引言提到案件最容易撤销的三个阶段:报案、调查和法庭,下文便按此顺序介绍了各个环节中案件终止的受害者数量。
3. 受害者经历的叙述比重较高。本报道着大量笔墨介绍受害者的经历,辅以真实的数据,让读者深刻体会到受害者的悲痛。

3. 可视化处理
①受害者散点图。
该报道用几幅散点图展示了受害者数目,每一个点代表一位受害者。
这些散点图清晰地展示了众多性侵案件中只有少数人得以维权。
2
3
4
5

②分流图
分流图展示了已报案的性侵犯案件的最终结果。
6

③条形图
条形图展示了性侵案件的处理时间逐年增加,从2010年到2018年,处理时间增加了45%。具体细分到两个部分,从逮捕到拘禁、从拘禁到结果的时间都逐年增加。
7
8

4. 可视化风格
1. 色调与情感基调:黑白两色为主。情感基调沉痛而冷静,悲愤而克制。
2. 动态图表:文中每一张图片都是动态的,并随着读者的阅读进度不断变化。如:

  1. 在受害者散点图中,代表受害者的18000颗粒子在一个圆框中旋转,提醒着人们它们背后代表了一个个鲜活的生命
  2. 人物肖像由粒子合成,既起到了马赛克的作用,尊重受害者的隐私,又呼应了人物和性暴力受害者群体是点和面的关系
  3. 在分流图中,性犯罪事件的处理方向由堆积流动的颗粒显示比例大小,随着网页的下拉,颗粒一层层堆积向不同方向。

这个图表在可视化数据的同时也承担了叙事的效能,读者真切地感受到受害者维权困难重重,施暴者很少得到法律制裁

5. 沉浸式阅读体验
①动画效果:数据和图表随着读者的阅读进度而动态变化,阅读过程流畅,读者可以通过鼠标反复观看某个图表形成的过程。
②音画结合:嵌入了3段访谈受害者的音频,3位受害者分别讲述了自己受到的性暴力,警方的漠视和法庭作证带来的二次伤害。

五、意义

  1. 兼顾理性搜证论证与感性人文关怀
  2. 为公众理性讨论性暴力犯罪提供语境
  3. 具有现实意义,问题解决导向

感谢大家的垂听和阅读!

案例 The visible virus: COVID-19 Disinformation 可见的病毒:新冠假消息

作品推荐:
The visible virus: COVID-19 Disinformation 可见的病毒:新冠假消息
https://www.readr.tw/project/covid19-disinformation/en

小组成员:林倩伊 杜依淇 何昕妍 吴雨航 张潇逸

一、作品简介
记者:李又如
設計:陈怡蒨
工程:HY Tan
资料:李又如、简信昌、吴冠贤、**政治大学郑宇君团队
发布日期:2020年7月24日
发布国家/地区:****
入围2021年度Sigma Awards

二、作品内容概述
新冠病毒在半年时间夺去了50万人的生命。然而,给人们带去伤害的不仅有病毒,还有虚假信息在全球范围内的广泛传播,它们甚至比病毒传播得更快,杀死人,也加剧着种族歧视。于是该作品分析超过5,000份事实核查报告,并深入了解信息流行病的状态和趋势。这是世界上第一份分析有关新冠疫情虚假信息的完整新闻类调查报告。

该作品前半部分分析了全球事实核查机构撰写的5000多份事实核查报告,以了解虚假信息在不同国家传播的特征。作者用事实核查报告的数量代表虚假信息的活动水平,发现前三名虚假信息传播地点分别是印度、美国和西班牙,虚假信息话题在社区传播中最多,社区传播增加了恐惧情绪的蔓延,排行最高的印度尤其受到影响,进而引发种族和宗教上的冲突。健康方面的消息和重大行动政策也是虚假消息的高发地。如,维生素C可以治愈新冠,普京在街上放了500头狮子防人出门。有关病毒起源的阴谋论也是多种多样。作品还穿插展示了来自不同国家的事实核查人员的分享,包括这些虚假信息造成的实际危害。

后半部分,作品从Twitter 的数千万条推文中验证了这些虚假信息的影响,发现“好消息”虚假信息更容易传播,名人分享虚假消息时影响更大。57%的美国共和党人认为COVID-19是在**实验室制造的,44%的共和党人认为一切都是比尔盖茭的阴谋。假消息的危害在于传播得多了,人们真的会相信。

本作品中还附有有关数据的可视化项目(https://www.readr.tw/project/covid19-disinformation-vis),
将重点在第五部分可视化与呈现风格中分析。

三、数据来源
这篇作品有两个数据来源。
第一个数据来源,也是最主要的,是Corona Virus Facts/Datos Corona Virus联盟数据库。从 2020 年 1 月 29 日到 2020 年 5 月 12 日,**媒体READr在这个数据库中抓取了 5,216 份事实核查报告,对这些事实核查进行了手动分类并进行了分析。
这个数据库由波因特研究所(Poynter)的国际事实核查网络 (IFCN) 领导,联合全球 100 多名事实核查人员发布、分享和翻译围绕 COVID-19 大流行的事实。波因特研究所(Poynter)是一家美国新闻业的非营利性学校。Poynter 的国际事实核查网络(IFCN,The International Fact-Checking Network) 于 2015 年成立,旨在监控事实核查领域的趋势,为全球事实核查人员提供支持。
Corona Virus Facts联盟于 2020 年 1 月在**的警告下成立。武汉封城后,Taiwan FactCheck Center主编陈夏与 IFCN 的副主任 Cristina Tardáguila 一起完成了一份关于李文亮散播病毒消息事实核查报告。在他们写完关于“吹哨人”的文章后,Tardáguila 给不同国家的 IFCN 成员写了一封信,邀请他们合作,IFCN CoronaVirusFacts Allies 就此诞生。
来自全球40多个国家的100多名事实核查人员检查社交网站上的消息,并上传到公共数据库。他们还和Facebook 和谷歌合作,后者在经确认的虚假信息上标记警告标志。到现在,Corona Virus Facts联盟已经完成了17000多项事实核查,核查的新闻范围达到110多个国家,覆盖40多种语言。
Corona Virus Facts联盟数据库中包含了各个组织对不同谣言的核查报告。可以根据关键词、国家、错误类型(如错误、误导、漏信息、无证据、部分错误)、核查组织进行分类。
图片1

在分析这些谣言在twitter上的影响力时,READr手动提取了数据库报告中虚假信息的twitter原始文本。之后利用**政治大学的推文存档数据库统计这些推文的影响力。
第二个数据来源是对事实核查工作者的采访和全球新闻研究结构发布的相关报道。如为了显示新冠期间谣言数量激增,引用了路透社对西班牙事实核查机构Maldita.es的报道。为了阐明**地区的谣言特点,引用了Doublethink Lab的相关研究。还采访了数位事实核查工作者包括印度事实核查组织 The Quint 的记者 Kritika Goel、PolitiFact 主编 Angie Holan等,来分析谣言的特点、背后的政治因素。
文中还引用了约翰·霍普金斯大学统计的各国新冠确诊病例数据。
优点:数据库包括全球四十几个国家的一百多个事实核查组织,内容较为丰富,数据公开透明,可信度高。还采访了相关记者,引用了相关报道和研究,数据来源广,能够较好地展示新冠谣言的特点。


Corona Virus Facts联盟官网https://www.poynter.org/coronavirusfactsalliance/
Corona Virus Facts联盟数据库https://www.poynter.org/ifcn-covid-19-misinformation/

四、数据分析方法与叙述风格
1、本文数据内容包括:
(1)IFCN报告的虚假信息分发地
(2)COVID-19虚假信息主题
(3)路透社新闻研究所的虚假信息研究
(4)印度流行的虚假信息话题、印度确诊病例变化
(5)美国流行的虚假信息话题
(6)COVID-19阴谋论虚假信息的共同话题
(7)新冠肺炎大流行期间**社交媒体上的三个共同话题
(8)虚假信息的影响:探索推特上虚假信息的转发数量
(9)各国热门话题的差异
具体的可视化项目中还增加有虚假信息总体数量变化、虚假信息的传播方式等数据的展示

2、本文数据主要采取计算机和人工分析两种方式,有以下几个部分:
(1)网页数据爬取
作者使用网络爬虫获取IFCN(国际事实核查网络)的事实核查报告,从2020念1月29日至2020年5月12日,共爬取了5216份事实核查报告。运用网络爬虫进行大量的数据爬取是数据新闻的常用手段。
(2)关键字计算
以查核报告作为文本用TF-IDF断词,佐以人工分析,找出该文本中独特的词。
关于TF-IDF:当前,真正在搜索引擎等实际应用中广泛使用的是 tf-idf 模型。tf-idf 模型的主要**是:如果词w在一篇文档d中出现的频率高,并且在其他文档中很少出现,则认为词w具有很好的区分能力,适合用来把文章d和其他文章区分开来。
(3)谷歌电子表格
使用翻译功能,以最大限度地减少人工分类上花费的时间。
(4)手动分类
作者在路透社新闻研究所的研究方法基础上采取手动分类虚假信息。路透社新闻研究所将虚假信息分为9种类型,而作者添加了两种类型:
WechatIMG372
WechatIMG374

COVID-19阴谋论虚假信息的共同话题也是通过作者手动分类得出的。
作者还手动提取了报告中(据事实核查组织的说明,有782份报告是在推特上传播的虚假信息)虚假信息的原始文本。但一些事实核查报告没有标记原始文本。一些原始文本在推特上丢失了。共发现了351篇文章,占总数的45%(这也是缺陷之一)。文章通过转发数量展现虚假信息的影响。
(5)使用R语言进行统计
进行简单的数据统计:主要是数量统计(用其他统计工具也能实现)。

3、叙事风格:
(1)比起不少讨论虚假信息的报道,本文在收集、分析数据的基础上重视采访,采访了来自各国的事实核查员,他们分享了这些虚假信息造成的实际伤害。文字和数据的结合能更有力地说明虚假信息的危害。
(2)例证丰富,在展现虚假信息主题时,作者举出了传播较广泛的虚假信息案例。在帮助读者直观了解虚假信息主题的具体内容时,也再次强调了那些广为流传的信息是虚假的,有一定功能性作用。

缺点:
(1)在展现虚假信息的影响时,受客观或非客观因素限制,一些事实核查报告没有标记原始文本,一些原始文本在推特上丢失了,样本的代表性可能不足。同时,除了研究推特平台上的虚假信息,也可以研究其他社交平台上的虚假信息(在可视化的具体项目中作者提到“这些假讯息有超过一半都是通过Facebook传播”)。
(2)手动分类效率低,还需考虑分类人员的信效度,应找到一种合适的机器分类方法。

五、可视化方法与呈现风格
本篇作品的可视化主要分为三个部分,(1)开篇的假新闻生成器(2)文字版中的静态图表(3)对文章内容及数据的动态可视化呈现项目

(1)首先,在报道开始之前有一个Disinformation maker,它模仿了赌博老虎机的外形设计表达了一种对谣言荒谬性的讽刺,一共有三个可以随机元素,第一个是主语,可能是“政府”“媒体”或者名人,第二、三个则是谓宾短语或各种状语,点击Play按钮即可随机生成,当生成内容是确实存在的谣言,网页则会告诉你对应的事实核查报道来源;如果是没有的,那么就会告诉你“您在不到一秒钟的时间内创建了虚假信息”,突出表现对疫情期间谣言的荒谬性和无理性的讽刺抨击,同时放在开篇起到吸引读者阅读,增强报道可玩性和传播力的作用,这一部分的结果是可以分享的,适应了社交媒体的传播逻辑
图片2
图片3

(2)第二个部分是文字版内的统计图表,这一部分的设计没有很多,以静态柱状图为主,主要是按照国家、谣言主题等分别统计事实核查报道的数量进行排序呈现,或者结合多个筛选分类条件对照表现,为阐述解释提供切入点和依据。
动态可交互的图表则有两个,一个是分谣言主题统计其转推量,横条的长度表示单个谣言的传播转推数量,鼠标移到具体的横条上可以显示具体的推特内容标题,每一条的长度累积起来表示这一类谣言的总转推量;
图片4
图片5

第二个则是在文章末尾,读者可以输入国家名称来查询该国不同主题谣言对应的事实核查量的统计图表,来查看在该国有影响力的谣言主题是哪些。
图片6

颜色上以橙红色为主色调,我认为是为了在不让内容呈现得让读者过分紧张同时,表现这些谣言的危险性,起到警示性的暗示。

(3)本作品的主要可视化集中表现在一个可视化项目。https://www.readr.tw/project/covid19-disinformation-vis
这个网页更加适合手机浏览,我认为团队在设计之初就是以手机阅读的逻辑进行设计的,这和它的主要传播平台的社交化传播逻辑相适应。
这个可视化建立在5000多份事实核查报道之上,通过TF-IDF断词分析法结合人工手动分类,将这些报道文本进行数据化分类,呈现的主要手段就是以时间日期为轴,用圆点的数量和大小来表现事实核查报道的数量,由此在时间维度也就是疫情发展阶段的维度来看事实核查报道的发展状况,用以代表谣言的传播状况和影响力。
基于文本分析数据,作者团队分国家、传播平台、谣言主题绘制了不同的对比图表来说明问题,并主要对不同谣言主题进行了进一步分析,结合文本关键词来阐释不同主题谣言的特点,并通过颜色来标记这些关键词,通过简单的圆点变色将想要表达的内容可视化呈现出来。
同时,在阅读方式上,网页的文字是在图表之上以文字版块的形式滑动呈现的,凸显了作为主体的动画图表。在内容上这一版其实和文字版想要传达的差异并不大,但是这种以图表为主体的形式让报道的可读性大大增强,带给读者的感性认识更加强烈,配合感官印象提高了内容信息的传达效率,同时适应手机阅读的模式也适合读者随时阅读,更加适合广泛传播

优点:
(1)原始数据是文本,采用了合适的文本分析方法转化为数据进行分析,在此基础之上展开了深入的分析,单一数据库也可以做很多角度的数据新闻。
(2)简洁协调,可视化逻辑清晰,和其根据特定数据库进行特定方法(文本分析)进行分析的思路一致,不会让读者思维跳跃/眼花缭乱。

缺点:
(1)用事实核查报道数量代表谣言传播和影响力是否合适是值得怀疑的,核查类报道数量还受到国家经济社会发展程度、人口/网民数量及其媒介素养、新闻媒体发展程度、媒体使用率、民族性格与文化等等的影响。这一点在其对于谣言转推量统计中就已经显示出与之前依据事实核查报道数据进行的分析之间存在的差异,事实核查报道数量最多的“社区传播”类并不是转推量最多的,反而是“其他”类受转推数量最多,传播力最强。

六、网页源代码分析
打开开头数字为102的json文件,可以看见包含“disinformation maker”中所有项目的列表。如果抽到的顺序是l中的一项,网页便会提示“This disinformation really exists!”,然后分享辟谣的链接。
图片10
图片11

disinformation maker的背景文字在代码层面上与上述的文件没有关系,只是一张名为bg.png的图片而已。
图片9

要获取该可视化项目的数据,可以点击右下角的“Made with Flourish”,进入其原来的页面,然后在开发者工具中找到名为“embed?auto=1”的文件。
图片10

可见数据在“_Flourish_data”中,但是该数据的格式不便于观察,可以先将其复制到python中,再转换成dataframe。
图片11

下图的数据也可以参照相同的逻辑:
图片12
图片13

网站https://www.readr.tw/project/covid19-disinformation-vis
的数据都储存在此处(用记事本或者pd.read_csv打开就没有乱码了):
图片14

网页中小圆圈的位置由上表中的时间、平台、关键词、话题、国家或地区决定。
图片15

七、作品评价
(一)意义与价值
1.新冠疫情是近年来全球最重大的传染病事件之一,它带来的不仅是病痛、死亡,还有政治、种族污名化和如今对人们每一寸生活的改变。选题是重大关切事件,具有深层人文关怀,意义突出。
2.假消息问题随着互联网的发展愈发严峻,新冠爆发带来了一场规模相当大的事实核查接力运动。该作品朝着虚假消息、虚假新闻开刀,同时起到了宣传事实核查的作用,体现了尊重事实的价值取向。

(二)不足与可改进之处
1.作品定位不够明晰,结构有些许混乱。作品以盘点全球事实核查报告及推特数据为己任,却又分析了并未在任何方面有代表性的**地区虚假信息话题问题。全文主要分析报告和数据,嵌入的对核查者以及其他人的采访更像是观点而非事实。
2.作品站在尊重事实的立场上批判政治阴谋论带来的新冠假消息,却将新冠病毒称为“武汉病毒”,自身并未跳脱政治框架,极具讽刺意味。

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.