耿冕
西方媒体是如何报道中国的?这是一个持续引发关注的问题。至少在2019年,中国普通民众也清晰感受到西方媒体涉华报道中的歧视和偏见。这种歧视和偏见,不少都是通过被冠以“主流”的西方媒体对相关事件进行选择性报道所展现的。不过,偏偏有人尝试用所谓更“科学”的方法,挑战这种普遍感受,揭示某种“反直觉”的深层观点。比如网上流传着一篇题为《大数据告诉你,外媒是否热衷报道中国的负面新闻?》的文章,就是此类尝试的典型。
文章作者声称借助一个名为GDELT项目的数据,评估各国媒体报道的“褒贬指数”,据此得出结论是“最偏见的媒体很可能就是中国媒体”,而“西方大国媒体对中国的报道都以褒扬为主”。这样的研究结论当然有视觉冲击力,那么如此“科学”的研究,也必然是可检验或者说可复现的吧?
文章作者使用的GDELT项目,是美国乔治城大学一位教授2013年创建并发布的一个新闻数据库。该数据库对全球新闻事件进行抓取,然后使用一个名为“冲突与调解事件观察活动和演员代码手册”(缩写为“CAMEO”)中界定的方法进行编码。被前述作者称为“褒贬指数”的是GDELT项目数据文件中的一个字段,名为“AvgTone”。根据项目提供的解释,这个字段表示提及某一事件的所有文档的“平均基调”。其分值范围从-100(极度消极)到+100(极度积极),常用值介于-10和+10之间,0表示中性。这可以被用作过滤事件“上下文”的方法,对某一事件重要性及其影响进行测量。
前述网文并未提供“褒贬指数”的原文表述,但从GDELT项目的数据来源看,应该就是“AvgTone”这个字段。既然是这样,那么这篇文章的内容和结论就很值得商榷了。
就研究的问题来说,人们关注的问题是西方媒体在涉华报道中主要表现出来的是对中国的褒扬还是贬低,但这个问题是否可以等价转化为在涉及中国的报道中,西方媒体更多使用了表达负面情绪还是表达正面情绪的词汇?
从已有实际案例来看,这个转换是存在问题的。一个显而易见的例子,就是去年香港发生街头暴乱,欧美一些媒体将其美化为所谓“靓丽的风景线”。这类报道中使用了正面词汇,但这样就能表示这个报道是对中国的“褒扬”吗?恰恰相反,这种表述越多,表明偏见越高。
就研究的方法来说,在使用数据库进行分析时,需要明确数据的意涵,而非仅仅满足于数字的计算。很显然,即使是数据库的编纂者,在设置字段时关注的也是事件本身的重要性,测度的是其影响力,而非认为通过对特定类型情绪的词汇统计赋值,就能描述媒介的态度。对于此类数据的使用和解读,仍应遵循创设者的原意,尽量避免使用者本身的预设立场干扰对数据的使用和解读。
就研究的过程来看,更加谨慎和科学的研究,是对编码手册本身进行必要的考察,因为这本手册本身如果存在某种偏差的话,那么对数据的使用就有进行校正或修订阐释的必要。CAMEO手册对每个编码都有阐释,并提供“样本文本”,简单检索就可以发现一些非常有趣的细节。比如,“巴勒斯坦”这个单词出现了62次,在主语位置时,基本都是与负面新闻相关的,核心主题是巴勒斯坦袭击以色列;而在正面或中性场合提到的范文,都是以色列对巴勒斯坦示好的词条。这样的编码手册本身就存在着严重的偏见甚至歧视,据此得出的结论是否公正就可想而知了。
技术发展丰富了研究手段,但从事研究的终究是人,如何避免出现靓丽方法包装下的各种有意或无意的误读,尤其不要出现“西方媒体对中国的报道都以褒扬为主”这样明显有违常识甚至可笑的结论,是值得人们重视和努力解决的重要问题。(作者是媒体行业观察家)
责编:赵建东
版权作品,未经环球网 huanqiu.com 书面授权,严禁转载,违者将被追究法律责任。