设为首页收藏本站

大数据论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
查看: 96|回复: 2

梁玉成:大数据不能替代理性思考

[复制链接]
发表于 2019-7-9 16:29:45 | 显示全部楼层 |阅读模式
有关大数据的讨论,几年间已经从早期的概念发展到今天的应用,应用领域也已从早期的商业领域拓展到学术领域、政策领域。首先,大数据特殊之处在于其数据来自于全体,而不再是部分数据的采样。采样数据无论如何抽取都会有抽样偏差,进而可能导致结果的偏差,在这个意义上,大数据时代,可以依靠强大的数据处理能力处理全部的数据,这是多么令人兴奋。其次,数据作为知识的重要来源,抽样调查数据也好,二手文献数据也好,人们均是从中进行分析并获取知识,但这类数据中包含的变量总归有限,知识的获取也因而受限,而大数据将大量结构复杂、类型众多的异构数据结合在一起,构成有无限组合可能的数据集合,使用计算能力可以无限扩充的云计算来进行,作为知识生产来源的大数据的数量级别进而达到PB级,因此其中潜藏的知识不知几何,人们获取知识的能力也可能会大大增加。
大数据的先行者通过各种数学和物理算法在大数据中掘金,一些人类过去未能发现的潜在关联被发现和应用,并取得了瞩目的成就和进展。基于此,大数据理论基本都提出:基于大数据发掘出的“有效”相关性关系即可进行预测;有效性不需要知道“为什么”,知道“是什么”即可。数据和算法驱动研究成为大数据研究的主要范式。我相信,大数据的无预设前提的数据驱动的相关关系的挖掘,有着解放人类被理论局限性束缚的手脚的功用。但是,我们会不会走出一个陷阱,又踏入另外一个陷阱呢?
首先讨论的第一个问题是,来自于全体数据的结论就是可靠的吗?在一次博士论文答辩中,答辩人报告,她使用全国人口普查数据发现,老年人的健康与财富之间的关系是:老年人健康水平越低则财富越多,或者反过来说,老年人财富越多越不健康。评委当时一片哗然。事实上这是合情理的,其机理就是,一个越不健康的老人,就需要越多越好的医疗资源才能存活,而越多的财富能保证其越多越好的医疗资源。因此,相同的不健康状况的老人中,钱越多则具有越高的生存概率。换个角度看,不健康的老人中,没钱的死了,有钱的活下来了;越是不健康的老人中,只有越有钱的才能存活。因此,全体数据的结果是:老人的财富与健康呈现出负相关。这是来自于全体数据的结果,显然是合理的,但其显示的相关关系却有些荒谬。
这样就导致了第二个问题:追求这样的相关关系有价值吗?这样的相关关系可信吗?可能读者都不会相信,健康与财富呈现出的负相关是正确的相关关系,而出于理性,相信的恰恰是健康与财富应该呈现出正相关的关系。在这里,社会实体所表现出来的模式显然违背了我们对社会的理论认识。我们都知道,理论是现实在头脑中的反映,但是这个例子告诉我们,人类通过理性建构的理论并非社会现实在头脑中的简单反映。这里,提出一对概念来阐述这个观点。变量之间的关系有两种表现形式,一种是社会实体的表现形式(real pattern),一种是社会理论的表现形式(relation pattern)。前者是社会实体直接体现出来的变量和变量之间的相关关系,后者是学者通过理性思考建构的理论空间的因果关系。变量在社会实体上表现的相关关系,由于社会实体的选择性偏误(例子中是由死亡的非随机性造成),导致了相关关系的扭曲,甚至相反。因此,人们宁愿相信自己的理性,而不愿只是机械地接受社会实体表现出来的模式。
人类的理性,使得我们知晓变量间在社会实体上的表现形式并不必然等于社会理论上的表现形式。对大数据使用数据驱动,能获得的仅仅是社会实体上的表现形式,这可能与理论空间的因果关系一致,也可能完全相反。因此,放弃人的理性思考,放弃获得具有严密因果逻辑的理论上的表现形式,使用找到相关关系即可的大数据分析范式——数据驱动,在我看来是无法接受的。大数据的分析,仍然需要理论驱动和理论理解所建构的因果关系。因此,无论如何精巧的大数据分析工具的使用,都不能代替生产工具的人的理性思考。“武器的批判”并不能取代“批判的武器”。大数据时代依然如此。

点评

海!外直播 t.cn/RxmJTRS 禁闻视频 t.cn/Rxl1r5S 禁止言论自由只有三个解释:1.它过去做了坏事,怕人们提起.2.它正在干坏事,怕人们批评.3.它准备继续干坏事,怕人们揭露.总之,禁止言论自由一定与坏事相关,绝对不是好   发表于 2019-7-14 02:35
回复

使用道具 举报

发表于 2019-7-9 16:29:48 | 显示全部楼层
不错 支持一个了
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|大数据论坛 ( 京ICP备10002193号-4 京公海网安备110108001289号  

GMT+8, 2019-7-23 00:27 , Processed in 0.287392 second(s), 27 queries , Gzip On.

Powered by Discuz! X3.1

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表