Content uploaded by Xiaoling Shu
Author content
All content in this area was uploaded by Xiaoling Shu on Mar 06, 2018
Content may be subject to copyright.
重新认识 “数据驱动"及因果关系
知识发现 图谱 中的数据挖掘研究
舒 晓灵 陈 晶晶
摘 要 :作为跨学科 的 一种 方式 ,知识 发现 和数据挖 掘是 个 多学 科 综合 的领
域 。它 的 目标是识 别和描述 数 据模 式 , 向使 用者 传递 有 意义 的数 据模 式信 息,并
运用一系列预测变量和它们的多重组合形式来高度准确地预测结果变量。数据挖
掘实际上 是知识 发现的过程 ,包括 理 解 问题领 域 、理 解数据 、数据准 备 、数 据挖
掘、评估新知识和使用新知识等环节,融合了归纳和演绎两种研究方法。该过程
不仅 回应 了 “数据为本”、“数据驱 动” 的误解 ,且 为发 现 新理 论 与创 新思维提供
了新方式 ,为来 自因果 关系的挑 战提 供 了新 的解 决途 径。相 较于传统 社 会科 学研
究方 法 ,数据挖 掘更关心 对整个事 件 的 完整 阐述 ,利 用 多元、 复杂 和 细节化 的 丰
富数据,关注因果异质性和多重非线性关系,因此相比传统统计模型能更准确有
效地 预测解释 结果 。
关键词 :数据挖掘 大数据 知识发现 定量 量化分 析 因果关系
作者舒晓灵,美国加州大学戴维斯校区社会学系教授;陈晶晶,美国加州大学
戴维 斯校 区社会 学系博 士研 究生 。
我们 当前正 面临着大数据的浪潮 。数据 收集量达到 了史无 前例 的规模 ;基 于 大数据 的分析
和知识推动着几乎所有社会层面的发展一 一零售、保险、无线移动业务、商业管理、城市规划、
科学技术 、社会科学和人文学科 。麦肯锡在 2011年的 一份报告 中指出 ,企业和用 户储存 了多于
13艾 的新数据 ,① 也 就是 5万倍于 美 国国会 图书馆的贮存量 。全球 个人定位数 据的潜在 价值 大
约为 7000亿美元 ,足够把产品开发和组装 的成本减少一半 。
事实上,技术的进步、日益发展的网络、电脑 、数 字传感器 和录音设备使得可分析的数据
大量增长且日益复杂化。数据获取、管理和处理的难度已经变得越来越高,数据在研究过程中
扮演越来越重要的角色。我们正站在这个新时代的门槛。随着大数据时代的到来,大量丰富的
信息和知识被埋藏在数据矿中。因此 ,运用数据挖掘技术发现有意思 、有意义和稳定 的数据模
式已经在研究中越来越重要。数据挖掘的方法与传统研究的方法有许多不同之处。本文强调,
① James Manyika,et a1.,“Big Data:The Next Frontier for Innovation,Competition,and Productivity,”
McKinsey Global Institute.2011 http:I{ mckinsey.corn/business-{unetions/digital-mckinsey/our-
insights/big—data—the-next—frontier—for—inn0vation.
・ 28 ・
重新认识 “数据驱动”及因果关系
与以 ‘‘数据为本”、‘‘数据驱动’’的指责恰好相反,数据挖掘是融合了归纳和演绎方法 的知识发
现过程,为理论发现与创新思维提供 了新方式;这种知识发 现过程,也为传统研究方法 中因果
关系面临的挑战,提供了新的解决方法。
一
、数据挖掘 中理论与数据的关系
在当下的学术研究中,人们对量化研究的认知存在误区,加之部分量化研究者自身的局限
性,量化研究被认为是以 “数据为本”和 “数据驱动”的研究。然而,在作为量化研究新进展
的数据挖掘研究 中,这是一种误解 ,事实并 非如此 。
数据挖掘是一个涉及统计学、计算科学、机器学习、人工智能、数据库技术和模式识别的
交叉领 域 ,利用 了这些学科 中常见 的方法 ,包括 传统统计的多重回归 ,以及 人工智能 、机器 学
习等以计算机为基础的方法。数据挖掘还发展了统计学之外的方法,例如结构树构造、结构树
修剪,支持向量机、链接分析、遗传算法、菜篮子分析和神经网络分析。此外,数据库技术也
被大量使用。
数据挖掘与传统统计方法有很大不同。具体表现为:
第一,数据挖掘基于自动或者半自动化的寻找模式。传统统计方法使用人工调整模型,是
一个较为漫长的手工过程。数据挖掘发展应用现成的工具,自动化比较强,可以自动检索、计
算和寻 找大量多样 的数学模 型 ,有 效减少知 识发现的时间与人力资 源成本 。
第二 ,数据挖掘 涉及多学科交叉 与合 作 。知识 发现和数据挖掘是 个多 学科 综合 的领域 ,包
括统计、计算机科学、机器学习、人工智能、数据库技术和模式识别等,呈现跨学科合作的趋
势。不同学科的学者正在积极寻求合作,以期在各学科领域以及学科交叉领域有所突破。而社
会科学家们,则在最近几年才将数据挖掘的新技术运用于研究与教学中。面对这种崭新的研究
方式 ,社会科 学家们需要加 强交流与 合作 ,拥抱机会 ,迎接挑战 。
第三,数据挖掘提供了新的知识发现技术。曾经受限于技术的发展,我们很难侦探和发掘
隐藏于大数据中的有意义的规律。而数据挖掘通过提供一系列知识发现的技术能够帮助我们找
到过去未被发现、甚至无法被发现的一些非常有意义的隐藏的数据模式,这些模式具有协助我
们创新与发现新理论的潜力,从而可能对各学科的进步产生革命性的影响。这是数据挖掘最有
吸引力的一点。
在以上三个特点的协助之下,作为量化研究新发展的数据挖掘不是由数据来统领一切的研
究,也不光是探索性的研究。做数据挖掘的学者需要强大、深厚的理论基础,如果仅仅是数据
科学专家,只懂数据却不了解社会科学相关专业领域理论知识,是无法完成这个研究的。数据
挖掘过程既运用总结归纳,也运用演绎推理。这是一种双向同时进行的过程,常常由数据到规
律发展成临时的理论,然后又从重新设计理论假设到数据分析,继而再证实理论假设。有时候
这个过程在 一个研究项 目中就完 成 了,有 时候则要分 开进 行 ,即一部分数据采用 归纳 的方式进
行研 究 ,一部分数 据采用演绎 的方式进行研 究 。有 时候完成 整个 研究 过程 需要一 系列 的研究 项
目,所以数据挖掘并非人们所想象的是由数据来领导的一个研究过程,理论基础和相关领域专
家仍然起着导航作用。
数据挖掘依据 知识发现过程 模型 ,同时运用演绎和归纳 两种科学研究方 法 ,充分运 用和处理
多元化的数据形式,并更强调多重因果以及因果异质性。这种研究模式相较于传统统计模型,
极大地提高 了模型预测的精度和对事 件完整阐述的能力 。
・ 9 ・
中国社会科学评价 2017年第 3期
事实上,尽管通常被误认为探索性研究,数据挖掘应该被更准确地叫做演绎和归纳两种研
究方法论的综合,这类似于扎根理论研究方法。扎根理论研究方法是运用系统研究方法去创造
系统性 理论研究方法的统称 ,运用 了一 系列严谨 的信息 数据 收集 和分析方法 ,从而展现 概念类
别 (conceptual categories)。尽 管定性研究 者更常运用这种 研究 方法 ,但它并不专属 于定 性 研
究。信息 数据可 以是定量数据 ,也 可 以是访谈 、影 视、 图像 、文 字 、观察 、口述 等资料 。扎根
研究方法 帮助研究者通过对 数据进 行不断的 比较 和挖掘发现 ,识别 出研 究领域 中 隐藏 的社会规
律和结构,形成概念。扎根理论研究过程包含了归纳和演绎两种研究方法,研究者通常先用归
纳的方法去发掘数据中出现的显著规律,继而围绕新理论进行研究设计、数据收集、分析数据
和理论检验,分析和理论检验的过程就是扎根研究中演绎研究的过程。归纳和演绎的过程可以
表示如图 1A和图 1B。演绎的研 究方法更 固定 ,并 注重对研究假设的检验 ,而归 纳的研 究方法更
具开放性 和探索性 。多数社 会科学 研究在某种程度上 同时运用归纳和演 绎两种逻辑。
图 1A “自上 而下 ”的演绎 性研 究
图 1B “自下 而上” 的归 纳性研 究
与扎根理论研 究方法相似 ,数据挖 掘领域也在小心翼 翼地避免掉进数据 驱动的 陷阱,并从 中
发展成熟 。
知识发 现过程模型的建立始 于 2O世 纪 90年代中期 的学术 界 ,正值数据 挖掘领域 逐渐发 展成
型时期 。严谨 的研究方法被运 用 于数据挖 掘 和知识 发现 的过程 。在 1996①和 1998@年 ,两个更
加著名 的过程模型分 别得到发 展 。1996年的知 识发现 过程模型 (KDP)包 括九个步 骤 :理解 领
域 内知识 ;选择数据集 ;数据预处理 ;数据降维 ;选 择数据挖掘方 法 ;选择数据 挖掘 运算法则 ;
数据挖 掘 ;数据分析 ;巩固新知识 ,研究者将新知识与既有 的知识 体系连 接 ,向科学 界进行记 录
和报告,有时这一步会包括发现或者化解既有知识中的冲突。这个过程是循环往复的,通常在
任意 两个步骤 中的周转 也很常见 。
最近发展的新的 KDP模式建立在这个初始模型基础之上,由 Cios等人为了协助学术研究发
展而 来。③ 新模型包括六 个步骤 。
① Usama Fayyad,Gregory Piatetsky-Shapiro,Padhraic Smyth and Terry Widener,“The KDD Process for
Extracting Useful Knowledge from Volumes of Data,’’Communications oJ the ACM ,voi.39,no.11,
1996,PP.27—34.
② S.S.Anand and A.G.BiJchner,Decision Suppo ̄through Data Mining,London:FT Pitman Publishers,1998.
⑧ K.J.Cios,W .Pedrycz,R.W .Swiniarski and L.Kurgan,Data Mining:A Knowledge Discovery Ap—
proach,New York:Springer,2007.
・ 3O ・
重新认识 “数据驱动”及因果关系
1.理解问题领域 :研究者定义研究问题 ,有 清晰的 研究 目标 ,并 学习 了在该领域 中重 要的
知识和术 语。研究问题被转 化为数据挖掘的 目标 ,并选择完 成数据挖掘的方法 。
2.理解数据 :研究者收集 并决定要使用 的数据。 同样的 ,研究者运用领 域 内的知识来做指
导 ,检测数据 的完整性 、重 复性和数据丢失情 况。
3.数据准备:包括抽样、进行相关性分析和显著性检验、数据清理。运用特征选择
(feature selection)和提取算法 (extraction algorithm)来对数据减维 ,以及通过离散化 (dis—
cretization)和 总结法 (summarization)来 获取新 的数据特 征 。
4.数据挖 掘 :研究者用 多种数据挖掘 方法处理 数据 、发现新知识。
5.评 估新知识 :评估包括理 解数据分析结果 ,检查 已发 掘的知识是否新颖 有趣 ,运 用该 领
域的专业知识来解释结果,并检验新知识的影响力。只有通过检验的模型被留下,研究者重复
所有的过程来检查是 否需要完 善研究结 果。
6.使用新知识:最后一步包括计划使用新知识的地点和方法,包括延展到其他的领域。新
知识的使用是经过监控和记录,并有计划地展开的。
图 2描述 了此模型下知识发现和数据挖掘的过 程。基 于研究者 的经验 ,图 2强 调了循环往复
的过程 和一些 回溯的步骤 。
图 2 知 识发 现过 程模 型
1.理解数据— 理解问题领 域 :更好 地理解数据 ,同时也需 要该领域的其他 知识 。
2.数据准备— 理解数据 :需要关于数据的其他 知识来指导数据处理 算法的选择 。
3.数据挖掘一 理 解 问题 :当选 择数据 挖掘 的方 法 产生 不 理想 的结 果时 ,需 要 修改 项 目
目标 。
4.数据挖掘一 理解数据:如果对于数据理解有偏差,会导致对数据挖掘方法的选择错误,
以及使用方法 的错误 ,需要 回到理解数据 的步骤 。
① Nikhil R.Pal and Lakhmi Jain,Advanced Techniques in Knowledge Discovery and Data Mining.Lon
don:Springer-Verlag,2005.
・ 3l ・
中国社会科 学评 价 2017年第 3期
5.数据挖掘一 数据准备 :当数据挖掘方 法需 要某一种数据时 ,需要 回到数据准备 的步骤 ,
有针对 性地整理 和准备数 据。
6.对新知识的评估—+理解 问题 :当新知识无 法正确有效解释现象 ,或者 出现不正确的研 究
设计 ,对于问题 的限定 、要求 和 目标理 解错误 ,整 个知识发现过 程需要重新开始。
7.对新知识的评估— 数据 挖掘 :当发现 知识并非新颖有趣或 者有用 时,解 决之 道是选择 不
同的数据挖 掘工具 ,并重复以上 步骤 。
图2实际上展现的是一个从理论到数据,再从数据到理论发现的不断进行归纳、演绎的
循环往复的过程。严格执行的数据挖掘模型,再现了知识发现的过程及理论与研究之间的关
系。如果说扎根理论研究方法是以定性资料为对象的归纳与演绎过程并存的研究方法,那么
数据挖掘也是一个归纳与演绎并存的研究方法,只是其数据资料包含了结构化的定量数据和
非结构化的定性数据。
二、数据挖掘对因果关系的新视角
严格意义上的数据挖掘研究实际上融合了归纳与演绎两种方式,对于理论与数据的关系给
出了新的解释,除此以外 。它也对因果关 系给出了新的理解。
(一)传统统 计模型 中来 自因果关系的挑战
科学探索的一项基本任务是找出因果关系。因果关系可以用反事实的关系来描述:“x和 Y
出现在这样 一种情况 下 ,如 果 X 没有 发生,Y不会 出现”。① 当因果关 系表现为 反事实关 系时 ,
原因对 于结果 的出现是 “必要且充 分”的 。② 这种 “情境充 分性”在 反事实的意义上来讲 ,意味
着 “如果 Y没 有发生 ,X不会 发生”。⑧
几乎所有的结果都是多种必要且充分的起因共同作用形成的。这种起因的多元性有两种结
构 :多元交集起 因和多元并集 起因。(垒)多元交集起 因在有 多种原 因同时存 在的时候 发生 ,比如 A
和 B共同作用产生 Y,Y只有 A与 B共同出现的时候 (ANB)才产生 ,但是如果只有 A或者 B
单独 出现 ,Y不会 出现。例如 ,电路短路 (A)出现在易燃 材料 (B) 附近发 生 ,形 成 了对火灾
的充分必要 条件 。该 例可 以用 AnB— Y来表示 。同样 的,一支 燃烧 的蜡烛 (M)会引燃易燃
物 (N),形成火 灾的充分必要条件 ,我们用 M NN— Y。
第二种起 因结构是多元并集起 因 ,常常被 当作是真正的 “多重 因果性”或者 “独 立原因”。
每一个多元并集起因的子因能够单独影响结果,每一种原因都相互独立,并且两种或两种以上
起 因同时 出现也并不改变结果 。⑤ 例如 ,房子火 灾有多种原 因,比如短 路出现在易燃物 附近 (A
nB),或蜡烛 出现在易燃物附近 (MNN),或有人纵火 (O),或油溢出导致火灾 (P),或闪电
① David Lewis,“Causation,”Journal of Philosophy,vo1.70,no.17,1973,PP.556—567;John I .Mackie
Cement of the Universe:A Study of Causation.New York:Oxford University Press.1974.
② Mario Bunge,Causality and Modern Science,3 ed.,New York:Dover Publications,1979.
③ Nikhil R.Pal and Lakhmi Jain,Advanced Techniques in Knowledge Discovery and Data M ining.
(垒) David Lewis,“Causation,”PP.556—567.
⑤ Brian Skyrms,Causal Necessity:A Pragmatic Investigation of the Necessity of Laws,New Haven
Yale University Press,1980;David Lewis,“Causation,”PP.556-567;Nikhil R.Pal and Lakhmi Jain
Adva nced Techniques in Knowledge Discovery and Data Mining.
・ 32 ・
重新认识 “数据驱动”及因果关系
导致的火灾等其他原因。每一种原因单独出现都会导致火灾,火灾的出现也并不随着这些原因
共同出现而 改变 。我们 可 以用 P [y 1(ANB)U(M nN)UOUPU…]:1来 表示这 种所有独立
原 因联合出现肯 定会导致火灾 ,即火灾 出现 的概 率是 1。
多元交集起 因和多元并集起 因展示 了原 因可 以是多重的并且 同时还 是 “必要且充分 ” 的。①
这种情 况在历史社会学研究方 法中非常常见 。例如 ,在著名 历史社会学家 Theta Skocpol的一部
影响深远的关于大革命的书中,她提出了出现大革命的决定性理论。她的理论包括两个交集充
分条件,当这两个条件同时形成时,革命一定会出现。② 她作出了一个非常强有力的预言,即当
“政权危机” (A)和 “阶级统治模 式” (B)共 同出现 时,革命就要到来 。“政 权危机”常常受国
际因素影响,比如逐渐增长的经济安全竞争。而 “阶级统治模式”决定哪一个社会群体会抓住
革命机会 。我们可 以用 P Ey I(ANB)] 一1来表示 ,当 A 和 B共同出现时,革命就 会出现。所
以,A和 B都 是革命 的必 要和充分条件 。
但是,尽管起因通常是由交集和并集多重因素组成的,且单一起因常常并不单独影响结果,
然而通常情况下社会科学研究者更愿意找出单一起因。这么做的原因有两个:首先,我们更愿
意相信 一个起 因的单独作用 ,特别是那 些具有 侵入性或者破坏性 的起 因更 显著地导致结果 ,而
不是一直存在的条件。这是因为被认为是不合时宜的或不正常的事情更容易引起人们对因果的
兴趣,而那些被认为是正常的、合适的或正确的条件并不容易被当作因果关系的一部分。比如
说,尽管火花和易燃物同时是火灾的必要和充分条件,我们更容易认为是火花而不是易燃物导
致 了火灾 。
其次,因果关系的决定和选择依赖于场景和环境,因为因果判断反映了哪一个变量不同于
“背景”。③研究者的研究重心决定了因果场域的广度与其他替代起因的数量和显著程度。例如,
当警察调查火灾原 因时 ,会倾 向于把注意力放 在火花 的来源上 (蜡烛 、短路或 者纵火 等等 )。然
而 ,如果是材料科 学研究者 ,就会 寻找与火灾相关 的易燃材料,他 们更容易认 为周边 易燃物是火
灾的原因。举另一个例子,如果教育研究专家被告知某个学校很多学生数学考试不及格,他们
会认为是教学方法出了问题。然而,当社会学家分析这些结果时,会把注意力放在学校和学生
的弱势社会 经济地位 以及缺乏社会 资源上。
我们常用的社会科学研究统计分析的单个起因,也就是单个 自变量,很多时候既不必要也
不充分 。单个 自变量往往被错 误地认定为是起因,其实应 当被称作 “不充分却 是不必要充分条件
中的非冗余条件” (INUS,an Insufficient but Nonredundant part of an Unnecessary but Sufficient
condition@)。例如 ,在火灾的例子 里 ,P [y l(AnB)U (M NN)U0UPU…]:1,传统的统
计学模型 预测某个单个原因 ,例如 A (电路 短路 )作为 Y (火灾)的预 测变量 。因为 Y 的出现
必须有 A (短路)和 B (易燃物)同时存在 (A和 B是交集的充分条件),仅仅有 A是不能形成
Y的充分条件的。传统的统计模型因此由因果关系的概率理论衍生而来。研究者运用统计模型
去预测当 A存 在时 ,Y有 多大可能性 出现 的时候 ,是只考虑 A 的主要效 应是什么 ,而忽 略 A 与
其他变量的共同作用的联合效应 (交集起因),尽管这是在控制其他变量的主效应的情况下进
行 的。
① Mario Bunge,Causality and M odern Science.
② Theda Skocpol,States and Social Revolutions,Cambridge:Cambridge University Press.1979.
③ H.J.Einhorn and R.M .Hogarth,“Decision Making under Ambiguity,”Journal of Business,vo1.59
no.4,1986,Pt.2:S225~¥250.
④ 参见 John L.Mackie, Cement o, Universe:A Study ofCausation.
・ 33 ・
中国社会科学评价 2017年第 3期
(二 )对因果 关系挑战 的回应
数据挖掘对因果关系的贡献是多方面的。社会科学研究运用传统的统计方法,侧重由理论
假设引导 的一部分 因果 机制 ,并 用其 作为对一个或 多个 理论 的检 验 ;而 数据 挖掘更关心对整个
事件的完整阐述。传统统计模型强调--/l,部分的起因,而一两个理论假设往往只能对结果进行
部分解释,并不能穷尽所有原因。此外,传统统计模型采用简单方程式的表现形式,这些模型
被认为是 直接 、简 洁且富有理论吸引力 的。而数据挖掘更关注 对事件的完整阐述 ,① 并 不回避多
元、复杂、细节化且 内容丰富的数据分析,因为这些多元化的起因对于结果往往有更强的解
释力 。
传统社会科学研究方法通常注重对因变量的简单主要效应分析,而数据挖掘强调复杂因果
关系的异质性 ;传统方法往 往强调线性直接效应 ,但数据挖掘 考虑多重非线性和联合 效应 ;传统
方法强调对预测系数的评估 ,而数据挖掘的目标是最大化模型的预测能力;传统方法局限于数
字数据 ,对非数字数据无能 为力 ,而数据挖 掘能处理多种形 式的数 据 ,包 括文字 图像录音等等 ,
并且用相应 的算法来分析预测结果 。
当然 ,要真正 确立因果关系 ,还要 依靠领域专家根据变 量之 间 的相关性 ,从理论 上 阐述 因
果机制。数据挖掘方法和所有的计量方法一样,提供变量之间的相关性的信息。此外,数据挖
掘还能高效地筛选变量之间复杂且多维的相关性,从而为我们对因果关系的复杂性、结合性与
异质性的认识提供数据线索。传统统计方法与数据挖掘并不是对立的,笔者只是强调数据挖掘
相对于传 统统计方法而言 ,能突破某些局限 ,从而提供 一些新颖有效的思 维与研究方式 。
1.传 统统计模型专注 简单主要效应 ,数据挖掘方 法研究复杂因果效 应。
传统的统计模型很少考虑联合因果效应 (两个及两个以上的变量的共同作用)和因果异质
性 。尽管统计 模型可 以通过两个 或几个 预测变量的交互项 来预测联合变量的因果效应 ,② 但在 社
会学领域内大多数研究仅仅预测解释变量的主要效应。⑧ 社会科学研究因此忽略了因果异质性,
并仅仅考虑主要效应来估测平均效应。这种做法避免了预测大量多重交互项的复杂计算,使得
m I
模型简洁经济。如果我们有 m个解 释变量 ,一个模型将产生 cpm一 个交互项 ,也就
: … IJ/ :
是 P重 交 互 。例 如 , 当 P 一 2时 ,一 共 有 m (m~ 1)/2个 二 重 交 互 项 ;P 一 3时 ,有 m
(m一1)(m一2)/6个 三重交互 项 ;P: 4时,有 m(m一1)(m一2)(m一3)/24个 四重交 互项 ,等
等。当一 个模型共有 1O个解释变量 ,就有 45个二重交 互项 ,120个 三重交 互项 ,210个 四重交
互项 !逐个探 究这些交互项的效应在 统计模型中耗 时巨大 ,难怪这些效应都通 常被忽略了。④
① 没有任何一种研究范式能够实现对整个事件 的全面完整 阐述 、穷 尽所有的细节 因素与条件 ,即使是最
擅长于此的定性研究也难以穷尽对事件过程所有因素的描述。这里仅指数据挖掘方法相比传统研究方
法具有更强的对事件全面阐释的能力。
② L S.Aiken and S.G.West,Multiple Regression:Testing and Interpreting Interactions,Newbury
Park,CA:Sage Publications,1991;James Jaecard and Robert Turrisi,Interaction Effects in Multiple
Regression,2 ed.,Thousand Oaks,CA :Sage Publications,2003.
③ F.Elwert and C.Winship,“Effect Heterogeneity and Bias in Main-Effects-Only Regression Models,”in
R.Dechter,H.Geffner and J.Halpern,eds.,Heuristics,Probability and Causality:A Tribute to Ju—
dea Pearl,M ilton Keynes,U .K .:College Publications,2010,PP.327—336.
④ K.J.Cios,W.Pedrycz,R.W .Swiniarski and I .Kurgan,Data Mining:A Knowledge Discovery Ap
proach.
・ 34 ・
重新认识 “数据驱动”及因果关系
知识发现和数据挖掘技术使得搜索、评估异质和并集合成起因自动化了。新数据挖掘技术
可以迅速地产生和测量千万个交互项和预测变量的不同组合,大大提高了对因变量进行预测的
准确性 。例如 ,决策树程序 中卡方 自动交互探测 (Chi-squared Automatic Interaction Detection,
简称 CHAID@)以及分类和回归树 (Classification and Regression Tree,简称 CART)运用可
以分类的多元变量方法,自动进行大量的自变量组合效应的测量。在神经网络的预测模型中,
神经网络能够自动生成许多复杂的交互关系。神经网络是一种新的计算机技术,它可以具有
1O层或者 2O层的神经结 ,里面包含非常复杂的变量相互关系。由于数据挖掘模型可以考虑复
杂的相互关系,由此所建构的模型与实际数据的因变量结果匹配度非常高,模型的预测力也
非常强。
正如前文已经强调的,数据挖掘是一个从理论到数据,再从数据到理论发现的不断进行
归纳、演绎的循环往复的过程。严格执行的数据挖掘模型,再现了知识发现的过程及理论与
研究之间的关系。新数据挖掘技术可以迅速产生和测量大量交互项和预测变量的不同组合,
为各领域专家们搜寻有意义并稳健的模型提供线索。但这些初级模型要通过一个不断归纳、
演绎 的循环往 复 的过程 ,达 到对新 知 识 的发现 。研 究者们通 过对交 互项 和预 测变量 的不 同组
合反复检测 ,并结合理论,从而达到对理论异质性与复杂相关性、因果关系的深刻认识,推
进理论发展进步。
2.传统统计模型分析线性主要效应,数据挖掘方法扩展包括了非线性联合效应。
在传统的统计模型中,自变量与因变量的关系通常被当作线性,被用于广义线性模型。大
多数传统模型会自动应用线性方程来描述自变与因变量的相关性,除非研究者有极强的理论或
实践证 据支持非线性方程的存 在。仅有少数几个 变量例如年龄 (二 次方 )、GDP (自然对数)和
收入 (自然对数 )通常被看作 是非线 性关 系 。这 种逻 辑的 原因有三 :第 一 ,尽 管把 一个 连续 区
间变量转变为虚拟变量来观察非线性效果非常简单,展示和解释这种非线性的规律却不容易。
因此 ,传统统计模型的运用常常 选择 简单 线性方程 ,而不是 一系 列的非连续变量 ,尤其 当该 变
量是控制变量,并且在理论上并不重要的时候。第二,仔细评估每一个解释变量和其与结果变
量之间的方程式 (尤其是当解释变量数量很多的时候)非常耗时耗力,因此研究者常常选择不
这么做。第三 ,传统 的统计学家常常不是用相关就是用方差/协方差阵来总结整个数据库。这种
矩 阵式的总结假 定整个数据库 的所 有变量都是线性关 系,即某 变量一个单位 的增 长和 另一个变
量的单位增长单方面同步。尽管这种粗略的数据简化使得数据储存和移动更方便,它对于模型
本身却有严重影响。除了忽略变量之间的非线性关系之外,还导致无法准确地掌握变量关系本
身的复杂性 。
数据挖掘提供了许多自动化或者半 自动化的工具来帮助研究者寻找非线性关系,从而提
高模型预 测精 准度 。数据挖掘可 以 自动地 为连 续 自变 量产生断节点 ,来 获得 自变量 和 因变 量
之间的非线 性 关 系 。例 如 ,一 款广 泛 使用 的 标准 统 计 软 件 sPSS,现 在 可 以提供 自动 分 组
(binning)和离散化非线性变量。按照因变量的变化模式将自变量分段分组,从而根据预测结
果来分离 自变量 ,这被称 为最佳分组 (optimal binning),因为该做法能够最好地预测某种结果
变量。另一软件 CART也有 自动分组的程序来处理非线性关系,该程序被称为最佳组合或者
基 于熵 的离散 化 (entropy-based discretization)。这 些软 件一般是基于结 果变量 来 区分每个组合
① J.Magidson,“The Use of the New Ordinal Algorithm in CHAID to Target Profitable Segments.”The
Journal of Database Marketing,vo1.1,1993,PP.29—48.
・ 35 ・
中国社会科学评价 2017年第 3期
中案例与其他组合的差别 ,然后选择每个组合的边界,①这样大大提高了对于每个因变量 的预
测准度,继而也提高了整个模型的预测能力。此外,数据挖掘也提供了可视化工具,我们可以
从任何角度做任何旋转来观察变量间的关系,探测非线性关系。这些工具包括简单绘图、散点
图、3D图像和其他可视化过程。研究者已运用这些工具,通过看到当其他变量变化的时候,结
果变量是如何变化的,来精确地描述某个 自变量与因变量之间的非线性相关性,改进模型预
测力 。
3.传统 统计模型 侧重预测 系数估计 ,数据挖掘方法关注模型预测能力 。
当运用传统统计模型时,社会和行为科学研究者强调预测在理论上重要的单独起因以及与
结果变量之间的关系的效应。他们看重对于自变量与因变量之间相关性机制的理解,且分析和
解释集 中在预测 系数上,包括 系数 大小 、显著性程 度。这 些信 息直接 回答 了主要 解 释变量 和 因
变量 之间联系 的本质 。这样的模型有 时会 忽略大量 未解释 的方差 ,有些来 自于模 型中缺 失 的因
果变量或者 效应 ,有 些来 自于测量误差和数据 缺失 。但是 ,模 型 的拟合优度 (goodness of fit)
并不是研究 者的主要考虑 因素 ,②所以拟 合优度很低的模 型也 被容 忍接受 。因此 ,我们 在顶 尖的
社会科学杂志中并不难见到中等甚至很低的预测能力的模型。比如,大多数模型只具有 25 甚
至更低 的解释方 差 ,③即便是模型有低于 0.1的可 决系数 (coefficients of determination)R 也被
认为是 无可非议 的—— 例如大多数 的关 于性 别态度的 已发表文 章 ,基 于个人层 面微观 自变量 的
模型一般 只解释 6 9/6—7 的方 差。
而数据挖掘强调模型预测的准确性。数据挖掘源于人工智能对于应用预测模型的专长,并
由此发展而来 ,最初的预测模型 包括预测保险诈骗、疾病 诊断 、模式识别 (pattern recognition)
等等。⑤一个重要的模型成功与否的标准是其在社会实践中准确预测结果的能力。数据挖掘使
用了多 种多样 的方法来 保证 预测 的准 确性 ,例如 ,机器 学 习是动态 的有学 习能 力的智能 系统 ,
从数据中掌握信息 ,产生模型,并预测结果。基于代理的模型运用单个代理之间的互动来构
建全面的智能系统。神经网络相比于多重回归和其他多变量的技术更擅长预测结果。⑥通过结
合不同方法,最大化模型的整体预测能力,数据挖掘使用了机器学习中的许多工具包括人工
智能 、数据库和 统计 ,相 比传统统计模型具 有更 好的解 释力 。
4.传统 统计模型 限于数值 数据 ,数据 挖掘方法 广泛应用 多样数据。
传统的统计分析主要基于调查问卷,变量多为数值型数据。其他类型的数据,比如文本数
据或者访谈数据,常常被认为是定性数据。定性研究者花大量时间沉浸在定性数据里寻找数据
规律。当这些数据量很小时,这种劳动密集型的研究方法完全能够进行数据处理和分析。但是,
当数据量变大,数据维度变复杂时,要求用人类的眼、耳和大脑快速认知和查找模式和变量间
关系就变得几乎不可能。大量的专业机构记录、个人账户、人与人之间的交流数据格式是文本、
① Ian H.Witten,Eibe Frank and Mark A.Hall,Data Mining:Practical Machine Learning Tools and
Techniques,Third Edition,Burlington:Elsevier,2011.
② Leo Breiman,“Bagging Predictors,”Machine Learning,vo1.24,no.2,1996,PP.123—140.
③ Paul Attewell and David B.Monaghan,Data iVIiningfor the Social Sciences:An Introduction,Oakland:
University of California Press,201 5.
④ Xiaoling Shu,“Education and Gender Egalitarianism:The Case of China,”Sociology of Education ,vo1.
77,no.4,2004,PP.311—336.
⑤ Xiaoling Shu,“Artificial Intelligence,”in M.Lewis-Beck et a1.,eds., e Sage Encyclopedia of Social
Science Research M ethods,Thousand 0aks,CA:Sage Publications,2003.
⑥ Theda Skocpol,States and Social Revolutions.
・ 36 ・
重新认识 “数据驱 动”及因果关系
语音或者 图像 。网络和线上社 区包含大量文本和图像 , 比如脸书 (Facebook)、微信朋友 圈、推
特发文、电 邮、博客和 Instagram 的图像 ,等等 。这些数 据往往得不到充分 运用 ,社会 科学研究
者没有有 效的工具来处理数 据 ,导致这 些数据难 以管 理分析与利用 。
数据挖掘为预 处理非结构数 据提 供 了多种工具 ,并 为非数值型数据 (比如语 言分析)提供
了分析的方 法和模型 。这些 类型的数据之所 以难 以分 析 ,是 因为 有不 同的长短 、顺序和杂乱 的
结构。例如,不合文法的句子、拼写错误、非常规缩写、随意停顿、专业术语和语境,这些问
题可以由预处理数据步骤完成,从而把数据从输人格式转成数据挖掘算法的可用数据,形成了
数据挖掘的一个重要步骤。文本的数据挖掘有一系列算法,有可以将单词变成词袋的词袋模型
法 (Bag of Words),有采用一系列相邻词汇的 N元序列法 (N—gram Sequence),有识别常见命
名实体 (named entities)的用名字输入提取法 (Name Entry Extraction),还有把一组话题作为
集群单词的主题模型法 (Topic Models)。例如,经济学者可以通过挖掘新闻信息流来预测股市
走 向。①
三、大数据时代数据挖掘面临的挑战
尽管数据挖掘可以在一定程度上弥补传统统计方法出现的问题,提供新方法新途径,找出
数据中有意义的模式,为拓宽社会科学研究视野提供新的机会,但是数据挖掘也面临挑战和问
题 ,需要我们 找出办法 ,补足缺陷。
传统的统计方法依赖于经过精心设计和测量获得的概率样本,但数据挖掘通常面临的是
“便利 样本”。 因特 网和网上活动 日益增 长产生了大量数 据 ,比如 网上购物记 录、脸书互 动记 录 、
健身记录、GPS记录、信用卡消费记录和保险索赔记录。这些数据通常记录了非随机人类活动,
被叫做 “便利样本”。尽 管这些数量巨大 的数据 可以从网上数据库 中轻 松获得 ,但 它们既不是人
口普查数据,也不是精心设计的概率样本。研究者常常并不确定它们与总人口的关系——它们
是否能够代表总人口,或者每个样本中的人被调查的概率是多少。因此,显著性检验并不适合
于这些 “便利样本”。
数据 挖掘运用 的 “便利样 本”虽然 存在样本 代表性 问题 ,但并非 无计可施 ,现 已有一 些技
术方法能够处 理这些问题。比如复 制、交叉验证、 自助法 (bootstrapping) 和非参数法 。复制是
用不同的数据 检测模 型,确立样 本代 表性 ,防止模 型过度吻合数 据 (overfitting),保 障模型的
可靠性与 普遍性 。交 叉验 证是指将样本分为 训练样 本 、调节样本 (tuning sample)、测验样本 ,
利用训练样本对模型进行训练,利用调节样本对模型进行调节,最后利用测验样本对模型进行
验证。多轮交叉验证可以通过样本分离来进行,对几轮验证的结果进行平均值计算结果。自助
法是一种 重复采 样方法 ,从 样本 中有 放 回同等的随机抽 样 (uniformly and with replacement)。
自助法是指从样本中有放回的随机抽样,计算每次抽样的统计量,对统计量进行排序,在一定
的显著性水平下寻找置信区间,对样本的显著性进行检验。非参数方法主要是针对研究总体分
布未假定 的情况下 ,通 过样本本身 的信息 进行估 计和推断 ,包 括 回归估计法 、局 部多项 式估计
法,等等 。
尽管数据 挖掘能够建立模 型,提供 巨大 的解释力 ,但 这些模 型有 时不 能清 晰地表述变量问
) Foster Provost and Tom Fawcett,Data Science for 13usiness:What You Need t0 K 0叫 口bou£D £ ^缸
ing and Data-A nalytic Thinking,Sebastopol:0 ’Reilly Media,2013.
・ 37 ・
中国社会科学评价 2017年第 3期
的复杂关 系 (预测变量 和结果变量之间的方 程式)。因此 ,用 于建立因果关系 的实证 证据和理论
框架间的联系无从得知。例如,一个复杂的多层神经网络可以成功地预测结果,但是有时对于
因果过程和每个变量对结果的相对影响阐释不清。尽管人工智能有强大的处理海量数据和信息
的能力,尤其是在模式或者规律认知方面,但人工智能模型是如何获取预测变量和结果变量间
的关系 ,还是一个黑箱 。真正 的因果 机制 ,包括 因变量在 自变 量 的什么程度上以什 么方 式发 生
变化,通常还是无法可见。要保证人工智能模型对于社会科学研究真正有用,需要将因果过程
在这些模型中显现,这将是一项意义非凡的工程,毕竟社会科学研究的核心就是发现重要的预
测变量和它们 在因果关系过程 中的具体作用 。
总体而言,数据挖掘并不代表数据驱动,而是一个知识发现的过程。不同于传统社会科
学研究方法,数据挖掘更关心对整个事件的完整阐述,并不回避多元、复杂和细节化的丰富
数据,关注因果异质性和多重非线性关系,因此相比传统统计模型能更准确有效地解释结果。
同时,数据挖掘为充分运用非结构和非数值型数据 (文本、图像、语音等等)提供了多种工
具。定性的研究方法无法处理海量的数据,而传统的定量方法 ,也就是统计模型,难以处理
非结构数据,结果大量的数据被留在数据矿中得不到分析。数据挖掘能够应对互联网和大数
据时代的需求,充分利用这些数据矿,并极大推动人类知识 的进展。当今社会科学研究的重
点,是如何在数据挖掘模型中进一步展现因果过程,从而不仅能够准确预测结果,也能解释
其起因机能与途径,通过运用知识发现过程模型有效地促进社会科学研究的重大突破与飞跃
发 展 。
・ 38 ・
[责任 编辑 :李文珍]