ArticlePDF Available

重新认识“数据驱动”及因果关系:知识发现图谱中的数据挖掘研究 “Data-Driven" Research and Causality in Knowledge Discovery and Data Mining

Authors:

Abstract

技术的进步、日益发展的网络、电脑、数字传感器和录音设备使得可分析的数据大量增长且日益复杂化。数据获取、管理和处理的难度已经变得越来越高。数据在研究过程中扮演越来越重要的角色,而我们正站在这个新时代的门槛。在现有的主流的研究过程里,理论不仅是假设的基础,并且是建立模型的推动力量。随着大数据时代的到来, 大量丰富的信息和知识被埋藏在数据矿中。因此, 运用数据挖掘技术发现有趣、有意义和稳定的数据模式已经在研究中越来越重要。数据挖掘的方法与传统研究的方法有许多不同之处,数据挖掘与知识发现技术的逐渐广泛的运用影响了所有学科领域, 社会科学也不例外。海量的数据为新的发现提供了前所未有的机遇和挑战。该文章致力于阐述数据挖掘的原理, 对于知识图谱的贡献及其面临的挑战。
识 “ 
现 图谱 中的 
舒 晓灵  陈 晶 
  要 :科 的 一种 方式 ,知识 发现 和挖 掘是 个 多学 科 综合 的 
域 。它 的 目识 别和述 数 据模 式 , 向使 用者 传递 有 意义 的数 据模 式信 息 
运用一系列预测变量和它们的多重组合形式来高度准确地预测结果变量。数据挖 
际上 是知识 发的过程 ,包括 理 解 问题领 域 、理 解据 、数准 备 、数 据挖 
估新知识和使用新知识等环节,融合了归纳和演绎种研究方法。该过程 
不仅 回应 了 本”、“驱 动” 的误解 ,且 为发 现 新理 论 与创 新供 
了新式 ,为 因果 关挑 战提 供 了新 的解 决途 径相 较统 社 会科 学研 
究方 法 ,数据挖 掘心 对事 件 的 完整 阐述 ,利 用 多、 复杂 和 细化 的 丰 
数据关注因果异质性重非线性关系,因此相比传统统计模型能更准确 
效地 预释 结果 。 
键词 :数据挖掘  大数 知识 定量 化分   因 
者舒晓灵,美国加州大学戴维斯校社会学系教授;陈晶晶,美国州大学 
戴维 斯校 区会 学博 士研 究生 。 
我们 当前正 面临着大数浪潮 。数据 收集到 了史无 前例 的规模 ;基 于 大数据 的分 
知识推动着几乎所有社会层面的发展一 一零售、保险、无线移动业务商业管理、城市规划、 
科学技术 、社会和人文学科 。麦锡在 的 一份报告 中指出 ,企业用 户储存 了多于 
艾 的新数据 , 也 就是 万倍于 美 国国会 图书馆的贮量 。全球 个位数 据的潜在 价值 大 
亿美元 ,足够品开和组装 的成本少一半 。 
实上,技术的进发展网络、电脑 字传感 和录音使可分析的数据 
大量增长且杂化据获取管理和处理的难度已经变得越来越高数据在研究过程中 
扮演越来越重色。我们正站在这个新时代的门槛。随数据时代的到来,大量丰富的 
和知识被埋藏在数据矿。因此 据挖现有意思 和稳定 的数据模 
经在研究中越来越重要数据挖掘的方法与传统研究的方法有许多不同之处。本文强调, 
① Jme Ma      ,a  
Mc  .2   mc 
 
・  8 ・ 
重新认识 “数据驱动”及因果关 
以 ‘据为本”、‘数据动’’的指责恰,数据融合了归演绎方法 的知识发 
现过,为理论发现与创新思维 了新方;这知识发 现过,也为传统研方法 中因果 
系面临的挑,提供了新的解决方 
中理的关 
在当下的学术研究中,们对量化研究的认知存在误区,加之部分量化研究者身的局限 
量化研究被认为是以 “数据为本”和 “数据驱动”的研究。然而,在作为量化研究新进展 
的数研究 中,这是误解 ,事实并 非如此 。 
数据挖掘是一个涉及统计学、计算科学、机器学习、人工智能、数据库技和模式识别的 
交叉领 域 ,利用 了这些科 中常见 的方法 ,包括 传回归 ,以及 人智能 、机器 学 
等以计算机为基础的数据挖掘还发展了统计学之外的方法,例如结构树构结构树 
支持向链接分析、遗传算法、菜篮子分析和神经网络分析。此外数据库技术也 
被大量使 
据挖掘与传统统计方法有很大不同。具体表现为: 
,数挖掘基于动或者动化寻找模式。传统统计方法使用人工调整模型, 
较为漫长的手工过数据挖掘发展应用现成的工具,自动化较强,可以自动检索、 
和寻 找大多样 的数学模 型 ,有 效减少知 识发间与力资 源成本 。 
二 ,数据挖掘 涉及多学交叉 与合 作 。知识 发现掘是 个多 学科 综合 的领域 ,包 
括统计算机科机器学习、人工智能、数据库技术和模式识别,呈现跨学科合的趋 
势。学科的学者正在积极寻求合作,以期在各学科领域以及学科交叉领域有。而 
会科学家们,则在最近几年才将数据挖掘的新技运用于研究与教学中。面对这种崭新的研究 
方式 ,社会科 学家们需加 强交流与 合作 ,机会 ,迎挑战 。 
数据挖掘提供了新的知识发现技术。曾经受限于技术发展我们很难侦探和发掘 
藏于大数有意义的规律。而数据挖掘通过提供一系列知识发现的技术能够帮助我们找 
过去未被发现、甚至法被发现的一些有意义隐藏的数据模式,这些模式具有协助我 
创新与发现新理论的从而可能对各学科进步产生革命性的影响。这是数据挖掘最有 
 
在以上三个特点的协助之作为量化研究新发展的数据挖掘不是由数据来统领一切的研 
也不光是探索性的研究。做数据挖掘的学者需要强大、深厚的理论基础如果仅仅是数据 
科学专家懂数据却不了解社会科学相关专业领域理论知是无法完成这个研究的。数据 
挖掘过程既运用总结归纳,也运用演绎推理。这是一种双向同时进行的过程常常由数据到 
律发展成临时的理论,然后又从重新设计理论假设到数据分析,继而再证实理论假设。有时 
过程在 一个研究项 目中就完 成 了,有 时候要分 开进 行 ,即一采用 归纳 的方进 
研 究 ,分数 据采用演绎 的方研 究 。有 时成 整个 研究 过程 需一 系列 的研究 项 
,所以数据挖并非人们所想象的数据来领导的一个研究过程,理论基础和相关领域专 
家仍然起着导 
数据掘依据 知识发现过程 模型 ,同时运用演和归纳 两种科研究方 法 ,分运 用和 
多元化的数据形式并更强调多重因果以及因果异质性。这种研究模式相较于传统统计模型, 
大地提高 了模型预和对事 件完阐述的能力 。 
  9  
中国社学评 年第 3期 
事实上,尽管通常被误认为探索性研究数据挖掘应该被更准确做演绎和归纳两种研 
究方法论的综类似于扎根理论研究方法。扎根理论研究方法是运用系统研究方法去创造 
系统性 理论研的统称 ,运用 了一 系列谨 的信息 数据 收集 和分法 ,现 概念类 
 。尽 管定究 者种 研究 方法 ,属 于定 性 研 
。信息 数据可 以是数据 也 可 以是访谈 、影 视、 图像 、文 字 、观察 、述 等料 。扎 
研究方法 帮助研者通过对 数据进 行的 比较 和现 ,别 出研 究领域 中 隐藏 的社规 
律和结构,形成概念。根理论研究过程包含归纳和演绎两种研究方法研究者通常先用归 
纳的方法去发掘数据中出显著规律继而围绕论进行研究设计、数据收集分析数据 
和理论检验,分析和理论检验的过程就是扎根研究演绎研究的过程。归纳和演绎的过程可以 
表示 图 1。演绎的研 究方法更 固定 ,并 注重对究假的检验 ,而归 纳的研 究方法 
开放性 和探索性 。多数社 会科学 研究在某种程度上 同时运用归纳和演 绎两种 
图 1  自上 而下 ”的演绎 性研 究 
  自下 而” 的归 纳研 究 
与扎理论研 究方法相似 ,数据挖 掘领域也在小心翼 翼地避免掉进数据 驱动的 陷并从 中 
展成熟 。 
识发 现过建立始 于 2世 纪 9中期 的学术 界 ,数据 挖掘领域 逐渐发 展成 
时期 。严谨 的研究被运 用 于数据挖 掘 和知识 发现 的过程 。在 ①和 @年 ,两更 
著名 的过型分 别得到发 展 。1的知 识现 过程 )包 括步 骤 :解 领 
域 内知识 ;选择据集 ;据预处理 ;数据降维 ;选 择数掘方 法 ;数据 挖掘 运算则 ; 
据挖 掘 ;据分析 ;知识 ,研究与既有 的知识 体系连 接 ,向学 界进记 录 
报告,有时这一步会包括发现或者化解既有知中的冲突。这个过程是循环往复的,通常在 
意 两个步骤 中的周转 也很常见 。 
最近发展的新的 KP模式建这个初始模型之上,由 C等人了协助术研 
展而 来 新模括六 个步骤 。 
① Us          
 Us Kn m   mm   ACM ,v 
P. 
② S  A.G.   Mi ma  
K.W .PR.W .Swi  ,D Mig: Kn Di Ap 
prNe Yo:S,2 
・   ・ 
重新认识 “数据驱动”及因果关系 
问题领域 :研究者问题 ,有 清晰的 研究 目标 ,并 学习 了在领域 中重 要的 
知识和术 语。研问题被转 化为数挖掘的 目标 ,并选择完 成数据法 。 
数据 :究者收集 并决使用 的数。 同样的 ,研究者用领 域 内的知做指 
导 ,检测数据 的完整性 、重 复性和数据丢失情 况。 
数据备:包括抽样、进行相关性分析显著性检验、数据清理运用特征选择 
 和提法 ( )来 化 ( 
)和 总结 mm)来 获取新 的数据特 征 。 
据挖 掘 :者用 多种挖掘 方法处理 数据 、发现新 
评 估新知识 :估包括理 解数结果 ,检查 已发 掘的知是否颖 有趣 ,运 用该 领 
域的专业知识来解释结并检验新知识的影响力。只有通过检验的模型被留下,研究者重复 
过程查是 否需要完 善研究  
使用新知最后一步包括计划使用新知识的地点和方法包括延展到其他的领域。 
知识的使用是经过监控和记录,并有计划地展开的。 
图 2描述 了此下知数据的过 程。基 于研究者 的经验 ,图 2强 调复 
的过程 和一些 回溯的步骤 。 
知 识发 现过 程模 型 
数据— 理解问题领 域 :更好 地理解数据 ,同时也需 要该领域的其他 知识 。 
准备— 理解数据 :需要于数的其他 知识来导数据处理 算法的选择 。 
挖掘 理 解 问题 :当选 择据 挖掘 的方 法 产生 不 理想 的结 果时 ,需 要 修改 项 目 
标 。 
数据掘一 理解数据:如果对于数据理解有偏差,会导致对数据挖掘方法的选择错误 
使用方法 的错误 ,需要 回到理解数据 的步骤 。 
① N       Kn    Mig. 
n:5. 
・    ・ 
中国社会科 学评 价 第 3期 
据挖掘一 数据备 :当掘方 法需 要某一时 ,需要 回到准备 的步骤 , 
针对 性地整理 和准备数  
知识的评估—+理解 问题 :当新知识无 法正确效解现象 ,或者 出现正确的研 究 
计 ,于问题 的限定 、要求 和 目标理 解错误 ,整 个知识发现过 程需要开始 
知识的评估—  数据 挖掘 :当发现 知识并新颖有趣或 者有用 时解 决之 道是选择 不 
据挖 掘工具 ,并重复以上 步骤 。 
实际上展现是一个从理论到数据,再从数据到理论发现的不断进行归纳演绎 
循环往复的过程。严格执行数据挖掘模再现知识发现过程及理论与研究之间的关 
系。如果说扎根理论研究方法是定性资料象的归纳与演绎过程并存的研究方法,那么 
数据挖掘也是一个归纳与演绎并存的研究方法,只是其数据资料包含了结构化定量数据和 
非结构化的定性数据 
、数据因果系的新角 
格意义上的数据挖掘研究实际上融合了归纳与演绎两种方式对于理论与数据的关系给 
出了新的解释,除此以外 它也因果关 系给出了新的理解 
)传统统 计模型 中来 自系的战 
科学探索的一项基本任务是找因果关。因果关系可以用事实的关系来:“x和 Y 
出现在这样 一种情况 下 ,如 果 X 没有 发Y不会 出 因果关 系为 反关 系时 , 
因对 于结果 的出现是 且充 分”的 。 境充 分性”在 反事意义讲 ,意味 
Y没 有发生 ,X不会 发生 
几乎所有的结果都是多种必要且充分的起因共同作用形成的。这种起因的多元性有两种结 
构 :多元交起 因和多并集 起)多元交起 因在有 多种原 因同时存 在的时候 发生 ,比如  
和 B同作用产生 Y,Y只有 A与 B出现的时候 AN)才产生 ,但是如果只有 A或者 B 
独 出现 ,不会 出现例如 ,电路短 A)出燃 材料 ) 附近发 生 ,形 成 了对火 
的充分必要 条件 。该 例可 以用 AnB—  示 。同样 的,一支 燃烧 的蜡 M)会引燃燃 
成火 灾的充必要条件 ,我们用 M NN— Y。 
二种起 因结构多元并集起 因 ,常常被 当作 重 因果或者 独 立 
一个多元并集起因的子因能够单独影响结每一种原因都相互独立并且两种或两种以 
起 因同时 出现也不改变结果 。 例如 ,房子火 灾有多种原 因,比如短 路出现易燃物 附近  
nB或蜡烛 现在 NN或有纵火 (或油出导致火灾 (,或电 
① D ,“”J  ,1,P  Ma 
me      .N YoOx Un  
② Ma   Mo   :D  
③ N   mi Ad   Kn   Da   
) D wi,“ 
⑤ B ms,C          
Ya Un ,10;D wiCan,”P;Ni R.P    
Ada n   Knwldg Di  Da g. 
・    
国社学评 第 3期 
二 )对因果 关系挑战 的回应 
据挖掘对因果关系的贡献是多面的。社会科学研究运用传统的统计方法侧重由理论 
假设引导 的一部分 因果 机制 ,并 用其 作一个或 多个 理论 的检 验 ;而 数据 挖掘更个 
完整阐述。传统统计模型强调--/部分的起因,而一两个理论假设往往只能对结果进行 
分解释,并不能穷尽所有原因。此外传统统计模型采用简单方式的表现形式这些模型 
被认为是 直接 、简 洁且富理论引力 的。而据挖掘更关注 对事的完述 , 并 不回避 
复杂、细化且 容丰富据分析因为这些多元化的起于结果往往有更强的解 
释力 。 
统社会科学研究方法通常注重对因变量的简单要效应分析而数据挖掘强调复杂 
的异质性 ;传统方法往 往强调线直接效应 ,数据挖掘 考虑多非线和联合 效应 ;传统 
方法强调对预测系数的 而数据挖掘的是最大化模型的预测能力;传统方法局于数 
字数据 ,对非字数据无能 为力 ,数据挖 掘能处多种形 式的数 据 ,包 括文字 图录音等 , 
且用相应 的算法来分析测结果 。 
当然 ,要真正 确立因果关系 ,还要 依据变 量之 间 的相关性 ,从理论 上 阐述 因 
果机。数挖掘方法和所有的计量方法一样提供变量之间的相关性的信息。此外数据挖 
掘还能高效地筛选变量之间复杂且多维的相关性从而为我们对果关系的复杂性、 
质性的认识提供数据线传统统计方法与数据挖掘并不是对立的,笔者是强调数据挖掘 
相对于传 统统计法而言 ,能突破些局限 ,而提供 一些新有效的思 维与研方式 。 
传 统统计模专注 简单主要效应 ,据挖掘方 法研究复因果效 应。 
统的统计模型很少考虑联合因果效应 (两个及两的变量的共同用)和因果异质 
性 。尽管统计 模型可 以通过两个 或几个 预测变量的交互项 来预测合变的因果应 , 在 社 
会学领域内大多数研究仅仅预测解释变量的主要效应。⑧ 社会科学研究因此忽略了因果异质性, 
并仅仅考虑主要效应来估测平均效应。这种做法避了预测大量多重交互项的复杂计算,使得 
m   
型简洁经。如果我们有 m个解 释变量 ,个模型   交互项 ,就 
  …   J/ : 
重 交 互 。例 如 , 当 P 一 2时 ,一 共 有 m (~ 12个 二 重 交 互 项 ;P 一 3时 ,有  
m一1m一2个 三重交互 项 ;: 4时 m一m一m一个 四重交 互项 ,等 
。当一 个模型共有 O个解变量 ,就有 个二交 互项 ,1个 三重交 互项 ,2个 四重交 
项 !个探 究这些互项的效应在 统计耗 时巨大 ,这些效应都通 常被了。 
没有任何一种研究范式能够实现对整个事件 的全面完整 阐述 、穷 尽所有的细节 因素与条件 ,即使是最 
擅长于此的定性研究也难以穷尽对事件过程所有因素的描述里仅指数据挖掘方法传统研究方 
法具有更强的对事件全面的能力。 
② L   .G.Mu :T   ,Ne 
A: ,1me    ,I   Mu 
Ren,  e,Th Oa,C :S ,2 
③ F.E  C. He    MaOn  Mo”i 
R.De,HGe  HaPr  y:A Tr   
 Pe,M i ,U .K .:C ,2,P.36. 
K.,W,RW .wi   Ku,D MiA Kn  Ap 
h. 
・  4 ・ 
重新认识 “数据驱动”及因果 
识发现和数据挖掘技术使得搜索、评估异质和并集合成起因了。新数据挖掘技术 
可以迅速地产生和测量千万个交互预测变量的不同组合,大大提高对因变量进行预测的 
准确性 。例如 ,决策树程序 中卡方 自动交互探     
简称 CHA@)以分类回归树    e,称 C)运 
分类的多元变量方法,自动进行大量的变量组合效应的测量在神经网络的预测模型中, 
神经网络能够动生成许多复的交互关系神经网络是一种新的计算机技术,它可以具有 
层或者 2的神经 里面包含非常复杂的变量相互关系。由于数据挖掘模型可以考虑复 
杂的相互关系,由此所建构的模型与实际数据的变量结果匹配度非常高,模型的预测力也 
非常强。 
正如文已经强数据挖掘是一个从理论到数据,再从数据到理论发现的不断进行 
归纳演绎的循环往复过程。严格执行的数据挖掘模型,再现了知识发现的过程及理论与 
研究之间的关系新数据挖掘技术迅速产生和测量大量交互项和预测变量的不同组合 
为各领域专家们搜寻有意义并稳健的模型提供线索。但这些初级模型要通过一个不断归纳 
绎 的循往 复 的过程 ,达 到对新 知 识 的发现 。研 究通 过交 互项 和预 测量 的不 同组 
合反复检 并结合理论,从而达到对理论异质性与复杂相关性、因果关系的深刻认识,推 
进理论发展进步 
统计型分析线性主要效应,数扩展非线合效 
在传统计模型中,自变量与因变量的关系通常被当作线性被用于广义线性模型。 
数传统模型会动应用线性方程来描述变与因变量的相关性,除非研究者有极强的理论或 
实践证 据支持线性方程的存 在。仅有少数几个 变量例年龄 二 次方 、GP (自然对)和 
收入 对数 )通常被看作 是非线 性关 系 。这 种逻 辑的 原因有三 :第 一 ,尽 管把 一个 连续 区 
变量转变为虚拟变量来观察非线性效果非常简单,展示和解释这种非线性的规律却不容易。 
因此 ,传统统常常 选择 简单 线性程 ,而不是 一系 列的量 ,尤其 当该 变 
量是控制变量,并且在理上并不重要的时候。第二仔细评估每一个解释变量和其与结果变 
量之间的方程式 (尤其释变量数量很多时候)非常耗时耗力,因研究者常常选择不 
这么做。第三 传统 计学常常不是用相关用方差协方阵来总结整据库。这种 
矩 阵式的总结假 定整个数据库 的所 有变线性关 系,即某 变单位 的增 长和 另一 
单位增长单方面同步。尽管这种粗略的数据简化使得数据储存和移动更方便它对于模型 
本身却有严重影除了忽略变量之间的非线性系之还导致无法准确地掌握变量关系本 
的复杂性 。 
据挖掘提供了许多自动化或者半 动化的工具来帮助研究者寻找非线性关系而提 
高模预 测精 准度 。数据可 以 自动地 为连 续 自变 量点 ,来 获得 自变量 和 因变 量 
线 性 关 系 。例 如 ,一 款广 泛 使 的 标准 统 计 软 件 ,现 在 可 以 自动 分 组 
和离散化非线性变量。按照因变量的变化模式将变量分段分组从而根据预测结 
离 自量 ,这被称 为最佳分  因为该能够最地预测 
。另一软件 C有 自动分组的处理非线性关系,该程序被称为最佳组合或者 
基 于熵 的离散 化  这 些软 件一于结 果变量 来 区分合 
① JMa    Ne      Ta  me”T 
  Da Ma,1,P 
・   ・ 
中国社会学评 年第 3期 
中案例与其他组的差别 每个这样每个变量 的预 
准度继而也提高了整个模型的预测能力。此外,数据挖掘也提了可视化工具,我们可 
任何角度做任何旋转来观察变量间的关系,探测非线性关系。些工具包括简单绘图、散点 
D图像和其他可视化过程。研究者已运用这些工通过看到当其他变量变时候 
变量是如何变化的,来精确地描述某个 自变量与因变量之间的非线性相关改进模型预 
测力 。 
传统 统计模型 侧重预测 系数计 ,数据模型能力 。 
运用传统统计模型时,社会和行为科学研究者强调预测在理论上重要的单独起因以及与 
果变量之间的关系的效应。他们看重对于自变量与因变量之间相关机制的理解,且分析和 
释集 中在预测 系数,包括 系数 大小 、显性程 度。这 些信 息直接 回答 了主要 解 释变量 和 因 
变量 之间联系 的本质 。这的模有 时会 忽量 未解释 的差 ,有 自于模 型中缺 失 的 
变量或者 效应 ,有 些来 自于测据 缺失 。但是 ,模 型 的拟    
不是研究 者的主要考虑 因素 ,②所以拟 合优度的模 型也 被容 忍接受 。因此 ,我们 在顶 尖 
会科学杂志中并不难见到中等甚至很的预测能力的模。比如多数模只具有 2  甚 
低 的释方 差 ,③即便是型有低于 的可 决系    也被 
为是 无可非议 的—— 例大多数 的关 于性 别的 已发文 章 ,基 于层 面观 自变量 的 
般 只解    的方 差 
而数据挖掘强调模型预准确性数据挖掘源于人工智能对于应用预测模型的专长,并 
发展而来 ,最的预测模型 包括预险诈、疾病 诊断 、模式识   
一个重要的模型成功与否的标准是其在社会实践中准确预测结果的能力。数据挖掘使 
了多 种样 的方来 保证 预测 的准 确性 ,例如 ,机器 学 习是态 的学 习能 力能 系统 , 
数据中掌握信 产生型,并预测结果。基于代理的模型运用单个代理之间的互动来构 
建全面的智能系统。神经网络相于多回归和其他多变量的技术更擅长预测结果。通过结 
合不同方法,最大化模型的整体能力据挖掘使用机器学习中的许多工具包括人工 
能 、和 统计 ,相 比传统型具 有更 好的解 释力 。 
传统 统计型 限于数值 数据 ,据 挖掘方法 广泛应用 多样 
传统的统计分析主要基于调,变量多为数值型数据。其他类型的数据,比如文本数 
据或者访谈数常被认为是定性数据。定性研究者花大量时间沉浸在定性数据里寻找数据 
规律。当这些数据量很小时这种劳动集型的研究方法完全能够进行数据处理和分析。但是 
数据量变数据维度变复杂时,要求用人类的眼、耳和大脑快速认知和查找模和变 
系就变得几乎不可大量的专业机构记录、个人账户、人与人之间的交流数据格式是文本、 
① I    Ma A.Ha Mi:P Ma    
Te,Thi n,Bun:El,2 
② L ,“ ”M g,,P 
③ P   Da Mo,D      
Un   ,2  
④ X    m:       
7,no.4,24,PP.6. 
  ”i M.    e     
 Re  ,Th ,CA:S Pu,2 
⑥ T ,S   Re 
・   ・ 
重新认识 “据驱 动”及因果关系 
或者 图像 。网络和线上社 区包含文本图像 , 比 、微信朋友 圈、推 
特发、电 邮、博 m 的图像 ,等等 。些数 据往往得到充分 运用 ,社会 科学 
者没有有 效的工来处理数 据 ,导致这 些数据难 以管 理分析与利用 。 
数据掘为预 处理非结构数 据提 供 了多具 ,并 为数据 比如语 言分)提供 
的方 法和模型 。这些 类的数所 以难 以分 析 ,是 因为 有不 同的长短 、杂乱 的 
结构。例如,不合文法的句子、拼写错误、非常规缩写、随意停顿、专业术语语境这些问 
题可以由预处理数据步骤完从而把数据从输人转成数据挖掘算法的可用数据,形成了 
数据挖掘的一个重要步文本的数据挖掘有一系列算法,有可以将单词变成词袋的词袋模型 
法 (  Wo有采系列邻词 序列法 ( ,有识见命 
实体 me 的用名字提取法 (  有把一组话题为 
群单词的主题型法 ( Mo。例如济学以通掘新闻信息流预测股市 
走 向① 
大数据时代数据挖掘面临的挑战 
尽管数据挖掘可以在一度上弥补传统统计方法出现的问题,提供新方法新途径 
数据有意义的模式为拓宽社会科学研究视野提供新的机会,但是数据挖掘也面临挑战和问 
,需要我们 找出办法 ,补 
统的统计方法依赖于经过精心设计和测量获得的概率样但数据挖掘通常面临 
便利 样本”。 因特 网网上动 日增 长产量数 据 ,比如 网上记 录、脸书互 动记 录 、 
身记录、记录、信用卡消费记录和保险索赔记录。这些数据通常记录了非随机人类活动, 
叫做 便样本尽 管这些数量巨大 的数据 可以从网上据库 中轻 松获得 ,但 它们既不人 
普查数据,不是精心设计的概率样本。研究者常常并不确定它们与总人的关系——它们 
是否能够代表总人口,者每个样本中的人被调查的概率是多少显著性检验并不适合 
于这些 “便利 
数据 挖掘运用 的 便样 本”然 存本 代表性 问题 ,但并非 无可施 ,现 已一 些 
能够处 理这问题比如复 制、交叉验、 自助法 ) 和非参数法 。复制是 
用不的数据 检测模 型确立样 本代 表性 ,止模 型数 据 ,保 障模的 
可靠性与 普遍性 。交 叉验 证是为 训练样 本 、调节样  、测样本 , 
用训练样本对模型进行训练利用调节样本对模型进行调节,最后利用测验样本对模型进行 
验证多轮交叉验证可以通过样本分离来进行,对几轮验证的结果进行平均值计算结果。 
一种 重复采 样法 ,从 样本 中有 放 回同机抽 样     
助法是指样本有放回的随机抽计算每次抽样的统计量,对统计量进行排序在一定 
显著性水平下寻找置信区间,对样显著性进行检验。非参数方法主要是针对研究总体 
布未假定 的情况下 ,通 过样本身 的信息 进行估 计断 ,包 括 回归计法 、局 部多项 式 
,等等 。 
管数据 挖掘能建立模 型,提供 巨大 的力 ,但 这些模 型有 时不 能清 晰地 
     m    Wh     叫 口   
g  DaA n g,S:0 ’Re ,2 
・  7 ・ 
中国社会学评 年第 3期 
的复杂关 系 预测变量 和结果变量之的方 程式因此 ,用 于因果系 的实证 证和理论 
框架间的联系无从得知。例如一个复杂的多层神经网络可以成功地预测结果但是有时对于 
果过程和每个变量对结果的相对影响阐释清。管人工智能有强大的处理海量数据和信息 
能力其是在模式或者规律认知方面,但人工能模型是如何获取预测变量和结果变量间 
的关系 ,还是一黑箱 。真正 的因果 机制 ,包括 因变量 变 量 的什以什 么方 式发 生 
通常还是无法可见。要保证人工型对于社会科学研究真正有用需要将因果过程 
这些模型中显现,这将是一项意义非凡的工程竟社会科学研究的核心就是发现重要的预 
测变和它们 在因果关过程 中的具体作用 。 
总体而,数据挖掘并不表数据驱而是一个知识发现的过程。不同于传统社会科 
学研究方法,数据挖掘更关心对整个事件完整阐述并不避多元复杂和细节化的丰富 
数据关注果异质性和多重非线性关系,因此相传统统计模型能更准确有效地解释结果。 
数据挖掘为充分运用非结构非数值型数据 (文本、图语音等等)提供了多种工 
定性的研究方法无法处理海量数据,而传统的定量方法 就是统计模以处理 
非结构数,结数据被留在数据矿中得不到分析。数据挖掘能够应对互联网和大数 
据时代的需求,充分利用这些数据矿并极大推动人类 进展。当今社会科学研的重 
是如何在数据挖掘模型进一步展现过程而不仅能够准确预测结也能解释 
其起因机能与途径通过运用知发现过程模有效地促进社会科学研究的重大突破与飞跃 
发 展 。 
・   ・ 
责任 编辑 :李文珍] 
ResearchGate has not been able to resolve any citations for this publication.
ResearchGate has not been able to resolve any references for this publication.