ArticlePDF Available

计量特征在语言风格比较及作家判定中的应用

Authors:
2012483
1引言
作家在语言表达中所形成的不同言语特征表现在数量上
就是统计特征上的差异。换言之,语言风格是由于语言单
使用频率的差异而产生的。语言单位的分布频率是分析作家
语言的物质基础。通过对不同作家语言中语言结构特征的统
计可以得出语言风格的一致性或区别性特征,言结构的分
布数据就变成体现作家语言风格的计量特征。反之,果能
够获得陌生文本关于语言结构方面的数据就有可能以此为
基础来判定文本的作者。
通过各种特征对文本进行统计分析的思想最早见于数学
Morgan 1851 年的猜想和建议。到了 20 世纪末,统计方法
在比较多种文本的风格特征、判定文本的年代、判定文章的作
者、识别同意作者的不同写作风格、判断某一作者的作品先后
顺序、推测文章的来源、判定匿名文章作者、辨别文章真伪和判
断语言亲属关系等诸多领域内都得到了很广泛和深入的运用[1]
而在汉语本体研究领域,统计方法的运用主要集中在汉
字、词汇的计量研究和风格统计研究中,如常宝儒[2]刘源
南元[3]陈原[4]李兆麟[5]王德春、陈瑞瑞[6]曹聪孙[7]吴礼权[8-9]
曾毅平、朱晓文[10]。但这些研究没能全面地揭示出不同语言风
格中在语言结构上的差异,语料规模、语言结构的选择和统
计方法等方面都有待加强[11]
基于语料库和统计方法,获取现代汉语语言结构的计量
特征,而后考察这些语言结构计量特征在作家语言风格描写、
对比研究及作家判定方面的实际应用。
2语料与方法
寻求体现作家风格不同的计量特征的具体过程是:选取
两个作家的语料样本对其进行分词并以文本为单位计算特
定语言结构在文本中的频率和百分比,于样本的均值比较
这些语言结构在两个样本中的分布是否具有差异。选用作家
的其他语料样本,计算其与统计所用语料样本的相关性,测试
计量特征在辨别不同作家语言时的有效性。
在选取语料时虑到时代等外部因素对语言的影响
难做定性定量分析,趋向于选择具有相似语言环境的语料。
http://baike.baidu.com/view/4386.htm?fr=ala0
生于 1983 年,韩寒http://baike.baidu.com/view/5972.htm
1982 年。两人均成名于新概念作文大赛,被视为 80 后作家
的代表。 郭敬明的代 表作梦里花 落知多少 表于 2003 年,
全文 155 820 如无提示,文中所列字数之数据均为基于
word 的字 数统计结 寒的代表 三重 表于 2000
年,全文 158 702 字。两位作家的年龄相仿,成长及写作环境相
似,各自代表作的发表时间也相近且篇幅相当。因此,认为
计量特征在语言风格比较及作家判定中的应用
—以韩寒三重门与郭敬明梦里花落知多少为例
陈芯莹,李雯雯,
CHEN Xinying, LI Wenwen, WANG Yan
中国传媒大学 应用语言学系,北京 100024
Department of Applied Linguistics, Communication University of China, Beijing 100024, China
CHEN Xinying, LI Wenwen, WANG Yan. Application of quantitative characteristics in comparison of language style and author
judgmentTriple Gates of Han Han and Never Flowers in Never Dreams of Guo Jingming as examples. Computer Engineering
and Applications, 2012, 483137-139.
AbstractThe paper proposes the method that applies the results of quantitative language research in comparison of language style and
author judgment. The paper discovers 7 language structure characteristics possessing obvious distribution differences through the statisti-
cal comparison of 12 language structure characteristics distribution of two corpuses with 75 thousand words. The paper also analyzes two
texts with 75 thousand words which are not denoted with authors by regarding the 7 language structure characteristics as text expression
characteristics, and accurately judges the authors of the two texts. The method adopting quantitative characteristics of language to denote
text can better explain the research of language style and author judgment. The quantitative research of language structure characteristics
based on corpus and statistical method is an important method for the research of Chinese language style and author judgment.
Key wordslanguage style; language structure; Triple Gates; Never Flowers in Never Dreams
要:提出了将语言计量研究成果应用于语言风格对比及作家判定中的方法。通过对两个 75 000 字的语料中 12 个语言结构特
征分布的统 计对比,发现了 7个具 有显著分布差异的语 言结构特征。并以 7个语言结构特征作为文本表示特征对两个75 000
字的未知作家文本做了相关性分析,并准确判定了未知作家文本的作者。以语言结果的计量特征表示文本的方法加强了语言风
格对比及作家判定研究的可解释性,具有较高的理论和应用价值。以语料库和统计方法进行语言结构特征计量研究是汉语语言
风格描写研究及作家判定研究的重要方法。
关键词:语言风格;语言结构特征;三重门;梦里花落知多少
DOI10.3778/j.issn.1002-8331.2012.03.040 文章编号:1002-8331201203-0137-03 文献标识码:A中图分类号:TP391.1
作者简介:陈芯莹,女,博士,研究方向:依存语法、复杂网络,计量语言学;李雯雯,女,博士;王燕,女,博士。E-mailcici13306@sina.com
收稿日期:2010-07-15修回日期:2010-11-12
Computer Engineering and Applications 计算机工程与应用 137
Computer Engineering and Applications 计算机工程与应用2012483
里花落知多少三重门具有较大可比性,符合语料选择的
标准,是比较理想的实验语料。
确定了语料来源之后,为了更精确地做文本对比,从两本
书中各 自选择了 15 30 万字)作为实验文本。其中训
练语料文本 75 000 字,测试语料文本各 75 000 (训练语料
文本共 15 万字,来自于两本小说的前半部分测试语料文本共
15 万字来自于两本小说的后半部分训练语料与测试语料
交叉)。之后,根据北大的分词体系,用单词性标注对实验
文本进行了自动分词。
3数据与分析
选择的考查对象均为词汇层面和句子层面的语言结构特
征。词汇层面的计量信息易于获取词汇计量研究一直是计
量与语言学的研究热点之一。同时尽管词频仍然是研究的
基础,但实词、词性标记、词的位置、词长、词序、单现词hapax
N元属性等也都已进入了国内外计量语言学研究的视野。
选择了部分代表语言结构长度词汇丰富程度词类和句式使
用等方面的语言结构作为考查对象[11]
在参考文献[11]提出的用于文本聚类的汉语计量特征后,
选择了词长、句长、型例比、副词比例、词比例、代词比例、
词比例、标点符号比例、陈述句 比例 问句 比例 叹句
例、 现词等 12 个语言结构类型作为考察对象。表 1列出了
两个样本的 12 个语言结构的分布数据。
词长=字数不含标点/词数;
句长=字数不含标点/句数;
型例比=词数/词型数;
副词比例=副词数/词数;
名词比例=名词数/词数;
代词比例=代词词数/词数;
助词比例=助词词数/词数;
标点符号比例=标点符号数量/字数;
陈述句比例=陈述句数量/总句数;
疑问句比例=疑问句数量/总句数;
感叹句比例=感叹句数量/总句数;
单现词hapax=文本中仅出现一次的词数;
三重门》的平均词长以字数计)里花落知多少》
平均词长大 2.46%1差距不大。
句长值的研究在统计风格学和作者判别研究方面具有应
用价值。 根据表 1的数据,三重的平均句长比《梦里花落
知多少》的平均句长少 8.645 8 25.89%差距较大。这一数
据显示在句子复杂程度方面,梦里花落知多少的句子
重门的句子要复杂一些。韩寒曾经评价郭敬明“小女人”
意指郭敬明的文风较夸浮。而该组数据表明在语言表达上韩
寒相较郭敬明确实更加朴实精简一些。
词的型例比可以表示语言中的词汇丰富程度。在这点上
三重门的型例比梦里花落知多少》 3.256 2 35.06%
差距较大。三重词汇丰富程度更高一些里花落
多少中词的平均使用频率更高一些。
副词比例一项,三重门》《梦里花落知多少 0.000 2
约为 0.19%乎没有差别。三重门》梦里花落知多少》
副词使用频率上几乎一致。
三重门》的名词比例比梦里花落知多少》名词比例低
0.044 9约为 34.49%在代词比例上,三重门》也比梦里花落
知多少低了 0.080 3约为 55.42%差距都非常大。数据反应,
名词和代词在《梦里花落知多少》出现的频率明显要高于其
三重门》中出现的频率。而且《三重门中名词比例约是
词比例的 271.05%梦里花落知多少》中名词比例却是代词比
例的 89.86%说明三重门》中名词的使用频率要远远高于代
词使用的频率《梦里花落知多少》中名词的使用频率要低
于代词使用的频率,但差距不大。
从助词比例看,三重门》《梦里花落知多少 0.011 8
约为 14.32%梦里花落知多少中助词的使用频率要高
重门中助词使用的频率。
从标点符号的比例来看,三重《梦里花落知多少》
高出 0.061 2约为 50.83%差距相当大。这一统计数据符合前
面关于句子长度的比较结果。即字数或词数大致相当的文本
中,标点符号使用频率高则句子结构相对短小。
陈述句比例,三重门《梦里花落知多少 0.069 5
8.10%疑问句比例三重门梦里花落知多少0.007 2
约为 3.53%距不是 特别明显。但在感叹句比例上 《三重
梦里花落知多少高出 0.067 9约为 120.60%差异非常
大。说重门》中感叹句出现的频率要远高于《梦里花落
知多少》中感叹句出现的频率。这也符合了人们对韩寒更
利张狂而郭敬明更温和细腻的印象。
单现 现比 《三重门》《梦里花落 少》高出
0.034 4约为 61.10%。单现词是另一个可以表示语言中词汇丰
富程 数据 现词 语言 的词 富程 高。
而此处的数据与型例比显示的结果相符。《梦里花落知
少》相比,《三重门》的单现词多,型例比低,证明其用词更加
丰富。
对比所有 12 数据,三重《梦里花落知多少》
在句长型例比、词比例、代词比例标点符号比例感叹
比例、单现词比例这 7组数据上的差距较为明显。分析总结可
三重门》《梦里花落知多少》比,词汇使用更加丰富、
子更为简短。在句式选择上《三重门》更多地使用了感叹句。
在词汇选择上《梦里花落知多少》高频率地使用了名词和代
语言结构特征
词长
句长
型例比
副词比例
名词比例
代词比例
助词比例
标点符号比例
陈述句比例
疑问句比例
感叹句比例
单现词hypax
三重门
1.405 4
24.750 9
6.030 4
0.106 8
0.175 1
0.064 6
0.070 6
0.181 6
0.789 8
0.079 1
0.124 2
0.087 5
梦里花落知多少
1.371 6
33.396 7
9.286 6
0.107 0
0.130 2
0.144 9
0.082 4
0.120 4
0.858 5
0.076 4
0.056 3
0.053 1
1两个训练样本中 12 个语言结构的分布数据
注:表中数据均四舍五入精确到小数点后 4位。
1百分比数据均四舍五入精确到小数点后二位。
138
2012483
词,别是代词,使用频率高过了名词;相比之下《三重门》
更少使用名词和代词,特别是代词,其使用频率远低于名词。
4相关性测试
经过统计分析发现三重门》《梦里花落知多少》的训练
文本在 考查的 12 组数据中有 7组数据 的差异比较 大。以这 7
组数据为依据,设计和实施了一个文本聚类实验。
实验 文本 取自 《三重门》《梦里 知多
但于之前统计数据的文本无交叉。待判定作者的这两个
实验文本均为 75 000 字的文本,并对其做了如表 27组数据
的统计。
在做典型相关分析时,由于典型变量是原始变量的线
性组合,具有不同量纲变量的线性组合显然失去了实际意
义。 的数 级别 导致“以 小” 量级 小的
变量的影响会被忽略,从而影响了分析结果的合理性。为
了消除量纲和数量级别的影响,必须对数据先做标准化变
换处理,然后再做典型相关分析http//wenku.baidu.com/view/
c259880d4a7302768e9939ab.html 2010-6-14。为此, 2
基础,对每类语言结构特征的数(每行数据进行了标准化
处理 2得出结果如表 3
由于相关性能够说明语体的接近程度[12]可以将四组数据
做一个相关性分析,以考察各组文本的语体接近程度。相
系数的公式如下[13]
r=nåxy - åxåy
nåx2-(åx)2nåy2-(åy)2
1
根据表 3所列 数据, Excel 统计了各文本之间的数据的
相关系数,其统计结果如表 4
4所显示结果非常明显,三重门梦里花落知多
少》为负 相关 知作家文 1与未知作家文本2也为负相
知它 属不 同作 作品 。而作家 文本 1
三重门的相关系数为-0.808 87小于其与《梦里花落知多
少》的相关 系数 0.619 316且前者为负相关者为正相关;
相反 知作家文 2《三重门的相关系数为 0.874 78
于其《梦里花落知多 少》的相关系 数- 0.761 78前者为正
相关,后者为负相关。所以可以由此判定未知作家文本 1
自于《梦里花落 知多少》作者是郭 敬明;而未 知作家 文本 2
来自《三重门》 者是 韩寒 。通 过文 本内 容验 证,证实实
验所得结果是正确的。
经过实验,发现仅使用上述的 7个语言结构的分布数据作
为文本的表示特征,可以在作家判别问题上取得可信任的
果。可以说, 7个结构特征在一定程度上较好地区别了两本
小说的语言风格。
5结语
通过对 两个 75 000 字的语料样本进行统计分析,得出了
《三重门》 里花落知 多少 12 个语言结构特征的数
据,并对比分析了这些数据的异同 。从中总结出了 7个具有显
著分布差异的语言结构特征并以这些语言结构特征作为文
本的表示 特征对 275 000 字的未知作家文本进行了相关系
数统计和分析。以句长、型例比、名词比例、词比例、标点符
号比例、感叹句比例、单现词比例等 7个语言结构特征作为文
本特征,准确地判定了 2个未知作家文本的作者。
在获取语体计量特征时采用了基于语料库和统计学的方
法。黄伟、刘海涛[11]认为这种方法是对现代汉语语体进行描写
研究的重要方法。经过实验证明,它们也是对语言风格描
研究的重要方法。标注体系和工具对统计结果的影响,语言
风格在字、等语言结构和语法、语义、语用层面的全面计
量描写等,都是今后值得继续和深入研究的课题。
将基于计量语言学研究成果的语言结构分布特征作为语
言风格对比和作家判定,实验证明是可行可信的,而且特征选
择和对比分析结果都可以从语言学的角度进行分析和解释。
而且这种方法不光可应用于语言风格描写和对比、作家判定,
黄伟、刘海涛[11]曾用这种方法成功地进行了文本聚类和分类实
验。这样的方法具有普适性值得在更多的语言学研究领域
进行尝试。
参考文献:
[1] Oakes M P.Statistics for corpus linguistics[M].EdinburghEdin-
burgh University Press1998.
[2] 常宝儒.现代汉语词汇统计问题的初步研[J].语言教学与研究,
19851117-124.
[3] 刘源,梁南元.汉语处理的基础工程
—现代汉语词频统计[J].中文
信息学报,1986117-25.
2此处所采用的是均值标准差模式,其计算公式为:标准值=原数据-均值/标准差。
语言结构特征
词长
型例比
名词比例
代词比例
标点符号比例
感叹句比例
单现词hypax
三重门
24.750 9
6.030 4
0.175 1
0.064 6
0.181 6
0.124 2
0.087 5
梦里花落知多少
33.396 7
9.286 6
0.130 2
0.144 9
0.120 4
0.056 3
0.053 1
未知作家文本1
26.591 5
10.722 1
0.121 3
0.159 9
0.128 0
0.064 4
0.045 1
未知作家文本2
28.154 8
6.549 9
0.175 1
0.065 3
0.178 3
0.097 8
0.080 9
2三重门》《梦里花落之未知作家文本 1和未知作家
文本 27个语言结构的分布数据
语言结构特征
词长
型例比
名词比例
代词比例
标点符号比例
感叹句比例
单现词hypax
三重门
0.933 780
0.947 930
0.859 068
0.866 590
0.912 264
1.229 235
1.007 121
梦里花落
知多少
1.391 089
0.510 204
0.704 140
0.712 248
0.978 700
0.937 280
0.654 510
未知作家
文本 1
0.438 840
1.153 025
1.014 000
1.007 175
0.743 870
0.678 830
1.040 930
未知作家
文本 2
0.018 470
0.715 300
0.859 068
0.852 830
0.810 301
0.386 878
0.688 320
3三重门》《梦里花落之未知作家文本 1和未知作家
文本 27个语言结构分布的标准化数据
三重门
梦里花落知多少
未知作家文本 1
未知作家文本 2
三重门
1
0.951 50
0.808 87
0.874 78
梦里花落
知多少
1
0.619 316
0.761 780
未知作家
文本 1
1
0.95925
未知作家
文本 2
1
4三重门》《梦里花落之未知作家文本 1
未知作家文本 2的相关系数
下转 208
陈芯莹,李雯雯, 燕:计量特征在语言风格比较及作家判定中的应用 139
ResearchGate has not been able to resolve any citations for this publication.
ResearchGate has not been able to resolve any references for this publication.