Content uploaded by Kazuhide Yamamoto
Author content
All content in this area was uploaded by Kazuhide Yamamoto
Content may be subject to copyright.
国会会議録を対象とする話し言葉要約
山本 和英
†
安達 康昭
†
換言・削除規則を用いた国会会議録の要約手法とその評価について報告する.国会会
議録には,丁寧表現の頻出や独特な言い回し等の特徴がある.また,会議における発
言の書き起こしであるため,話し言葉の特徴も見られる.本論文では,この様な特徴
的な表現に着目し,換言・削除することで要約を試みた.まず,単語
n-gram の統計結
果から得られた頻出する敬語表現を普通体の表現に言い換えた.次に,手がかり語を
用いて頻出する冗長な表現や挿入句を推定し削除することによって要約した.これら
の処理を約
20 年分の会議録に対して行なった結果,自由発話が含まれる会議録では
80 %程度の要約率が得られた.また,CSJ コーパスに対して本システムを適用した結
果,平均要約率が約
84 %であった.したがって,本システムが国会会議録以外の話し
言葉データに対しても有効に働くことを確認した.
キーワード: 国会会議録,要約,換言,話し言葉
Informative Spoken Language
Summarization of the Diet Minutes
Kazuhide Yamamoto
†
and Yasuaki Adachi
†
We present a method of summarizing the minutes of the national Diet. The minutes
have some peculiar traits. For example, honorifics appear frequently and it includes
both speech traits and document traits. In this paper, we focus attention on those
traits, and paraphrase or delete specific expressions. We paraphrased honorifics that
appear frequently in the minutes. Similarly, we presumed redundant parts using
frequently-appeared expressions and several clue words, and deleted those parts. As
a result of applying these processes to the minutes including spontaneous speech, we
attains about 80 % summarization rate. We experimented to CSJ spoken language
corpus using our system, result of about 84 % summarization rate is obtained. These
results tell us that the proposed approach works well not only for the minutes but
for other spoken language expressions.
KeyWords: The minutes of the national Diet, summarization, paraphrasing, spoken
Japanese
1 はじめに
換言・削除規則を用いた国会会議録の要約方法とその評価について報告する.近年の機械可
読テキストの増大に伴って自動的なテキスト要約技術はより一層重要なものになってきている.
従来の要約処理では書き言葉を対象とした要約が盛んに行なわれてきたが,話し言葉を対象と
した要約の研究も近年になって増えてきた.話し言葉の要約は,聴覚障害者向けの字幕付与を
† 長岡技術科学大学電気系, Department of Electrical Engineering, Nagaoka University of Technology
自然言語処理 Vol. 12 No. 1 Jan. 2005
行なうための技術 (江原,澤村,福島,丸山,和田,門馬,白井 2001),あるいは自動要約筆記
を行なうための技術
(福島,江原 2001) として注目されている.字幕や要約筆記を作成する際
には,表示できる文字数や人間が読むことができる速度などの制約から,発言された文字をそ
のまま表示させることは適切でないとされる.そこで,話し言葉においても書き言葉と同様に
要約処理が必要である.
我々は話し言葉の一つとして議会における会議録に着目した.議会会議録は,国会をはじめ
日本の全地方自治体やその他数多くの議会で日々作成され続けているため,これまでに蓄積さ
れてきたテキスト量は膨大であり,この意味において特許文書などと同様に自動的なテキスト
処理が望まれる.例えば,国会のみを取っても日本国憲法下の約
56 年分の会議録すべてが Web
上で広く一般に公開されており,そのテキスト量 (約 7.0 GB) は我々がコーパスとして一般に研
究利用可能な新聞記事テキストの総量よりもはるかに多い.このため,我々はこの代表的な会
議録である国会会議録に限定して検討を行なった.
一般に,会議録は議会書記による書き起こしによって記述される.後述するように,書き起
こされた文はほぼ話し言葉の文体であり,冗長な表現が多く含まれる等の理由で読みづらい.
そこで我々は,話し言葉を書き言葉の表現に換言または,冗長な部分を削除することによって
国会会議録を要約することを試みた.ここで,一般に会議録の内容は正確であることが求めら
れ,また発言の文脈を切り離して読むと発言の意図を誤解する可能性すらある.そこで,要約
の基本方針として,本研究ではできるだけ情報が欠落することのない要約,すなわち原文の代
替となり得る要約
(報知的な (informative) 要約) を目指した.報知的要約は,Web ページでの
閲覧以外に,リアルタイム音声認識結果の処理による字幕の自動生成,要約筆記の自動化等の
用途においても必要な技術である.
国会会議録は,国立国会図書館の
Web ページで公開され,誰でも閲覧が可能となっている.
また,国会議員が自身の
Web ページで発言部分を公開している場合も多い.このように,Web
の普及に伴って我々が国会会議録を目にする機会が増加している.本研究の成果は,直接的に
はこのような用途に使用することを想定している.さらに,会議録における文の特徴は同じ話
し言葉の書き起こし文書である講演の書き起こしにも確認できる.例えば,福島らが報告して
いる要約筆記における手法
(福島,江原 2001) のうち,丁寧表現の簡略化,節レベルでの要約な
どは本研究で対象とした表現に対する処理と同じものである.つまり,本論文で提案する換言,
削除規則は講演など国会会議録以外にも有効に働くものと期待している.
さらに,国会会議録は話し言葉を記録した言語資源としては規模が膨大であるため,従来は
困難であった話し言葉に対する各種言語統計の収集が十分に可能である.国会会議録を巨大な
話し言葉コーパスと位置づけることで一般の話し言葉の処理に有用な様々な統計量が得られる
ことを我々は期待している.ただし,議会における発言に特有な言語表現には注意する必要が
ある.
4
山本, 安達 国会会議録を対象とする話し言葉要約
本手法では,まず単語の n-gram 統計を取り国会会議録中に頻出する表現の分析を行なった.
この統計結果から冗長であると人手で判断した挿入句表現,「∼と思います」表現,敬語表現,
「という
+ 名詞」表現を取り上げ,各表現が含まれる文に対して,換言・削除処理を行なった.
ここで,これら手法の説明に関しては,各言語現象の説明だけにとどまらず,具体的にどのよ
うな言語表現を換言,削除対象にしたかによって要約率に大きく影響する.そこで,本論文で
は可能な限り具体表現を列挙することによって,本研究で得られた知見を開示することに努め
た.評価においては,要約率や手法別,話者別,年代別などの分析を行なうと共に,国会会議
録以外の話し言葉に対して本手法の有効性をみるために,話し言葉コーパスの一つである
CSJ
コーパスに対して本要約システムを適用した結果も報告する.
2 国会会議録
国会会議録は,日本の国会で行なわれた衆参両院の本会議,予算委員会を始めとする各委
員会の会議録である.国会会議録は,第
1 回国会 (昭和 22 年) から現在までの会議録があり全
て電子化された文書として
Web 上で公開されており,ダウンロード可能で,容易に入手でき
る.
2003 年 5 月に得た第 1 回国会 (昭和 22 年) から第 156 回国会 (平成 15 年) の会議録テキス
トデータは,衆参両院合わせて約
7.0 GB であった.書き言葉コーパスとして一般的に用いられ
る毎日新聞コーパスは
21 MB(2000 年) であり,国会会議録のデータ量は研究を行なう上で十分
な量であるといえる.
国会会議録が話し言葉コーパスとして利用できるのかを判断するために調査と実験を行なっ
た.まず,国会会議録の特徴を簡単に述べる.国会会議録には発話部分以外の情報も含まれて
いる.例えば,委員会に選任された国会議員の一覧,委員会への出席者の一覧,会議に付され
た案件の一覧などである.これらについては要約処理の対象にはしない.言語資源として使用
する際に留意しておくべき点もある.国会会議録は現在電子化された文書として提供されてい
るが,過去の会議録については初めから電子化されていたのではない.第
1 回国会 (昭和 22 年)
から第 144 回国会 (平成 10 年) の会議録については画像から機械で読みとったデータであり,誤
字・脱字がある可能性がある.処理を行なう際にこの誤字・脱字による処理誤りが生じる可能
性もある.
2.1 国会会議録の分類
国会会議録には,一般的に知られているような質疑応答形式のものだけではなく,いくつか
の種類がある.そこで簡単に分類をし,本研究で対象とする会議録の種類を決定する.次に国
会会議録の種類と簡単な解説を示す.
5
自然言語処理 Vol. 12 No. 1 Jan. 2005
1) 質疑応答型
この形式は一般によくテレビで見られるものである.質疑者の質問に対して指名された国務
大臣又は参考人が答弁をする形式のものである.つまり,対話の形式であり発言者は自由な発
話を行なっている.
2) 所信表明型
所信表明は,国務大臣が交代し始めて会議が開催されるときに行なわれる国務大臣による演
説,または,国会が開会され,最初の会議で国務大臣が行なう演説のことである.これは独話
の形式であり,講演に近いといえる.ここでも,発話者は自由な発話を行なっている.
3) 趣旨説明型
案件の趣旨を述べたり,ある問題に対する政府の取り組みについて説明を行なっているもの
である.趣旨説明は独話であるが予め用意された原稿を基に発話しているので朗読に近い.
4) 承認型
委員会内の人事や案件等の承認を行なうものである.委員長からの承認要求に対して出席し
ている委員が答える形のもの.具体的な発話はなく単に是非を述べているだけのものである.
5) 混合型
1) から 4) までに述べた各型が組み合わさっているものである.
本研究では,
1),2) のように自由発話 (朗読ではなく自発的に行なわれる発話) が多く含ま
れている会議録を対象に要約処理を行なう.この理由として,自由発話においては朗読に比べ
てより多くの冗長表現を含んでいるため文整形による要約の必要性が高いと考えたためである.
また,自由発話に対する処理が可能となればその手法がそのまま朗読などの他の手法にも適用
できると考える.
2.2 国会会議録に見られる言語的特徴
国会会議録は,会議での発言の書き起こしであるが完全な書き起こしではなく一般に話し言
葉に含まれる言い直しやフィラーなどはほとんど削除されている.このような国会会議録の特
徴を知るために単語の
n-gram 調査を行なった.調査対象は,第 141 回 (平成 9 年) から第 144
回 (平成 10 年) に行なわれた参議院の会議録全て (約 61.0 MB) である.調査の際,句読点以外
の記号は除いた.第
141 回から第 144 回国会での単語の 1-gram,2-gram,3-gram の頻度上位
20 位までを表 1 に示す.
n-gram の統計結果及び会議録の観察から以下に示すような特徴が分かった.
1) 丁寧表現
丁寧表現は,国会会議録で最も特徴的なものである.
2-gram の結果から分かるように,丁
6
山本, 安達 国会会議録を対象とする話し言葉要約
表 1 頻度上位 20 位までの単語 n-gram (n = 1, 2, 3)
順位 1-gram 2-gram 3-gram
1 、 ます。 でございます
2 の という ております
3 て して ということ
4 に は、 ございます。
5 を ございます おります。
6 は でござい まして、
7 で ており と思います
8 と ている ますが、
9 。 て、 であります
10 が が、 思います。
11 ます おります ました。
12 た いうこと あります。
13 し ました というふうに
14 こと まして わけでござい
15 な では ますけれども、
16 も けれども、 ではない
17 か 思います 、これは
18 という あります いうことで
19 まし であり になって
20 ござい ような をして
寧表現である「ます」が高い頻度で出現し,それに伴って「ござい」や「おる」等の謙遜表現
が現れる.また,接頭辞「御」なども頻繁に現れる
(1-gram で 46 位).
2) フィラー,感動詞が存在しない
話し言葉では頻繁に現れるフィラー,感動詞は国会会議録にはほとんど存在しない.これは,
書き起こす際に削除されているものと思われる.したがって,国会会議録を扱う際には,フィ
ラー及び感動詞は考慮する必要がない.
3) 指示詞の多用
国会議員の発話は一文が長くなる傾向が見られる.質疑応答は対話であるから,相手の発言
を引用する場合には同じことを繰り返さずに指示詞が用いられる.自身が行なった説明を引用
する場合にも指示詞を用いる場合が多い.
3 関連研究
話し言葉の要約としては,講演音声又は書き起こし,ニュース原稿を対象としたものがほと
んどである
(奥村,難波 2002).
三上ら
(三上,増山,中川 1999) は,ニュース原稿を対象として修飾部及び比較的冗長と考
7
自然言語処理 Vol. 12 No. 1 Jan. 2005
えられる例示を表す表現を含む文節などを削除することにより,1 文を短縮する要約手法を提
案している.また,ニュース文の最後尾の動詞を重要と仮定し,これに係る部分を残すことに
より不自然な要約文を防いでいる.要約の単位を
1 文としている点では本手法と同じであるが,
要約に構文解析を用いている点は本手法と異なる.この手法では,
66.7 %から 85.1 %の要約率
を実現しており,アンケートによる要約結果の評価では良好な評価値を得ている.
山崎ら
(山崎,三上,増山,中川 1998) は,言い換えによるニュース文の要約手法を提案し
ている.この論文では,ニュース文に頻出する冗長表現の換言,文末表現の換言,ニュース文
のパターンを利用した換言を行なうことで要約を行なっている.要約率は,
1260 記事に対して
オープンな実験を行ない,平均
91.2 %を得ている.しかし,言い換えのみによる要約では十分
な要約率を得ることができないと報告している.三上らも,このことに言及しており,冗長部
の削除後,言い換えによる要約を想定している.
下岡ら
(下岡,南條,河原 2004) は,講演の書き起こしを整形する手法を提案している.講
演の書き起こしに対して,フィラーの削除,書き言葉への変換,助詞の挿入,句点の挿入の各
処理を統計的翻訳に用いられるモデルを使って処理している.書き言葉への変換は,本手法と
同じであるが,統計的処理を行なっている点は本手法と異なる.
幅田
(幅田 2001) は,講演音声の要約筆記データの分析結果からフィラー,言い直し,繰り
返し,挿入句,丁寧表現,「∼という
+ 名詞」の各表現を処理対象とし,これらを削除,言い換
えを行なうことによって要約する手法を提案している.実際に作成した要約システムでは,
3 つ
のオープンなデータに対して
85.1 %から 78.1 %の要約率を得ている.要約筆記を正解とした精
度は,不一致内正解を含めたもので
79.8 %と報告している.要約筆記は,講演音声を聴覚障害
者向けに要約して文字として提示するものであり,この分析データをもとにした要約は有効で
あると考える.また,要約対象の中で,講演文は国会会議録に近いと考え,本論文では,この
手法を参考に要約システムを作成した.
4 処理方法
本論文では,幅田 (幅田 2001) の研究 (以下,先行研究) を参考にした.2.2 節で述べたよう
に国会会議録中ではフィラーが存在しない.また,先行研究では,言い直し・繰り返し表現を
削除する部分で削除誤りが多いと報告されている.そこで本研究ではフィラー,言い直し,繰
り返し表現については取り扱わないこととし,挿入句,敬語表現,「という
+ 名詞」の 3 点につ
いてそれぞれを拡張した形で実装し要約を試みた.本手法では,形態素解析器「茶筌」の出力
結果を基に
Perl を用いて処理を行なう.要約システムは,次に示す各処理で構成され,この手
順で処理が行なわれる.
1. 挨拶文削除処理
2. 挿入句削除処理
8
山本, 安達 国会会議録を対象とする話し言葉要約
3. 敬語表現の換言処理
4. 「と思います」表現削除処理
5. 丁寧表現の削除処理
6. 「という」表現削除処理
まず,前処理として入力された文を
1 行 1 文の形に整形する.以降で示す規則中の記号の対
応は次の通りである.名詞
N,サ変名詞 NV,動詞 V,形容詞 A,助詞 P,助動詞 AUXV,連
体詞
AT,任意の語 w とする.また,削除規則の場合は,括弧 [···] で削除する範囲を示す.
本システムでは,処理の過程で適宜,動詞等の活用を行なっている.活用規則は,茶筌によ
る解析結果及び基礎日本語文法―改訂版―
(益岡,田窪 1992) を参考にして作成した.
4.1 挨拶文削除処理
挨拶文とは,「おはようございます」や「お答え申し上げます」等の表現のことをいう.ここ
では,形態素解析せずに単純にパターンマッチによって挨拶文を削除した.例えば「よろしく
お願い申し上げます」のような文もここで削除している.
4.2 挿入句削除処理
挿入句とは,文の途中にあって,その文の流れとは無関係に挿入された表現である.挿入句
表現の候補として,「∼ように、」「∼けれども、」「∼ますが、」「∼ですが、」「∼ましたが、」「∼
でしたが、」「∼とおり、」を取り上げた.調査の結果,「∼でしたが、」については調査した会議
録での出現頻度が1回程度と少ないため,処理の対象からはずした.さらに,冗長と思われる
表現を特定する手がかり語として「先ほど」「これは」「指摘」「申す」「おっしゃる」を取り上
げる.手がかり語は挿入句表現の候補と組み合わせて処理する場合もある.
挿入句表現では,読点で区切った範囲を処理単位とし,本論文ではこれを「節」と呼ぶ.音
声認識結果を処理する場合には読点が無いため,節を認定することが難しくなる.しかし,音
声認識結果に読点を付与する研究
(遠山,永田 2000; 下岡他 2004) や適当な節に分割する研究
(丸山,柏岡,熊野,田中 2003) が存在することから,本論文では節への分割が可能という前提
で処理を行なう.次に処理方法を示す.
1) 「これは」で始まる場合
「これは」で始まっており,挿入句表現の候補で終わっている場合,その範囲を削除する.
構文的な誤りを無くすため,この節に「他方、」「一方、」「しかし、」「同時に、」が後続する場合
にはこれも削除する
(例 4-1).ここでの処理は,複数の連続した節も対象とする.
9
自然言語処理 Vol. 12 No. 1 Jan. 2005
例 4-1)
今回、これは検察審査会の議決ですから直接お答えされる立場にはないとは
思いますけれども、しかし、結果として、却下理由として、検察審査会法の
三十条の規定によって、
···
2) 「先ほど」で始まる場合
節において「先ほど」で始まり,「∼ように、」「∼けれども、」「∼とおり、」「∼が
(接続助
詞
)、」の各表現で終わっている範囲を削除する (例 4-2).
例
4-2)
先ほども申しましたように、政府が強い姿勢で、破防法を適用するんだぞと
いう姿勢を常に示し続けることが、彼らに対する最大の抑止力になるんで
すよ。
同じ節に挿入句表現の候補が無い場合,「先ほど」が含まれる節以降 2 つの節を調べ,挿入句
表現の候補が含まれていれば,その範囲を削除する
(例 4-3).
例
4-3)
先ほど、オウム真理教問題について、山梨県清里の問題に関連して Y
1
先生
から質問があったと思いますが、私も、長野県北御牧村の問題に関連をしま
して、オウム真理教の質問をさせていただきます。
「∼けれども、」「∼ように、」「∼ですが、」「∼ますが、」「∼ましたが、」「∼とおり、」の各
表現に対する処理では,混乱を避けるため時系列を明確にしておく必要があるのと,構文的な
誤りをなくすため次に示す
2 つの制約を満たすことが前提とする.
• 節に年月日を含まない
• 当該節の直後の節に指示詞が存在しない.
3) 「∼ですが、」
「∼ですが、」で終わる節を削除する.また,「他方、」「一方、」「しかし、」「同時に、」が後続
する場合にはこれも削除する.
4) 「∼ように、」
指示詞が含まれず「∼たように、」「∼のように」で終わる節を削除する.
5) 「∼けれども、」
「けれども、」が含まれる節の一つ前の節が「
(名詞)、」の形で終わっていた場合,並列節と
して「けれども、」の節に含める.この処理は再帰的に行なう.
1 本論文では個人名をイニシャルで書く.
10
山本, 安達 国会会議録を対象とする話し言葉要約
(制約条件)
• 「けれども、」の直前の節が「であろうと、」「だろうと、」「ならば
と、」で終わっており,かつ,「と」が並立助詞である場合は,「けれど
も、」の節を削除しない.
• 「けれども、」の直前の節が「から、」で終わっている場合は削除し
ない.
2 つの制約条件を満たし,さらに,節が「けれども、」で終わっていて指示詞が含まれてい
ない場合は,その節を削除する.また,「他方、」「一方、」「しかし、」「同時に、」が後続する場合
にはこれも削除する.「∼けれども、」の節で,削除されなかった場合は,「けれども」を「が」に
換言する.
4.3 敬語表現の換言処理
いわゆる敬語表現は,「丁寧表現」「謙遜表現」「尊敬表現」「名詞の敬語表現」に分けること
ができる.丁寧表現は,述語に「です」「ます」が付く表現であるが,これは
4.5 節で取り上げ
る.動詞の尊敬表現の場合には「お
+V(連用形)+になる」「お+V(連用形)+だ」の形式で用
いられる.また,「総理大臣が来られる」のように受動態の形式をとる場合がある.名詞の敬語表
現には,名詞に接頭辞が付くもの,「小生」や「粗品」のような特殊な謙遜表現,「芳名」や「貴
社」のような特殊な尊敬表現がある.
敬語表現の処理を行なっている研究として
(Ohtake and Yamamoto 2001; 大野,横山,西原
2003) の研究がある.我々は (Ohtake and Yamamoto 2001) を参考に規則を作成した.Ohtake
and Yamamoto
では,受動態形式の敬語表現についての処理は行なっていない.本論文では,
一部の受動態形式の敬語表現に対しても処理を行なった.一般に受動態であってもそれが受動
態として使われているのか敬語として使われているのかを判断するのは難しい.しかし,「総理
大臣が御利用になられる」のように敬語表現と受動態を合わせた表現の場合にはその受動態の
動詞は敬語として用いられていると判断し受動態の動詞を能動態の動詞に変換した.処理は,
敬語動詞の換言を行なった後,接頭辞に関する表現の処理を行なう.
4.3.1 敬語動詞の換言
敬語動詞には,一意に普通動詞に言い換え可能なものと多義性を持つものが存在する.多義
性のある敬語動詞についてはコーパスの統計的なデータから決定できるものがある.例えば,
「いただく」は「食べる」,「飲む」,「もらう」の
3 つの意味を持つが,国会会議録では「食べ
る」,「飲む」の意味で用いられる可能性はかなり低い.したがって,「いただく」は一意に「も
らう」に換言してもよいと考える.同様に「召し上がる」は「食べる」,「飲む」の敬語である
が,国会会議録では出現する確率が低いと考え処理しないこととした.
11
自然言語処理 Vol. 12 No. 1 Jan. 2005
敬語動詞の中には,「申し上げる」のように補助動詞として働くものが存在する.「申し上げ
る」は本動詞では「言う」であるが,「お祈り申し上げます」のように「お
+V+申し上げる」
の形で出現した場合に「申し上げる=言う」という解釈では不自然な表現になる.つまり,こ
の場合の「申し上げる」は補助動詞であると考え,「祈ります」のようにすべきである.補助動
詞として用いられる敬語動詞には,「申し上げる」,「くださる」,「ござる」等がある.また,本論
文では「おいでになる」のように複数個の形態素から構成される敬語も処理している.ここで
は
22 の敬語動詞を対象とした.処理規則を付録 A.1 に示す.
4.3.2 接頭辞の削除
まず,前処理として茶筌で「お考え」のような「接頭辞
+V(連用形)」で 1 形態素として解
析される形態素を「接頭辞
+V(連用形)」の形に分割する.また,「NV をする」,「接頭辞 +Vを
する」の形式のものは,「を」を削除した.但し,「
NV をする」の表現では,サ変名詞は「接頭
辞
+V(連用形)」の形のものに限定する.そのほかの接頭辞が付かないサ変名詞については必
ずしも「を」が削除可能とは限らない.ここでは
10 のパターンに分類して処理した.処理規則
を付録
A.2 に示す.
4.4 「と思います」表現削除処理
ここでは,「と思います」表現の処理について述べる.ここで対象とする表現は,(例 4-4) の
ようなものである.
例 4-4)
ぜひ急いで検討を進めてほしい と思います。
上の例では「と思います」の部分は削除可能である.「と思います」の他にも「と思う」につ
いても同様に処理対象として取り上げる.「と思います」を例とした処理規則を付録
A.3 に示す.
4.5 丁寧表現の削除処理
ここで丁寧表現は,述語部に「ます」,「です」が付いた表現を指す.基本的には「ます」を
削除し,直前の動詞を直後の形態素に合わせて活用させる処理を行なう.但し,「ません」の場
合には,助動詞「ん」を「ない」に換え「ない」に合わせて動詞を活用させた.その際,「ない」
も後続する形態素に合わせて活用を行なっている.「ます」が含まれる表現の中には,「に関しま
して」のように「ます」が含まれる格助詞として茶筌が解析する場合がある.この格助詞の連
語を言い換えるために茶筌の辞書から「ます」が含まれる
31 の格助詞の連語を取り出し,それ
に対応する「ます」を取り除いた表現と対にした辞書を作成した.また,判定詞「です」をよ
り丁寧にした「でございます」などの表現に関しては,特殊処理として規則を作成し対応した.
12
山本, 安達 国会会議録を対象とする話し言葉要約
特殊処理規則は 21 作成した.処理規則を付録 A.4 に示す.これらは,丁寧表現の中でも決まっ
た形で現れる表現であり,簡単な換言規則によって処理した.
一方,「です」の場合は,
7 つのパターンに分類して処理した.換言規則を付録 A.5 に示す.
4.6 「という」表現削除処理
先行研究 (幅田 2001) では以下の 6 項目の処理が行なわれている.
1) ∼と [いうふうに]
2) V [
という]N
3) A [
という]N
4)
ない (AUXV) [という]N
5) N1 [
という N2]
6) P [
という N]
我々はまず,以上の規則の検討を行なった.その結果,「AUXV という N」,「P という N」の
削除規則は処理対象が少なかったり,処理誤りが見られた.そこで,これらについて新たに規
則を追加する.これら
2 つの処理に関する誤りでは,名詞部分が形式名詞の「こと」である場
合が多数であった.したがって本論文では,追加する規則は名詞部分を形式名詞「こと」に限
定する.
「
AUXV + という+N」については,「AUXV + ということ+P+w」で AUXV,P,w を参
考にして規則を作成し行なった.調査の結果,後続する助詞
P には「ハ,ガ,ヲ,ニ,ノ,モ,
デ」があったが,「ノ,モ」の
2 つについては出現頻度が少なかったため処理対象に含めないこ
ととした.付録
A.6 に具体的な処理規則を示す.
「
P+という+N」については,「w1 + P1 + ということ+P2+w2」で助詞 P1,P2,及び,
前後の語
w1,w2 によって規則を分類し処理を行なった.後続する助詞 P2 には「ハ,ガ,ヲ,
ニ,デ」がある.処理規則を付録
A.7 に示す.
4.7 従来手法との定性的比較
議会会議録に対して自動的な要約を試みた研究を我々は見つけることができなかった.ここ
では,本研究に最も関連した研究として講演音声の要約を行なった幅田の報告
(幅田 2001) を取
り上げ,この先行研究との定性的な比較を行なう.なお,当該先行研究と本研究は処理対象が
異なるため定量的な直接比較はできないが,各手法で得られた要約率に関しての比較を
5.1 節
において行ない、また主な提案手法の要約精度を
5.2 節において報告する.
まず,幅田と比較して、本論文では以下の表現を新たに考慮に入れ,それらの要約,換言手
法を提案した.
• 挨拶文削除処理 (4.1 節)
13
自然言語処理 Vol. 12 No. 1 Jan. 2005
• 敬語表現換言処理 (4.3 節)
•
「と思います」表現削除処理 (4.4 節)
2
次に,「という」表現,丁寧表現、挿入句表現の 3 種類の表現については,先行研究と本研
究のいずれにおいても処理対象とされている.しかし,以下に示す点において我々の研究と異
なっており,またいずれについても本提案手法が優位である.
「という」表現について
先行する助動詞として幅田は「ない」のみを対象にしているが、本研究ではすべての助
動詞を対象にした.幅田は「というN」に後続する助詞の考慮が一切されていないが、
実際には「
···ということは」は「···は」に、「···ということで」は「···で」などのよ
うに要約のされ方が異なる.このため我々は「という」に続く文脈を考慮した要約規則
の作成を行なった.
丁寧表現について
幅田では概ね「です」「ます」「ございます」表現の削除に主眼が置かれている.このた
め幅田の手法では例えば「質問するわけでございまして」は「質問するわけであって」
となる.これに対し、我々は詳細な事例検討を行ない、可能な部分についてはより一層
の形式的表現の削除を試みた.例えば、我々の手法では「質問するが」となる.
挿入句表現について
幅田は挿入句として「ように」の
1 表現だけを取り上げ、これらを末尾に含む節を削除
している.我々は国会会議録コーパスから統計調査を行ない、高頻度であった「けれど
も」「ますが」「ですが」など末尾
5 表現を新たに挿入句に含めることを提案した.国会
会議録中の挿入句に含まれる特有の表現、例えば「先ほど」「指摘」などを取り上げた.
これらの語も我々の国会会議録コーパスの分析によって選択した.これらの語の出現と、
前述の末尾表現「ように」などの出現の組み合わせによって挿入句の判定を行なうこと
によって、より確度の高い挿入句判定を可能にした.
5 実験と評価
5.1 要約率
4 節で述べた規則を実装し,第 100 回 (昭和 58 年) から第 155 回 (平成 14 年)(約 20 年分,
約
1.08 GB) の衆議院の会議録を対象に処理を行なった.本手法では,質疑応答等の自由発話が
含まれる会議録を対象としている.質疑応答型等の会議録は比較的大きなファイルサイズにな
2 幅田においては「と思います」は「ます」を含む丁寧表現の一つであり,要約の結果「と思う」としか出力されない.
これに対し我々は,「と思います」表現の一部は「思う」の意味が薄れているため冗長であり,表層的に削除可能なパ
ターンを提案した.
14
山本, 安達 国会会議録を対象とする話し言葉要約
図 1 各会議録の要約率
るため,経験的にファイルサイズが 120 kB を越える会議録を評価対象とした.この制約によっ
て,国会回次によっては評価対象となる会議録が存在しない場合もある.
制約を適用した結果評価対象となった会議録数は
3960 である.図 1 に会議録と要約率の関
係を示す.要約率は次式によって求めた.
要約率
=
要約処理後の文字数
原文文字数
× 100 [%] (1)
図 1 で,便宜上横軸を File Number としている.File Number が小さいほど古い会議録であ
る.尚,最も低い要約率は
74.01 %,最も高い要約率は 99.86 %であった.
要約率の平均
80.00 %,標準偏差が 2.096 とばらつきの少ない結果が得られた.しかし,要
約率の高い会議録もいくつか見られた.そこで,
85 %以上の要約率となった会議録の全て (48
会議録) について調査を行なった.調査の結果を表 2 に示す.
「本会議」では,朗読が多く自由な発話が少ない.したがって,自由発話で見られる挿入
句表現が出現する割合が低いため,要約率が高くなったと考える.「請願」は,会議録に請願の
一覧が書かれているものである.この請願の一覧が会議録の半数以上を占めファイルサイズが
120 kB を越えてしまい,本来対象とするべきでない会議録が処理されたために要約率が高く
なった.「公聴会」の要約率が高いのも「本会議」と同じである.公述人の発話は朗読に近い.一
方,質問者は自由発話であるから本手法が有効に働いた.つまり,公述人の発話が含まれた分,
若干要約率が高い結果を示したと考える.「出席者多数」「異動多数」は,会議録に書かれる出席
15
自然言語処理 Vol. 12 No. 1 Jan. 2005
表 2 要約率 85 %以上の会議録の分類
要因
要約率 [%]
合計
85∼90 90∼95 95∼100
本会議 (朗読) 20 6 0 26
請願 (発話が少ない) 7 2 8 17
公聴会 (一部朗読) 1 0 0 1
出席者多数 (発話が少ない) 1 0 0 1
異動多数 (発話が少ない) 1 0 0 1
その他 (政策案の引用等) 2 0 0 2
合計 32 8 8 48
図 2 発言者別の発話文字数と要約率
者,異動が多いものである.よって,「請願」と同じであるが,出席者,異動の一覧が会議録中
で占める割合は「請願」に比べると少ない.「その他」は,政策案やプロジェクト等の文の引用
が多く,これによって自由発話の割合が減少し,要約率が若干高まったと考える.以上の分析
結果から要約率が高くなる要因は,本手法の対象外である朗読などが多く含まれているためで
あることを確認した.
次に,発話者別に要約率を見たときにどの程度要約率に違いがあるかを検討する.処理対象
としたのは,要約率が
80.00 %であった第 153 回 (平成 13 年) 財務金融委員会5号 (230 kB) で
ある.図
2 にの発話者別の発話文字数と要約率を示す.
図
2 を見ると,要約率 100 %である発話者がいることが確認できるが,その発話文字数は 10
文字程度である.要約率が 90 %を越える発話者は委員長もしくは委員長代理であることが多
16
山本, 安達 国会会議録を対象とする話し言葉要約
図 3 各要約手法別の削除率
かった.委員長らは比較的形式的な発話をするため挿入句などの冗長部が少ないためあまり要
約されていないと考える.その他の発話者に関しては,要約率に若干ばらつきがあるものの極
端な要約率はない.つまり,発話者による要約率の変化はあまりないと言える.また,発話文
字数と要約率の関連性も低いことが分かる.
次に各要約手法について評価する.対象としたのは,要約率が
80.00 %の 11 会議録である.
ここでは,各手法を単独で実行したときの削除率で評価する.したがって,削除率の合計が
20 %にはならない.削除率は次式によって求めた.
削除率
= 100 − 要約率 [%] (2)
図 3 に各要約手法別の削除率を示す.図 3 中で,「敬語」は 4.3 節と 4.5 節の両方の処理を行
なった場合の削除率を示している.また,「その他」は挨拶表現と本論文では示していないが,
細かな削除規則を行なった場合の削除率を示している.敬語表現の削除率に関しては,会議録
によって削除率に開きがみられる.近年の会議録ほど敬語表現処理があまりされていない傾向
がある.「という」表現の処理では,敬語表現の削除が行なわれない分,削除率が大きくなる傾
向が見られる.その他の手法の削除率は,最小の削除率と最大の削除率の差が
1∼2%程度でそ
れほどばらつきが見られない.つまり,自由発話が含まれる会議録を対象とした場合,各表現
が偏りなく出現し,削除されていることが分かる.但し,ある程度揺れがある原因は,年代に
よって発話者の文法や表現に変化があるためであると考える.
本手法では
15∼25 %程度の削除率を実現した.先行研究 (幅田 2001) では,講演の書き起こ
しを対象として
15∼20 %の削除率と報告されており,単純に比較するのは難しいが本手法が若
17
自然言語処理 Vol. 12 No. 1 Jan. 2005
干上回っている.先行研究においては,繰り返し表現に対する処理が削除率に大きく貢献して
いるが,本手法ではそれを用いずに同程度の削除率を実現した.三上ら
(三上他 1999) の研究
では,
15∼33 %程度の削除率と報告している.本論文を含めたこれら 2 件の結果から,話し言
葉を対象とした削除・換言による要約処理では,
30 %程度の削除率が限界と推測する.
本研究では,
n-gram の調査結果で上位であった文末表現の処理を中心に,先行研究ではほ
とんど処理されていなかった敬語動詞についても換言処理を行なった結果,比較的良好な換言
結果が得られた.
5.2 要約精度
本手法で行なった処理の精度を測定した.図 3 が示す通り,本手法で提案した 5 種類の要約
処理のうち,敬語表現
+ 丁寧表現,挿入句表現,「という」表現,の 3 種類の処理の合計で実際
に削除された表現の大半を占めている.そこで,第
155 回国会 (平成 14 年) 内閣委員会第 2 号
(249 kB) に対して本手法の要約処理を行ない,これら 3 種類の処理のそれぞれがどの程度正し
く処理されたか人手により評価した.その結果を表
3 に示す.表 3 において,検査数及び正解
数の単位は箇所であるが,敬語表現
+ 丁寧表現については検査数と正解数を共に文単位で計数
した.これは,文内において複合的,あるいは組み合わせ的に規則が適用されるため,個別で
正解であっても全体として誤りの場合があるからである.
表 3 各手法の要約処理精度
検査数 正解数 正解率
敬語表現+ 丁寧表現 1000(文) 979(文) 97.9 %
挿入句表現 200 160 80.0 %
「という」表現 232 201 86.6 %
表 3 から,いずれの表現の処理精度も 80 %以上の高い精度が得られていることが分かる.特
に,敬語表現
+ 丁寧表現は 98 %という,非常に確度の高い処理を行なっていることが確認で
きた.
5.3 提案手法のコーパス依存性の検証
本要約システムが国会会議録以外の話し言葉に対しても有効に働くかを検証するために本シ
ステムを日本語話し言葉コーパス
(モニター版 2002)(以下,CSJ コーパス)(約 128 kB) に対して
適用した.
CSJ コーパスからは,学会講演(全 6 テーマ)の各テーマから 2 つずつ,男女各 6
名,計 12 名分の講演を選択した.CSJ コーパスは,そのままの状態では調査に用いることがで
きないため,人手で文を整形してから調査に用いた.文を整形する際の基準は,フィラータグ
18
山本, 安達 国会会議録を対象とする話し言葉要約
図 4 講演者別の発話文字数と要約率 (CSJ コーパス)
(F) が付いている場合削除,言い直しタグ (D, D2) が付いている場合削除,言い直しタグは付
いていないが構文的におかしいと判断したものを削除の
3 つである.その他,冗長である部分
に付いてはできるだけ削除せず残した.句読点の挿入位置に関しては特に基準を設けず,適当
に挿入した.
図
4 に CSJ コーパスに対して要約処理を行なったときの要約率と発話文字数を示す.平均
要約率は
84.39 %,最も低い要約率は 76.66 %,最も高い要約率は 93.99 %であった.
本要約システムは,国会会議録のみを参考にして規則を作成したが,他の話し言葉コーパス
である
CSJ コーパスに対して本システムを適用した結果,平均要約率は国会会議録と比較して
差が
4.4 %と比較的有効に処理が行なわれていることが分かった.国会会議録と CSJ コーパス
(学会講演) では共通して文末に敬語表現が用いられているため,国会会議録から作成した規則
が
CSJ コーパスに対しても有効に働いた.しかし,要約文を観察した結果次のような問題点が
明らかになった.
1.話し言葉の問題
CSJ コーパスは,国会会議録に比べより話し言葉の特色が強い.例えば,竹沢ら (竹沢,田
代,森元
1994) が報告している話し言葉の特徴のうち,断片文等が含まれている.それ以外に
も,「けれども
→ けれど」,「それで → で」のように単語を完全に発話していないという例も見
られた.したがって,挿入句の判定が行なわれなかったり,形態素解析を誤るといった問題が
あった.今回は,フィラーや言い直しを削除した文を入力したが,これらが含まれる場合を想
19
自然言語処理 Vol. 12 No. 1 Jan. 2005
定したシステムを考えなければならない.
2.発話者の問題
国会会議録では,丁寧表現が幅広く使われているため文末表現を中心に処理している本シス
テムが有効に働いたが,
CSJ コーパスでは,丁寧表現をほとんど用いない発話者も見られた.
したがって,発話者別の要約率は若干ばらつきが大きかった.
3.システムの問題
本システムの敬語動詞の処理では,コーパスの特徴を利用して普通動詞に換言する規則を作
成したが,その処理規則が
CSJ コーパスで有効に働かない例が見られた.また,句末表現で挿
入句の判定処理を行なったが,削除すべきでない句も削除している例があった.
6 考察
実験結果から明らかになった処理誤りについて取り上げ,その理由を議論する.
6.1 敬語表現,丁寧表現
敬語表現と丁寧表現の処理誤りについて考察する.5.2 節で示した通り,敬語表現と丁寧表
現についてはほとんど誤りは見られなかった.誤りの例を例
6-1) に示す.
例
6-1)
a) ご鞭撻を賜る −→ 鞭撻を賜る
b) ご理解をいただきたい −→ 理解をもらいたい
c) 大臣はどうお考えですか −→ 大臣はどう考えか
a) は敬語表現を部分的に崩したことに伴う不自然さである.原文の「ご鞭撻を賜る」は頻繁
に用いられることから表現が固定化し,定型表現の性格を強く持つ表現となっている.これに
対して接頭辞の削除だけを行なって「鞭撻を賜る」とした場合に不自然さを感じる.変換する
のではあれば「励ましてほしい」となるがこれでは逆に長くなってしまうので何もしないかす
べて削除すべきであろう.
b) は「ご理解」が「理解」に,「いただきたい」が「もらいたい」に個別に換言され,組み合
わされた場合に問題が生じる場合である.このように「いただきたい」が動詞ではなく助動詞
的な使い方をされている表現があるので,それを認知した上で「
... してほしい」などと変換す
る必要がある.
c) は「考え」が動詞の連用中止形から派生した名詞であることが原因である.「賛成ですか
−→ 賛成か」のように名詞後続の「ですか」は「か」に換言することが可能であるが,上記誤
りのように動詞の連用中止の場合は「お考えですか
−→ 考えますか」のように動詞として扱う
以外にない.このような対処が必要と考える.
20
山本, 安達 国会会議録を対象とする話し言葉要約
6.2 「という」表現
「という」表現の要約処理について,例 6-2) に誤った削除を行なった例を示す.括弧 [···]
で囲まれた範囲が処理によって削除された部分である.
例
6-2)
a) 山梨県の高根町に清里 [というリゾート] 地がある
b) 同級生相場 [という調査] を始めている
c) 適用するのだぞ [という姿勢] を常に示し続けること
d) 日本から金も人も物も出せ [という] 形で、自衛隊を出せ [という]
要求が非常に強かった。
「という」の処理では,「∼という N」の名詞の部分が形式名詞である場合には比較的良好
な結果が得られた.しかし,
a) ,b) に示すように「N1 という N2」表現で N2 が形式名詞以外
の普通名詞等の場合には一部処理誤りが見られた.
a) は,N2 が複合名詞の場合である.a) 以
外にも「○○検討会
[という検討] 会」などもある.従って,これらの複合名詞を処理する際に
は,名詞の接尾を考慮した処理を行なうことで改善される.基本的に「
N1 という N2」表現で
N2 の果たす役割は N1 を強調することにあり,具体的な名詞が N2 の部分にくることはほとん
どない.つまり,
N2 には,形式名詞,N1 の意味を表す名詞,接尾辞などが来ると考えられる
ため,先に示したような複合名詞の処理で十分対応が可能であると考える.
b) では少し状況が異なる.これらは「N1=N2」であり,「という N2」を削除出来ない.これ
らを処理する場合
N1 と N2 の関連性を判断する必要性がある.
c) のように「という」の直前が終助詞の場合の処理は,処理誤りが多く見られた.「適正なの
はどのくらいか
[ということ] は、」のように問題のない処理もあることから,この処理について
はもう少し調査する必要がある.
d) は「V という N」表現の解析誤りである.この処理誤りは,連体節を考慮していないた
めに起こった.連体節の中でも内容節に「という」が現れ,内容節を伴う名詞には規則性があ
る.よって,これらの名詞を挙げておくことで対処できると考える.
6.3 挿入句表現
次に,挿入句表現の処理誤りについて考察する.本論文では,文を読点区切りしたものを
「節」として挿入句表現の処理単位とした.処理に関しては,基本的に規則に照合した節を単独
で削除している.このような処理を行なった場合,構文的な誤りがあることが確認された.本
手法では,挿入句の後ろの節に指示詞が含まれていない場合削除するといった処理を行なって
構文的な誤りを防ぐようにしたが,不十分であった.したがって,接続助詞,並立助詞等も考
慮した対応をしなければならない.また,直後の節の指示詞が必ず直前の節を指すわけではな
く,直後の節に指示詞が存在する場合でも挿入句を削除できる場合がある.正しい照応解析が
21
自然言語処理 Vol. 12 No. 1 Jan. 2005
可能であれば,更なる削除が望める.
さらに,
(例 6-3a) 下線部に示すように挿入句表現は必ずしも読点を区切った単位とはなら
ない.
例
6-3)
a) 先ほど申しましたように 概念が成立する ···
b)
今後も一日も早くこの委員会が再開されまして、史跡の保護と地
元住民の調整が十分つくように 最大の努力をしたいというふうに
思っております。
a) のように読点が含まれない場合は挿入句の範囲を決定するのが難しくなる.これに関し
ては,一部処理を行なっているがやはり誤りが見られる.また,
(例 6-3b) のように挿入句表現
の手がかり語が付いても削除出来ない場合もある.この場合は,直前の節などとの関連性を考
慮して処理しなければならない.
7 結論
本論文では,話し言葉の一つとして議会における会議録,特に国会会議録を取り上げ,報知
的要約手法を提案した.国会会議録の特徴である丁寧表現,話し言葉で見られる「という」表
現,挿入句表現を冗長表現としてとらえ,先行研究の規則を拡張し,換言・削除を行なうことに
よって報知的要約を行なった.この手法を実装し,約
20 年分の会議録に対して実験を行なった
結果,要約率の平均
80.00 %,標準偏差 2.096 とばらつきの少ない要約結果が得られた.また,
本手法では国会会議録で多く用いられる敬語表現に対する処理を中心的に行ない,良好な換言
を行なうことができた.
本システムを
CSJ コーパスに対して適用した結果,平均の要約率 84.39 %を得た.この結果
は,国会会議録と同等の要約率が得られていることから,本手法が国会における発話にのみ限
定されたものではなく,他の話し言葉にも適用可能であることを示唆する.従って,大規模テ
キストデータである国会会議録を話し言葉のテキストデータとして利用しシステムを作成する
ことで,他の話し言葉データに対しても作成したシステムが有効に働くものと考える.
一方で,「という」表現,挿入句表現の処理ではいくつかの解析誤りや構文的な不整合が見ら
れた.また,より自然な話し言葉である
CSJ コーパスでは,語の短縮等があるため規則を変更
または追加する必要があることが明らかとなった.また,字幕のための要約処理として考える
場合には処理単位をさらに小さなものにするといった検討が必要である.さらに,
80 %の要約
率でも字幕としては十分でないため今後さらに文を短縮する方法を検討しなければならない.
これまで議会会議録は全く自然言語処理の処理対象とされてこなかったが,本論文では会議
録が話し言葉としての性質をとても多く持つ言語資源であることを示した.特に統計的な話し
言葉処理を進める際には,本論文で取り上げた国会会議録のような大量の会議録を我々研究者
22
山本, 安達 国会会議録を対象とする話し言葉要約
はもっと有効に利用すべきである.
謝辞
本研究の一部は,科学研究費補助金 若手
(B) 「高密度表現を利用したまとめ型要約に必要
な言語変換技術」課題番号
16700134,及び科学研究費補助金 基盤 (A) 「円滑な情報伝達を支
援する言語規格と言語変換技術」課題番号
16200009 によって実施した.
使用した言語資源とツール
1. 国会会議録検索システム,国立国会図書館,http://kokkai.ndl.go.jp/
2.
日本語話し言葉コーパスモニター版.独立行政法人国立国語研究所/独立行政法人情
報通信研究機構
3. 毎日新聞 全文記事データベース 2000 年度版,毎日新聞社
4. 形態素解析器「茶筌」ver.2.3.3,奈良先端科学技術大学院大学松本研究室,
http://chasen.aist-nara.ac.jp/
参考文献
江原暉将,澤村英治,福島孝博,丸山一郎,和田裕二,門馬隆雄,白井克彦 (2001). “聴覚障害
者向け字幕番組の製作技術
.” 情報処理学会研究報告 NL 144-17.
福島孝博,江原暉将 (2001). “リアルタイム要約としての要約筆記における要約の手法.” 第 7
回言語処理学会年次大会, pp. 293–296.
幅田隆 (2001). “不要個所の削除と言い替えによる講演音声の要約.” 北陸先端科学技術大学院
大学修士論文
,
http://www.jaist.ac.jp/library/thesis/is-master-2001/paper/thabata/paper.pdf.
丸山岳彦,柏岡秀紀,熊野正,田中英輝 (2003). “節境界自動検出ルールの作成と評価.” 第 9 回
言語処理学会年次大会
, pp. 517–520.
益岡隆志,田窪行則(編) (1992). 基礎日本語文法―改訂版―. くろしお出版.
三上真,増山繁,中川聖一 (1999). “ニュース番組における字幕生成のための文内短縮による要
約
.” 自然言語処理, 6 (6), pp. 65–81.
大野満,横山晶一,西原典孝 (2003). “日本語敬語表現の変換・解析システム.” 第 9 回言語処理
学会年次大会
, pp. 218–221.
Ohtake, K. and Yamamoto, K. (2001). “Paraphrasing Honorifics.” In NLPRS2001 PostCon-
ference Workshop on Automatic Paraphrasing: Theories and Applications, pp. 13–20.
奥村学,難波英嗣 (2002). “テキスト自動要約に関する最近の話題.” 自然言語処理, 9 (4),
pp. 97–116.
23
自然言語処理 Vol. 12 No. 1 Jan. 2005
下岡和也,南條浩輝,河原達也 (2004). “講演の書き起こしに対する統計的手法を用いた文体の
整形
.” 自然言語処理, 11 (2), pp. 67–83.
竹沢寿幸,田代敏久,森元逞 (1994). “音声言語データベースを用いた自然発話の言語現象の調
査
.” 人工知能学会研究会資料 SIG-SLUD-9403-3, pp. 13–20.
遠山陽介,永田守男 (2000). “音声認識支援システムにおける句読点挿入.” 電子情報通信学会
技術研究報告
NLC0005-4, pp. 25–32.
山崎邦子,三上真,増山繁,中川聖一 (1998). “聴覚障害者用字幕生成のための言い替えによる
ニュース文要約
.” 第 4 回言語処理学会年次大会, pp. 646–649.
付録
A 換言規則の詳細
A.1 敬語動詞の換言規則
1) NV を申し上げる
i) の (連体助詞)+NVを申し上げる → 「申し上げる」を「述べる」に換言
ii) NV を申し上げる → NV する
2) NV 申し上げる → NV する
3) お {V(連用形)orN
3
} 申し上げる → お {V(連用形)orN} する
4) 申し上げる
i) て申し上げる → て述べる
ii) 申し上げ、 → 述べ、
iii) 申し上げまして、 → 述べまして、
iv) 申し上げて、 → 述べて、
v) 申し上げさせる → 述べさせる
vi) 申し上げられる → 言える
vii) i ) ∼ vi) 以外の場合 → 言う
5) いただく
i) V ていただきたい → V てほしい
ii) V ていただく → V てもらう
iii) NV いただきたい → NV してほしい
iv) NV いただく → NV してもらう
v) { の or と }NV をいただく → 「いただく」を「もらう」に換言
3Nは動詞の連用形と同形のものである.
24
山本, 安達 国会会議録を対象とする話し言葉要約
vi) NV をいただきたい → NV してほしい
vii) NV をいただく → NV してもらう
viii) お {VorN} をいただきたい → お {VorN} してほしい
ix) お {VorN} をいただく → お {VorN} してもらう
x) お {VorN} いただきたい → お {VorN} してほしい
xi) お {VorN} いただく → お {VorN} してもらう
xii) お聞かせいただきたい → 聞かせてほしい
xiii) お聞かせいただく → 聞かせてもらう
xiv) i ) ∼ xi) 以外の場合 → もらう
A.2 接頭辞の削除規則
1) お V になる → V
2)
お NV になる → NV する
3) お V する → V
4)
お NV する → NV する
5) V せてもらう → V
6) V
せて+ ほしい (基本形) → V たい
A.3 接頭辞の削除規則
1) ∼{たい or ない or だろう}[と思います]
2)
∼ A[と思います]
3)
∼だ(AUXV) と思います
i) 名詞 (非自立)
4
が「ところ」「こと」「の」で,直前が「ない」である場合は,
「と思います」を削除する.
ii) 助動詞「だ」の直前の品詞が名詞 (非自立) 以外の場合「と思います」を削
除する.
A.4 「ます」削除処理
1) ∼ 3) では,前後の品詞を考慮した処理を行ない,4) ∼ 10)の規則は,単純に換言した.
また,規則の最初に「
#」が付いている規則は,共通して以下の処理を行なう.
(# 共通規則)
終助詞「よ」「ね」が付属する場合は終助詞も削除
4 名詞 (非自立) とは,茶筌の解析結果であり,主に対象としているものはほとんどが形式名詞である.
25
自然言語処理 Vol. 12 No. 1 Jan. 2005
1) V わけで{ござい or あり}まして → V が
2) N で{ござい or あり}まして → N で
3) # でございます P → です P
4) [
わけで{ござい or あり}ます]
5)
ございませんでした → なかった
6) ございませんで → なく
7) ございません → ない
8) # でございました → でした
9) # ございました → あった
10) # てございます → ている
A.5 「です」削除処理
1) 置き換えによる換言
i) ∼ですので → ∼なので
ii) { いかが or どう } ですか → どうか
2) 「という+ 名詞 (非自立)+です」
ここで便宜的に「名詞
(非自立)」を「N」で表す.
i) という { の or もの or ところ or こと } です
→ 「です」を「だ」に換言
ii) という N ですか → という N か
iii) という N ですよね → という N だね
iv) という N ですよ → という N だ
v) という N ですね → という N だね
vi) 名詞 + という N だ → 名詞 + だ
vii) という N です → という N だ
A.6 「助動詞 + という + 名詞」
1) ハ
i) AUXV と [いうこと] は V
ii) AUXV
ということは {AT, 読点, 形容動詞
5
}
→ AUXV のは{AT, 読点, 形容動詞}
iii) AUXV [ということは] 普通名詞
6
5 茶筌における「名詞-形容動詞語幹」
6 茶筌における「名詞-一般」
26
山本, 安達 国会会議録を対象とする話し言葉要約
2) ガ
i) AUXV と [いうことが]V
ii) AUXV
ということが N → AUXV のが N
3)
ヲ
i) AUXV と [いうことを] ∼
4) ニ
i) ∼{た or ない}[という] ことに ∼
ii) ∼ AUXV({た or ない}以外)+と [いうことに] ∼
5) デ
i) AUXV と [いうことで] + (AUXV 五段・ラ行
7
以外)
A.7 「助詞 + という + 名詞」
1) ハ
i) ∼か[ということ] は∼
2) ガ
i) ∼ ないかと [いうことが] ∼
ii) ∼か[ということ] が∼
※ 助詞の「か」に終助詞「な」が付属している場合には終助詞「な」を削
除しておく.
3) ヲ
i) ∼のか[ということ] を∼
ii) ∼ (の以外) +かと [いうことを]{VorA}
iii) ∼ (の以外) +か [ということ] を+ ({VorA}以外)
iv)
∼ (か以外) +と [いうことを] ∼
4) ニ
i) ∼ [ということ] に∼
5) デ
i) ∼かと[いうことで] ∼
ii) ∼ (か以外) + [ということで] + (AUXV 五段・ラ行以外)
iii)
∼ (か以外) + [ということ] で+ (AUXV 五段・ラ行)
7 茶筌の解析結果で得られる助動詞の活用形であり,ここでは「ござる」「ある」を主に対象としている.
27
自然言語処理 Vol. 12 No. 1 Jan. 2005
B 要約例
本手法による要約結果を以下に示す.処理対象の会議録は第 101 回国会 (昭和 59 年) 予算
委員会第二分科会
2 号 (390 kB) である.全体の要約率は 80.00 %である.付録ではこの会議録
中のある
1 回の質疑とそれに対する答弁を示す.以下の掲載部分の要約率は 82.72 %(1206 文
字
/1458 文字) であった.
–原文–
○ W 分科員
年度別の過去六年間における外国人留学生の数字を見ておりますと、これは文部省でお出しに
なった数字だそうでございますが、このリストの中に「主要国における留学生の状況」という
欄がございます。これは大体単年度でございますし、年次は多少ばらつきがございますが、ア
メリカにおきましては三十一万、イギリスにおいては五万、西ドイツにおいては五万、フラン
スにおいては十二万、それに対して日本は一万という数字でございます。アメリカが図抜けて
いるわけでございますが、三十一万に対してヨーロッパ各国合わせて二、三十万のランクに達
する。それに対して日本は一万人の留学生じか受け入れていない。 その受け入れるに当たり
ましても、GNP世界第二位の経済力に対しまして非常にまずいのは、外国人を受け入れた際
の受け入れ方に非常に問題点が多い。ただ学校で勉強するだけで、日本の社会員体としてそれ
らの学生を受け入れて、物事を語り合ったり理解を深めるという点で問題点が多いということ
は指摘されているとおりであります。これらについての対策はある意味で抜本的な対策を必要
とする。小手先の対策ではだめなのではないかと思う。 例えば国費留学生の種類にいたしま
しても、アメリカならばフルブライトがあり、ナショナル・インスティチユート・オブ・ヘルス
があり、ナショナル・サイエンス・ファウンデーションがあり等々いろいろな奨学金留学生の
システムがございますし、イギリスには有名なるブリティッシュカウンシル奨学金留学生があ
り、西ドイツにおいてはDAADの奨学金留学生がありというふうでございますが、日本の方
は国費外国人留学生の制度が唯一と言っていいほどのレベルである。こうした制度を設けるた
めには、税法上あるいは各省庁との関係におきましてさまざまな配慮を必要とするものだと思
われるわけであります。したがって、こういうのも配慮しなければならない。 また、宿舎そ
の他の設備が非常に不十分なため、貧民化する留学生がしばしば存在し、これらの人々はせっ
かく日本に留学したににもかかわらず、日本に対して十分な理解も持てなければ好感も持てな
いという状況になってくる。こうしたいろいろな問題があると思われるわけであります。した
がって、まずこの留学生のレベルを数字的に引き上げる、質的レベルも引き上げるという意味
で今後どういう施策をお立てになるのか、今重大なところではないか。今直ちにお答えは無理
かもしれませんけれども、次年度におきましてこれらに対して抜本的な施策をつくり上げてい
28
山本, 安達 国会会議録を対象とする話し言葉要約
ただきたいと思いますが、いかがでしょうか。
○
M 政府委員
留学生の問題につきましては、先生御指摘のとおりいろいろな問題がございます。特にまだ数
が十分でないということ、その中には日本語ではどうしようもない語学の問題とか、そういう
問題もございますけれども、まだまだ日本の受け入れ制度というものを拡充しなくてはいかぬ
ということにつきましては、実は二十一世紀への留学生政策懇談会というのがございまして、
そこでかなり詳細な提言が昨年の八月になされております。先生の御指摘の宿舎の問題も含め、
あるいは日本における博士号の取得の問題、あるいは日系企業の就職の問題、あるいはその他
経済的な対策の問題、たくさんございますが、この提言を踏まえまして文部省、外務省が中心
になりまして、確かに難しい問題を含んでおりますが、できるだけ量、質の改善に向けて努力
したいということで、事務的に現在この提言に沿いながら検討中でございます。
–要約文–
○ W 分科員
年度別の過去六年間における外国人留学生の数字を見ていると、このリストの中に「主要国に
おける留学生の状況」という欄がある。 アメリカにおいては三十一万、イギリスにおいては五
万、西ドイツにおいては五万、フランスにおいては十二万、それに対して日本は一万だ。三十
一万に対してヨーロッパ各国合わせて二、三十万のランクに達する。それに対して日本は一万
人の留学生じか受け入れていない。その受け入れるに当たっても、GNP世界第二位の経済力
に対して非常にまずいのは、外国人を受け入れた際の受け入れ方に非常に問題点が多い。ただ
学校で勉強するだけで、日本の社会員体としてそれらの学生を受け入れて、物事を語り合った
り理解を深める点で問題点が多いことは指摘されているとおりだ。これらについての対策はあ
る意味で抜本的な対策を必要とする。小手先の対策ではだめなのではないか。例えば国費留学
生の種類にしても、アメリカならばフルブライトがあり、ナショナル・インスティチユート・オ
ブ・ヘルスがあり、ナショナル・サイエンス・ファウンデーションがあり等々いろいろな奨学金
留学生のシステムがあるし、イギリスには有名なるブリティッシュカウンシル奨学金留学生が
あり、西ドイツにおいてはDAADの奨学金留学生がありふうだが、日本の方は国費外国人留
学生の制度が唯一と言っていいほどのレベルである。こうした制度を設けるためには、税法上
あるいは各省庁との関係においてさまざまな配慮を必要とするものだと思われる。したがって、
こういうのも配慮しなければならない。また、宿舎その他の設備が非常に不十分なため、貧民
化する留学生がしばしば存在し、これらの人々はせっかく日本に留学したににもかかわらず、日
本に対して十分な理解も持てなければ好感も持てない状況になってくる。 こうしたいろいろな
問題があると思われる。 したがって、まずこの留学生のレベルを数字的に引き上げる、質的レ
ベルも引き上げる意味で今後どういう施策を立てるのか、今重大なところではないか。 次年度
29
自然言語処理 Vol. 12 No. 1 Jan. 2005
においてこれらに対して抜本的な施策をつくり上げてほしいが、どうか。
○
M 政府委員
留学生の問題については、指摘のとおりいろいろな問題がある。 特にまだ数が十分でないこと、
その中には日本語ではどうしようもない語学の問題とか、そういう問題もあるが、まだまだ日
本の受け入れ制度を拡充しなくてはいかぬということについては、実は二十一世紀への留学生
政策懇談会があり、そこでかなり詳細な提言が昨年の八月になされている。宿舎の問題も含め、
あるいは日本における博士号の取得の問題、あるいは日系企業の就職の問題、あるいはその他
経済的な対策の問題、たくさんあるが、この提言を踏まえて文部省、外務省が中心になって、確
かに難しい問題を含んでいるが、できるだけ量、質の改善に向けて努力したいと、事務的に現
在この提言に沿いながら検討中だ。
略歴
山本 和英: 1996 年豊橋技術科学大学大学院工学研究科博士後期課程システム
情報工学専攻修了.博士
(工学).同年より (株) 国際電気通信基礎技術研究
所
(ATR) に所属し,現在音声言語コミュニケーション研究所客員研究員 (非
常勤
).1998 年中国科学院自動化研究所国外訪問学者.2002 年より長岡技術
科学大学電気系講師.言語表現加工技術
(要約,換言,翻訳),アジア言語処
理
(中国語,韓国語など),言語処理技術を活用したテキストマイニングなど
に興味がある.言語処理学会,人工知能学会,情報処理学会,
ACL 各会員.
e-mail: yamamoto@fw.ipsj.or.jp
安達 康昭: 2004 年長岡技術科学大学電気電子情報工学課程卒業.在学中は日
本語要約処理の研究に従事.言語処理学会学生会員.
e-mail: adachi@nlp.nagaokaut.ac.jp
(2004 年 3 月 15 日受付)
(2004
年 8 月 31 日 再受付)
(2004
年 10 月 12 日採録)
30