Content uploaded by Kazuhide Yamamoto
Author content
All content in this area was uploaded by Kazuhide Yamamoto
Content may be subject to copyright.
特徴的冗長表現に着目した国会会議録要約
安達 康昭
†
山本 和英
†
E-mail:{adachi,ykaz}@nlp.nagaokaut.ac.jp
あらまし 国会会議録の要約手法を提案する。国会会議録には、丁寧表現の頻出や独特な言い回し等の
特徴がある。また、会議における発言の書き起こしであるため、話し言葉の特徴も見られる。本稿で
は、この様な特徴的な表現に着目し、それらを換言・削除することで要約を試みた。まず、単語 n-gr
am の統計結果から得られた頻出する丁寧表現を普通体の表現に言い換えることを行った。次に、手が
かり語を用いて頻出する冗長な表現や挿入句を推定し削除することによって要約を試みた。これらの
処理を約 20 年分の会議録に対して行った結果、自由発話が含まれる会議録では 80%程度の要約率が得
られた。
キーワード:国会会議録、要約、換言、話し言葉
The Minutes of the National Diet Summarization
based on Redundancy Reduction
Yasuaki ADACHI and Kazuhide YAMAMOTO
E-mail:{adachi,ykaz}@nlp.nagaokaut.ac.jp
Abstract We present the minutes of the national Diet summarization. The minutes have peculiar
traits. For example, honorifics appear frequently, Diet members use archaic idioms at a conference,
and the minutes is a transcription, thus it has speech traits. In this paper, we focus attention on tho-
se traits, and paraphrase or delete specific expressions. We paraphrased honorifics that appear fre-
quently in the minutes. Similarly, we presumed redundant parts using redundant expressions that
appear frequently and clue words, and then deleted those parts to summarize. As a result of app-
lying this process to about 20 years of the minutes including spontaneous speech, the summary rate
was about 80%.
Keywords: The minutes of the national Diet, summarization, paraphrasing, spoken Japanese.
1 はじめに
国会会議録<1>は、書き起こし文書の 1 つである。書き起
こしの文の状態では話し言葉の文体であり、冗長な表現が多
く含まれる等の理由から読みづらい。また、国会会議録は、
国会図書館で閲覧される以外に国会議員が自身のホームペー
ジで発言部分を公開するなど読まれる機会が多い。そこで
我々は、冗長な部分を換言・削除することによって国会会議
録を要約することを試みた。
従来、要約処理は新聞などの書き言葉を対象としたものが
†
長岡技術科学大学 電気系
Dept. of Electrical Engineering, Nagaoka University of Technology
http://nlp.nagaokaut.ac.jp/
多く、話し言葉の要約を行っている研究は少ない。その理由
の一つとして、話し言葉の言語資源が少ないことが挙げられ
る。また、話し言葉の研究では、講演の書き起こし、ニュー
ス原稿、音声認識結果、テレビ番組の書き起こしを対象とし
たものが多く、これらには、作成に時間が掛かる、量が少な
い等の問題がある。そこで我々は、簡単に入手可能で、大規
模なデータである国会会議録に着目した。
国会会議録は、完全な書き起こしではないが竹沢らが指摘
しているような話し言葉の特徴が多く含まれている[1]。
従って、国会会議録を話し言葉の言語資源の一つとして利用
する価値がある。
本研究では、まず、国会会議録の n-gram 統計を取り国会会
議録中に頻出する表現の分析を行った。この統計結果から冗
長であると人手で判断した表現を取り上げ、その表現が含ま
れる文に対して、換言・削除処理を行った。
国会会議録における文の特徴は、講演と同じ部分もある。
例えば、福島らが文献[2]で報告している要約筆記における
手法のうち、丁寧表現の簡略化、節レベルでの要約などは本
研究で対象とした表現と同じものである。つまり、本稿で提
案する手法は講演など国会会議録以外にも有効に働くものと
考えられる。
本研究では、Web ページでの閲覧以外に、リアルタイム音
声認識結果の処理による字幕の自動生成、要約筆記の自動化
等の用途に用いられることを想定し、情報の欠落が少ない報
知的要約を行った。
2 国会会議録
国会会議録は、第 1 回〜第 156 回(2003 年 9 月現在)までに
行われた本会議及び各委員会の会議録が Web 上で公開されて
いる。第 156 回(2003 年 5 月時点)までのテキストデータは衆
議院が約 4.1GB、参議院が約 2.9GB で合わせて約 7.0GB であ
る。会議録の例を付録に示す。
2.1 会議録の種類
国会会議録は、一般的に知られているような質疑応答形式
のものだけではなく、以下に示すようないくつかの種類があ
る。
1) 質疑応答型
質疑者の質問に対して指名された国務大臣又は参考
人が答弁をする形式のもの。(対話)
2) 所信表明型
国務大臣が交代し、始めて会議が開催されるときに
行われる国務大臣による演説。または、国会が開会さ
れ、最初の会議で国務大臣が行う演説。講演文の性質
に近い。(独話)
3) 趣旨説明型
案件の趣旨を述べたり、ある問題に対する政府の取
り組みについて説明を行うもの。(独話、朗読)
4) 承認型
委員会内の人事や案件等の承認を行うもの。委員長
からの承認要求に対して出席している委員が答える形
のもの。
5) 混合型
1)〜4)までに述べた各型が組み合わさっているも
の。
本研究では、1)、2)のように自由発話(朗読ではなく
自発的に行われる発話)が多く含まれている会議録を対象に
要約処理を行う。
2.2 国会会議録の特徴
国会会議録は、会議での発言の書き起こしであるが、完全
な書き起こしではなく、言い直しやフィラーなどはほとんど
削除されている。このような国会会議録の特徴を知るために
単語の n-gram をとり、調査を行った。調査対象は、第 141 回
〜第 144 回に行われた衆議院の会議録全て(約 78MB)である。
調査の際、空白、句読点以外の記号は除いた。単語の 1-gra
m、2-gram、3-gram の頻度上位 20 位までを表1に示す。
表1:頻度上位 20 位までの単語 n-gram(n=1,2,3)
n-gram の統計結果及び会議録の観察から以下に示すような
特徴が分った。
1) 丁寧表現
丁寧表現は、国会会議録で最も特徴的なものであ
る。2-gram の結果から分るように、丁寧表現である
『ます』が高い頻度で出現し、それに伴って『ござ
い』や『おる』等の謙遜表現が現れる。また、接頭辞
『御』なども頻繁に現れる(1-gram で 46 位)。
2) フィラー、感動詞が存在しない
話し言葉では頻繁に現れるフィラー、感動詞は国会
会議録にはほとんど存在しない。これは、書き起こす
際に削除されているものと思われる。したがって、国
会会議録を扱う際には、フィラー及び感動詞は考慮す
る必要がない。
3) 指示詞の多用
国会議員の発話は一文が長くなる傾向が見られる(例
2-1)。質疑応答は対話であるから、相手の発言を引用
する場合には同じことを繰り返さずに指示詞が用いら
れる。自身が行った説明を引用する場合にも指示詞を
用いる場合が多い。
例 2-1)
今説明があったように、建前としてそういうふうに
なっているとしても、なかなかその運用の場面でそ
ういうふうになっていないように私は伺っておりま
すので、どうぞ、そういう点で申立人が十分納得の
いけるような、特に、そういう審議をきちんとして
もらえたと言えるような、そういう運用をぜひ行っ
ていただくように、御指導のほどよろしくお願いし
たいと思います。
4)その他
国会会議録の第1回〜第 144 回までは、発行された
会議録を機械で読み取っているため誤字、脱字が見ら
れることがある<1>。また、古い会議録では、旧字が用
いられていたり、一部に現代とは異なる文法が用いら
れている。このため、本研究では取り扱わないことに
する。
3 関連研究
言語処理において国会会議録を取り扱った文献は見つける
ことができなかった。話し言葉の要約としては、講演音声又
は書き起こし、ニュース原稿がほとんどである[3]。我々
は、従来の要約対象のうち、国会会議録に近い講演音声の書
き起こしテキストに用いられている手法を参考にした。本研
究では冗長表現を不要個所として削除する幅田の研究[4](以
下、先行研究)を参考に国会会議録の要約を試みた。ここで
は講演音声の要約筆記データの分析結果からフィラー、言い
直し、繰り返し、挿入句、丁寧表現、「〜という+名詞」の
各表現を処理対象としている。
2.2 節で述べたように国会会議録中ではフィラーが存在し
ない。また、先行研究では、言い直し・繰り返し表現を削除
する部分で削除誤りが多いと報告されている。そこで本研究
ではフィラー、言い直し、繰り返し表現については取り扱わ
ないこととし、挿入句、丁寧表現、「という+名詞」の3点
についてそれぞれを拡張した形で実装し要約を試みた。
4 処理方法
処理規則の作成に当たっては、主に第 145 回予算委員会第
二分科会1号(242kB)を調査に用いた。本手法では、茶筌<2>
の出力結果を基に Perl を用いて処理を行う。また、要約シ
ステムとしては、以降で示す各処理を 1.挿入句表現、2.「と
思います」表現、3.丁寧表現、4.「という」表現の順に行な
う。次に処理規則を示す。ただし、名詞 N、サ変名詞 NV、動
詞 V、形容詞 A、助詞 P、助動詞 AUXV、 連体詞 AT、任意の語
w とする。また、削除規則の場合は、括弧[…]で削除する範
囲を示す。
4.1 「という(名詞)」
先行研究[4]で行われている処理を 1.1)〜1.6)に示す。
1.1) ~と[いうふうに]
1.2) V [という] N
1.3) A [という] N
1.4) ない(AUXV) [という] N
1.5) N1 [という N2]
1.6) P [という N]
我々はまず、以上の規則の検討を行った。その結果、「AU
XV という N」(1.4)、「P という N」(1.6)の削除規則は処理対
象が少なかったり、処理誤りが見られた。そこで、これらに
ついて新たに規則を追加する。
4.1.1 「(助動詞)という(名詞)」
処理は、「AUXV+ということ+P+w」で AUXV、P、w を参考に
して規則を作成する。調査の結果、後続する助詞 P には「ハ,
ガ,ヲ,ニ,ノ,モ,デ」があったが、「ノ,モ」の 2 つについて
は出現頻度が少なかったため処理対象に含めないこととした。
以下に処理規則を示す。
◎ ハ
1.7) AUXV と[いうこと]は V
1.8) AUXV ということは {AT,読点,形容動詞(茶筌におけ
る「名詞-形容動詞語幹」)}
→「AUXV のは{AT,読点,形容動詞}」に換言する
1.9) AUXV [ということは] 普通名詞(茶筌における「名
詞-一般」)
◎ ガ
1.10) AUXV と[いうことが] V
1.11) AUXV ということが N
→「AUXV のが N」に換言する
◎ ヲ
1.12) AUXV と[いうことを]〜
◎ ニ
1.13) 〜{た,ない}[という]ことに〜
1.14) 〜AUXV({た,ない}以外)+と[いうことに]〜
◎ デ
1.15) AUXV と[いうことで]+(AUXV 五段・ラ行以外)
※「AUXV 五段・ラ行」とは、茶筌の解析結果で得られる
助動詞の活用形であり、ここでは、「ござる」「あ
る」を主に対象としている。
4.1.2 「(助詞)という(名詞)」
処理は、「w1+P1+ということ+P2+w2」で助詞 P1,P2、及び、
前後の語 w1,w2 によって規則を分類し処理を行った。後続す
る助詞 P2 には「ハ,ガ,ヲ,ニ,デ」がある。以下に処理規則
を示す。
◎ ハ
1.16) 〜か[ということ]は〜
◎ ガ
1.17) 〜ないかと[いうことが]〜
1.18) 〜(ない以外)+か[ということ]が〜
※ 助詞の「か」に終助詞「な」が付属している
場合には終助詞「な」を削除しておく。
◎ ヲ
1.19) 〜のか[ということ]を〜
1.20) 〜(の以外)+かと[いうことを]{V,A}
1.21) 〜(の以外)+か[ということ]を+({V,A}以外)
1.22) 〜(か以外)+と[いうことを]〜
◎ ニ
1.23) 〜[ということ]に〜
◎ デ
1.24) 〜かと[いうことで]〜
1.25) 〜(か以外)+[ということで]+(AUXV 五段・ラ行以外)
1.26) 〜(か以外)+[ということ]で+(AUXV 五段・ラ行)
4.2 挿入句表現の削除
挿入句とは、文の途中にあって、その文の流れとは無関係
に挿入された表現である(例 4-1)。
例 4-1)
余り時間がありませんから細かく質問ができません
けれども、そういう文書あるいは報告というものは
つぶさに報告をしていただきたいと思うんです。
このような挿入句表現の候補として、「〜ように、」「〜
けれども、」「〜ますが、」「〜ですが、」「〜ましたが、」
「〜でしたが、」「〜とおり、」を取り上げた。調査の結果、
「〜でしたが、」については調査した会議録での出現頻度が
1 回程度と少ないため、処理の対象からはずした。さらに、
冗長と思われる表現を特定する手がかり語として「先ほど」
「これは」「指摘」「申す」「おっしゃる」を取り上げる。
手がかり語は挿入句表現の候補と組み合わせて処理する場合
もある。
挿入句表現では、読点で区切った範囲を処理単位とし、本
稿ではこれを「節」と呼ぶ。音声認識結果を処理する場合に
は読点が無いため、節を認定することが難しくなる。しかし、
音声認識結果に読点を付与する研究[5]や適当な節に分割す
る研究[6]が存在することから、本稿では節への分割が可能
という前提で処理を行う。以下に処理方法を示す。
◎ 「これは」で始まる場合
「これは」で始まっており、挿入句表現の候補で終わって
いる場合、その範囲を削除する。構文的な誤りを無くすため、
この節に「他方、」「一方、」「しかし、」「同時に、」が
後続する場合にはこれも削除する(例 4-2)。ここでの処理は、
複数の連続した節も対象とする。
例 4-2)
今回、これは検察審査会の議決ですから直接お答え
される立場にはないとは思いますけれども、しか
し、結果として、却下理由として、検察審査会法の
三十条の規定によって、…
◎ 「先ほど」で始まる場合
節において「先ほど」で始まり、「〜ように、」「〜けれ
ども、」「〜とおり、」「〜が(接続助詞)、」の各表現で終
わっている範囲を削除する(例 4-3)。
例 4-3)
先ほども申しましたように、政府が強い姿勢で、…
同じ節に挿入句表現の候補が無い場合、「先ほど」が含ま
れる節以降2つの節を調査し、挿入句表現の候補が含まれて
いれば、その範囲を削除する(例 4-4)。
例 4-4)
先ほど、オウム真理教問題について、山梨県清里の問
題に関連して Y 先生から質問があったと思いますが、
私も、長野県北御牧村の問題に関連をしまして、オウ
ム真理教の質問をさせていただきます。
※ 本稿では個人名をイニシャルで書く。
以下に示す「〜けれども、」「〜ように、」「〜ですが、」
「〜ますが、」「〜ましたが、」「〜とおり、」の各表現に
対する処理では、混乱を避けるため時系列を明確にしておく
必要があるのと、構文的な誤りをなくすため、次に示す 2 つ
の制約を満たすことが前提となる。
・節に年月日を含まない
・当該節の直後の節に指示詞が存在しない。
◎ 「〜けれども、」
「けれども、」が含まれる節の一つ前の節が「(名詞)、」
の形で終わっていた場合、並列節として「けれども、」の節
に含める。この処理は再帰的に行う。
・「けれども、」の直前の節が「であろうと、」「だ
ろうと、」「ならばと、」で終わっており、かつ、
「と」が並立助詞である場合は、「けれども、」の節
を削除しない。
・「けれども、」の直前の節が「から、」で終わって
いる場合は削除しない。
上の 2 つの制約を満たし、さらに、節が「けれども、」で
終わっていて指示詞が含まれていない場合は、その節を削除
する。また、「他方、」「一方、」「しかし、」「同時に、」
が後続する場合にはこれも削除する。
「〜けれども、」の節で、削除されなかった場合は、「け
れども」を「が」に換言する。
◎ 「〜ように、」
指示詞が含まれず「〜たように、」「〜のように」で終わ
る節を削除する。
◎ 「〜ですが、」
「〜ですが、」で終わる節を削除する。また、「他方、」
「一方、」「しかし、」「同時に、」が後続する場合にはこ
れも削除する。
◎ 「〜ますが、」
「〜(名詞)で…ますが、」「〜(動詞)て…ますが、」で終
わる節を削除する。「…」の部分には「あり」「いただき」
「ござい」「おり」「まいり」が入る。
◎ 「〜ましたが、」
「〜ましたが、」が含まれる節の一つ前の節が「(名詞)、」
の形で終わっていた場合、並列節として「〜ましたが、」の
節に含める。この処理は再帰的に行う。
その後、「〜ましたが、」で終わる節を削除する。
◎ 「〜とおり、」
節に指示詞が含まれず、「〜たとおり、」「〜のとおり、」
で終わる節を削除する。また、「〜{た,の}とおりに、」も
同様に削除する。
◎ 「指摘」
「指摘」を含む表現は、以上の挿入句表現の処理によって
削除されるものがほとんどであるが、ここでは、(例 4-5)に
示すような削除されずに残った節を削除する。
例 4-5)
確かに、委員御指摘のような、いろいろ、あのとき
の破防法の適用の問題、…
◎ 「申す」
下に示す「〜申し上げます。」を削除する。
・お答え申し上げます。
・御説明申し上げます。
また、(例 4-6)に示す挿入句表現で処理対象とならずに削
除されなかった節も、ここで削除する。
例 4-6)
円借款というものを、今申し上げたような、鋼材を
買ってそういうのを援助にするというふうな、…
◎ 「おっしゃる」
(例 4-7)のような挿入句表現で削除されなかったもの、及
び「おっしゃる」が含まれて、「〜ような、」で終わる節を
削除する。
例 4-7)
ちょっと見守っていきたいと思っていますが、委員
がおっしゃるように、日本として重大な関心を持っ
て、…
4.3 「と思います」
ここでは、「と思います」表現の処理について述べる。こ
こで対象とする表現は、(例 4-8)のようなものである。
例 4-8)
ぜひ急いで検討を進めてほしいと思います。
上の例では「と思います」の部分は削除可能である。「と
思います」の他にも「と思う」「と存じます」「と存じる」
についても同様に、処理対象として取り上げる。
「と思います」を例として次に処理規則を示す。
3.1) 〜{たい,ない,だろう}[と思います]
3.2) 〜 A [と思います]
3.3) 〜だ(AUXV)と思います
→助動詞「だ」の直前の品詞が名詞(非自立)以外の場
合「と思います」を削除する。但し、名詞(非自立)
が「ところ」「こと」「の」で、直前が「ない」で
ある場合は、「と思います」を削除する。
※ 名詞(非自立)とは、茶筌の解析結果であり、主に対
象としているものはほとんどが形式名詞である。
4.4 丁寧表現
処理は、「です」「ます」の表現を中心に行う。謙譲語・尊敬
語は通常の表現に言い換える必要がある。そこで、丁寧表現
の種類によって削除や換言を行った。
まず、接頭辞「お」「御」を削除する。その他の規則の一
部を 4.1)〜4.13)に示す。ここでは、全体で 35 の規則を作成
した。これらは、丁寧表現の中でも決まった形で現れる表現
であり、簡単な換言規則によって処理した。4.1)〜4.6)では、
前後の品詞を考慮した処理を行い、4.8)〜4.13)の規則は、
単純に換言した。また、4.1)〜4.13)において規則の最初に
「#」が付いている規則は、共通して以下の処理を行う。
(# 共通規則)
終助詞「よ」「ね」が付属する場合は終助詞も削除
4.1) V わけで{ござい,あり}まして → V が
4.2) N で{ござい,あり}まして → N で
4.3)# でございます P → です P
※「です」は更に言い換えるがここでは都合上
「です」にする。
4.4) で{ござい,あり}ます N → である N
4.5) AUXV わけです → AUXV(基本形)
4.6)# [わけです]
4.7) [わけで{ござい,あり}ます]
4.8)# でございます。 → です。
※「です」は更に言い換えるがここでは都合上
「です」にする。
4.9)# おります → いる
4.10) おりまして → おり
4.11)# 〜ておりませんでした → 〜てなかった
4.12)# ございませんでした → なかった
4.13)# 〜でございました → でした
以降では、一般的な「ます」「です」表現を削除、換言を
行う方法について示す。
この処理を行うに当たっては、謙遜表現や尊敬表現の特殊
な形式が現れた場合、通常の形式に言い換える。敬語の換言
を行う研究として Ohtake ら[7]の研究があるが、本稿では、
簡単な処理のみを行う。特殊な形式を言い換えるために、専
用の辞書を作成した(以降、辞書と呼ぶ)。辞書は活用に合わ
せて3種類、格助詞(連語)を言い換えるために1種類用意し
ており、動詞として 19 単語、格助詞(連語)として 31 単語登
録している。
特殊な形式の動詞には、複数の意味を持つもの(「いらっ
しゃる」等)が存在するが、本稿ではこれらの多義性を持っ
たものについては取り扱わないこととする。
◎ ます
「ます」の直前の形態素を動詞の基本形に直し、「ます」
を削除する。このとき動詞が辞書に登録されていれば換言を
行う。但し、例外処理として以下の処理を行う。
4.14) NV させていただく → NV する
4.15) V(自立)+させていただく → V(基本形)
4.16) NV 申し上げる → NV する
4.17) NV を申し上げる → NV する
4.18) 伺いいたす → 聞く
◎ まし
「まし」の表現には、「まして」及び「ました」があるが、
それぞれ共通の処理を行う。「まし」の直前の動詞が辞書に
登録されている場合は辞書によって換言を行い「まし」を削
除する。辞書に登録されていない動詞の場合は、動詞を活用
させる必要がある。そこで、益岡ら[8]の動詞の活用を参考
に活用規則を作成し処理を行った。
◎ ません
「ません」の直前の動詞が辞書に登録されている場合は、
辞書によって換言を行い「ません」を削除する。登録されて
いない場合は、動詞の活用処理を行う。活用の際、否定を表
すため「ない」を動詞の後ろに追加する。
◎ ましょう
「ましょう」を削除し直前の動詞を基本形にする。動詞が
辞書に登録されている場合は換言を行う。
◎ です
基本的な処理としては、「です」を「だ」に言い換える。
その他の例外処理の一部を以下に示す。ここでは、全体で 17
の規則を作成した。
4.19) 終助詞「よ」がつく場合には、これを削除する。
4.20) {V,A}[形式名詞ですね]
4.21) V[{の,もの,ところ}です]
4.22) AUXV+形式名詞+です → AUXV(基本形)
4.23) A[{の,もの,ところ,こと}です]
4.24) A[です]
4.25) AUXV ですよ → AUXV(基本形)
4.26) {V,AUXV}[でしょう]
4.27) 〜[でしょう]か
4.28) 〜でしょう → 〜だろう
4.29) 〜でした → 〜だった
4.30) 〜でして → 〜で
特殊な形式を持つ動詞への対応は「ます」の処理の中で行っ
てきた。しかし、単独で現れる場合もあるためこれらにも対
応しなければならない。そこで、「ます」の処理で用いた辞
書を使用し、換言を行った。但し、一部例外処理を行った。
例外処理規則を以下に示す。
4.32) NV させていただく → NV する
4.33) NV させていただき → NV し
4.34) NV をいたす → NV する
4.35) NV をいたし → NV し
4.36) NV いただいて → NV してもらって
4.37) NV 申し上げて → NV して
5 評価実験
4節で述べた規則を実装し、第 100 回から第 155 回(約 20
年分,約 1.08GB)を対象に処理を行った。本手法では、質疑応
答等の話し言葉が含まれる会議録を対象としている。質疑応
答型等の会議録は比較的大きなファイルサイズになるため、
ファイルサイズが 120KB を越える会議録を評価対象とした。
この制約によって、国会回次によっては評価対象となる会議
録が存在しない場合もある。
今回評価対象となった会議録数は 3960 である。図1に会
議録と要約率の関係を示す。要約率は次式によって求めた。
要約率=
要約処理後の文字数
原文文字数
×100 [%]
(5-1)
図1で、便宜上横軸をファイル番号としている。ファイル
番号が小さいほど古い会議録である。尚、最も低い要約率は
74.39%、最も高い要約率は 99.87%であった。
図1:各会議録の要約率
次に要約率の相対度数折れ線を図2に示す。
図2:要約率の相対度数
図に示すように要約率の平均 80.17%、標準偏差が 2.046 と
ばらつきの少ない結果が得られた。しかし、要約率の高い会
議録もいくつか見られた。その要因を述べる。ここでは、
85%以上の要約率となった会議録の全て(50)について調査を
行った。調査の結果を表2に示す。
表2:要約率 85%以上の会議録の分類
「本会議」では、朗読が多く自由な発話が少ない。従って、
自由発話で見られる挿入句表現が出現する割合が低いため、
要約率が高くなったと考える。「請願」は、会議録に請願の
一覧が書かれているものである。この請願の一覧が会議録の
半数以上を占めファイルサイズが 120KB を越えてしまい、本
来対象とならない会議録が処理されたために要約率が高くなっ
た。「公聴会」の要約率が高いのも「本会議」と同じである。
公述人の発話は朗読に近い。一方、質問者は自由発話である
から本手法が有効に働いた。つまり、公述人の発話が含まれ
た分、若干要約率が高い結果を示したと考える。「出席者多
数」「異動多数」は、会議録に書かれる出席者、異動が多い
ものである。従って、「請願」と同じであるが、出席者、異
動の一覧が会議録中で占める割合は「請願」に比べると少な
い。「その他」は、政策案やプロジェクト等の文の引用が多
く、これによって自由発話の割合が減少し、要約率が若干高
まったと考える。
以上の分析結果から、要約率が高くなる要因は、本手法の
対象外である朗読などが多く含まれているためであることを
確認した。
次に、発話者別に要約率を見たときにどの程度要約率に違
いがあるかを検討する。処理対象としたのは、図1の結果に
おいて要約率が 80.17%であった 9 会議録である。図3に、こ
のうち最も新しい会議録(第 145 回予算委員会 22 号)を示した。
図3:発言者別の発話文字数と要約率
図3を見ると、要約率 100%である発話者がいることが確
認できるが、その発話文字数は 10 文字程度である。その他
の発話者に関しては、約 70〜90%と若干ばらつきがあるもの
の極端な要約率はない。つまり、発話者による要約率の変化
はあまりないと言える。また、発話文字数と要約率の関連性
も低いことが分る。
次に各要約手法について評価する。対象としたのは、同様
に 9 会議録である。ここでは、各手法を単独で実行したとき
の削除率で評価する。削除率は次式によって求めた。
削除率 = 100−要約率
[%] (5-2)
図4に各要約手法別の削除率を示す。各手法別の削除率で
は、最小の削除率と最大の削除率の差が1〜2%程度でそれ
ほどバラツキが見られない。つまり、自由発話が含まれる会
議録を対象とした場合、各表現が偏りなく出現し、削除され
ていることが分る。それでも1〜2%程度揺れがあるのは、
発話者がある表現に偏った発言をするなど発話者の特徴に起
因するものであると考える。
本手法では 15〜25%程度の削除率を実現している。先行研
究[4]では、講演の書き起こしを対象として 15〜20%の削除率
と報告されており、本手法が若干上回っている。先行研究に
おいては、繰り返し表現に対する処理が削除率に大きく貢献
しているが、本手法ではそれを用いずに同程度の削除率を実
現した。また、三上ら[9]の研究では、ニュース原稿を対象
に字幕生成のための要約を行っており、修飾部及び冗長部の
削除を行っており、15〜33%程度の削除率と報告されている。
本稿を含めたこれら 3 件の結果から、話し言葉を対象とした
削除・換言による要約処理では、30%程度の削除率が限界と
推測する。
図4:各要約手法別の削除率
6 解析誤りの考察
処理に誤りがあったものについて何点か理由を検討する。
6.1「という」表現
第 155 回内閣委員会第2号(249KB)に対して本手法の要約
処理を行い、処理が行われた「という」表現の一部 232 件に
ついて正解か否かを人手で判定した。その結果、正解は 201
件で、精度は 86.6%であった。
例 6-1)に誤った削除を行った例を示す。括弧[]で囲まれた
範囲が処理によって削除された部分である。
例 6-1)
a) 山梨県の高根町に清里[というリゾート]地がある
b) 同級生相場[という調査]を始めている
c) この実験炉からさらに次の実証炉[という段階]を踏
むとしても
d) 適用するのだぞ[という姿勢]を常に示し続けること
e) 不公平の原点ではないか[ということ]になると、
f) 一般消費税(仮称)の手法によらずと[いうこと]が
書いている
g) 日本から金も人も物も出せ[という]形で、自衛隊を
出せ[という]要求が非常に強かった。
「という」の処理では、「〜という N」の名詞の部分が形
式名詞である場合には比較的良好な結果が得られた。しかし、
a)〜c)に示すように「N1 という N2」表現で N2 が形式名詞以
外の普通名詞等の場合には一部処理誤りが見られた。a)は、
N2 が複合名詞の場合である。a)以外にも『◯◯検討会[とい
う検討]会』などもある。従って、これらの複合名詞を処理
する際には、名詞の接尾を考慮した処理を行うことで改善さ
れる。基本的に「N1 という N2」表現で N2 の果たす役割は N1
を強調することにあるから、具体的な名詞が N2 の部分にく
ることはない。つまり、N2 には、形式名詞、N1 の意味を表
す名詞、接尾辞などが来ると考えられるため、先に示したよ
うな複合名詞の処理で十分対応が可能であると考える。
b)、c)では少し状況が異なる。これらは「N1≠N2」であり、
「という N2」を削除出来ない。これらを処理する場合 N1 と
N2 の関連性を判断する必要性がある。
d)、e)のように「という」の直前が終助詞の場合の処理は、
処理誤りが多く見られた。しかし、『適正なのはどのくらい
か[ということ]は、』のように問題のない処理もあることか
ら、この処理についてはもう少し調査する必要がある。
f)は、本研究で新たに規則を追加した「AUXV ということ」
表現の処理の誤りである。本稿では、1 つの会議録(145 回予
算委員会第二分科会2号)を基に規則を作成したため、規則
の不足があった。よって調査する会議録を増やし、対応する
必要がある。
g)は「V という N」表現の解析誤りである。この処理誤りは、
連体節を考慮していないために起こった。連体節の中でも内
容節に「という」が現れ、内容節を伴う名詞には規則性があ
る。従って、これらの名詞を挙げておくことで対処できると
考える。
6.2 丁寧表現
接頭辞「お」「御」を削除する処理を行ったが、単純に削
除を行うだけでは不十分である。「御」は漢語に付き削除で
きるが(例 6-2a)、和語に付く「お」を削除する場合(例 6-2
b)には単純に取れず、換言を行う必要がある。
例 6-2)
a)対象にしたいという趣旨の[御]答弁がありました。
b)大臣はどういうふうに[お]考えになられますか。
b)の「お」を削除しようとした場合には、例えば次のよう
な文にすべきである。
b')大臣はどういうふうに考えるか。
また、和語に付く接頭辞「お」は、その他の丁寧表現
(「ます」等)と共に現れることが多く、「お」を削除すると
きの誤りがその他の丁寧表現を処理する際の誤りの原因にも
なるため、Ohtake ら[7]、大野ら[10]等と同様の検討が必要
である。
謙遜表現、尊敬表現などの敬語表現の特殊な形式への対応
として辞書を作成したが、一般的に良く使われる単語のみを
登録しているため、会議録での対応が不十分である。したがっ
て、特殊な敬語表現を自動で収集するなどして辞書を拡張し
対処する必要がある。同時に、多義性を持つものが現れる頻
度も少なくないため意味同定が必要である。
6.3 挿入句表現
第 155 回内閣委員会第2号(249KB)に対して本手法の要約処
理を行い、処理が行われた挿入句表現の一部 200 件について
正解か否かを人手で判定した。その結果、正解は 160 件で、
精度は 80.0%であった。
本稿では、文を読点区切りしたものを「節」として挿入句
表現の処理単位とした。処理に関しては、基本的に規則に照
合した節を単独で削除している。このような処理を行った場
合、構文的な誤りがあることが確認された。本手法では、挿
入句の後ろの節に指示詞が含まれていない場合削除するといっ
た処理を行って構文的な誤りを防ぐようにしたが、不十分で
あった。したがって、接続助詞、並立助詞等も考慮した対応
をしなければならない。また、直後の節の指示詞が必ず直前
の節を指すわけではなく、直後の節に指示詞が存在する場合
でも挿入句を削除できる場合がある。正しい照応解析が可能
であれば、更なる削除が望める。
さらに、(例 6-3a)下線部に示すように挿入句表現は必ずし
も読点を区切った単位とはならない。
例 6-3)
a)先ほど申しましたように概念が成立する…
b)今後も一日も早くこの委員会が再開されまして、
史跡の保護と地元住民の調整が十分つくように最
大の努力をしたいというふうに思っております。
a)のように読点が含まれない場合は挿入句の範囲を決定す
るのが難しくなる。これに関しては、一部処理を行っている
が、やはり誤りが見られる。また、(例 6-3b)のように挿入句
表現の手がかり語が付いても削除出来ない場合もある。この
場合は、直前の節などとの関連性を考慮して処理しなければ
ならない。
7 おわりに
話し言葉の一つとして国会会議録を取り上げ、要約を行っ
た。国会会議録は、話し言葉の要素を含んでおり、話し言葉
の言語資源の一つとして利用価値がある。
本稿では、国会会議録の特徴である丁寧表現、話し言葉で
見られる「という」表現、挿入句表現を冗長表現としてとら
え、先行研究の規則を拡張し、換言・削除を行うことによっ
て報知的要約を行った。約 20 年分の会議録に対して実験を
行った結果、要約率の平均 80.17%、標準偏差 2.046 とバラツ
キの少ない要約結果が得られた。一方で、要約文ではいくつ
かの解析誤りや構文的な不整合が見られた。
本稿で扱わなかった表現に「副詞」「並列表現」がある。
「副詞」では、「ちょっと」のような話し言葉でよく現れる
ものがあり、これらは、冗長なものと判断できるので、削除
してもよいだろう。「並列表現」では、以下のような文があ
る。
例 7-1)
あのときの破防法の適用の問題、公安審査委員会
の決定に対する批判等は随分報道でも拝見をした。
国会会議録では、このような並列表現がよく現れる。並列表
現については、黒橋ら[11]等によって既に検討がされている。
要約の研究においても、三上ら[9]が、例示を示す表現を含
む文節を冗長部として削除処理を行っている。しかし、[9]
では対象としている例示表現が少ないため、表現を追加して
実装する必要がある。これらの表現に対処する事によって最
良で 70 %程度の要約率が実現できると考える。
使用した言語資源とツール
<1> 国会会議録検索システム,国立国会図書館,http://kokkai.ndl.
go.jp/
<2> 形態素解析器「茶筌」Ver.2.3.0,奈良先端科学技術大学院大学松
本研究室,http://chasen.aist-nara.ac.jp/
参 考 文 献
[1] 竹沢寿幸,田代敏久,森元逞,“音声言語データベースを用いた自然
発話の言語現象の調査”,人工知能学会研究会資料,SIG-SLUD-9403
-3, pp.13-20,1994.
[2] 福島孝博,江原暉将,“リアルタイム要約としての要約筆記におけ
る要約の手法”,第 7 回言語処理学会年次大会,pp.293-296,2001.
[3] 奥村学,難波英嗣,“テキスト自動要約に関する最近の話題”,自然
言語処理,9(4),pp.97-116,2002.
[4] 幅田隆,“不要個所の削除と言い替えによる講演音声の要約”,北
陸先端科学技術大学院大学修士論文,http://www.jaist.ac.jp
/library/thesis/is-master-2001/paper/thabata/paper.pdf,
2001.
[5] 遠山陽介,永田守男,“音声認識支援システムにおける句読点挿入
方法の提案”,電子情報通信学会技術研究報告,NLC0005-4,pp.25-
32,2000.
[6] 丸山岳彦,柏岡秀紀,熊野正,田中英輝,“節境界自動検出ルールの
作成と評価”,第 9 回言語処理学会年次大会,pp.517-520,2003.
[7] Kiyonori Ohtake, Kazuhide Yamamoto : Paraphrasing Honorif-
ics, Automatic Paraphrasing : Theories and Applications
(NLPRS2001 PostConference Workshop),pp.13-20,2001.
[8] 益岡隆志,田窪行則,“基礎日本語文法―改訂版―”,くろしお出
版,1992.
[9] 三上真,増山繁,中川聖一,“ニュース番組における字幕生成のた
めの文内短縮による要約”,自然言語処理,6(6),pp.65-81,1999.
[10] 大野満,横山晶一,西原典孝,“日本語敬語表現の変換・解析シス
テム”,第 9 回言語処理学会年次大会,pp.218-221,2003.
[11] 黒橋禎夫,長尾眞,“並列構造の検出に基づく長い日本語文の構文
解析”,自然言語処理,1(1),pp.35-57,1994.
付 録
本手法による要約結果を以下に示す。
処理対象の会議録は第 155 回内閣委員会第2号(249KB)である。全体
の要約率は 80.8%である。付録ではこの会議録中のある1回の質疑と
それに対する答弁を示す。以下の掲載部分の要約率は73.0%(295 文字/
404 文字)である。
-原文-
○Y 委員
大臣自身のお考えをお伺いしたいわけです。例えば自己資本の質が
悪いというような意見についてはどうですか。そのように思いますか。
いや、大丈夫だ、問題はないということですか。
○T 国務大臣
金融担当大臣に就任してからいろいろな御指摘もいただきましたけ
れども、金融の規制監督当局というのは、やはり、自分自身の考えを
申し上げて、それで後から制度を決めるというようなものであっては
いけないというふうに思っております。
さまざまな意見を聞きながら、こういう形でやるという当局として
の行動を決めてから、どうしてそのような考え方を持つに至ったかと
いうことをお話しする。 イングランド銀行の言葉で、行動すれども
弁明せずという言葉があるというふうに教えてくれた先輩がおります
けれども、そういうような形で、今、とにかく、急いで新しい規制監
督の方針を発表して、その上で粛々と行政を進めたいというふうに思っ
ているところでございます。
-要約文-
○Y 委員
大臣自身の考えを伺いしたい。例えば自己資本の質が悪い意見につ
いてはどうか。そのように思うか。いや、大丈夫だ、問題はないこと
か。
○T 国務大臣
金融の規制監督当局は、自分自身の考えを述べて、それで後から制
度を決めるものであってはいけないと思っている。
さまざまな意見を聞きながら、こういう形でやる当局としての行動
を決めてから、どうしてそのような考え方を持つに至ったかをお話し
する。
イングランド銀行の言葉で、行動すれども弁明せずという言葉があ
ると教えてくれた先輩がいるが、そういうような形で、今、とにかく、
急いで新しい規制監督の方針を発表して、その上で粛々と行政を進め
たいと思っている。