Conference PaperPDF Available

特徴的冗長表現に着目した国会会議録要約

Authors:

Abstract

安達 康昭, 山本 和英. 特徴的冗長表現に着目した国会会議録要約. 情報処理学会 研究報告, NL157-15 / FI72-15, pp.107-114 (2003.9)
特徴的冗長表現に着目した国会会議録要約
安達 康昭
山本 和英
E-mail:{adachi,ykaz}@nlp.nagaokaut.ac.jp
あらまし 国会会議録の要約手法を提案する。国会会議録には、丁寧表現の頻出や独特な言い回し等の
特徴がある。また、会議における発言の書き起こしであるため、話し言葉の特徴も見られる。本稿
は、この様な特徴的な表現に着目し、それらを換言・削除することで要約を試みた。まず、単語 n-gr
am の統計結果から得られた頻出する丁寧表現を普通体の表現に言い換えることを行った。次に、手が
かり語を用いて頻出する冗長な表現や挿入句を推定し削除することによって要約を試みた。これら
処理を約 20 年分の会議録に対して行った結果、自由発話が含まれる会議録では 80%程度の要約率が得
られた。
キーワード:国会会議録、要約、換言、話し言
The Minutes of the National Diet Summarization
based on Redundancy Reduction
Yasuaki ADACHI and Kazuhide YAMAMOTO
E-mail:{adachi,ykaz}@nlp.nagaokaut.ac.jp
Abstract We present the minutes of the national Diet summarization. The minutes have peculiar
traits. For example, honorifics appear frequently, Diet members use archaic idioms at a conference,
and the minutes is a transcription, thus it has speech traits. In this paper, we focus attention on tho-
se traits, and paraphrase or delete specific expressions. We paraphrased honorifics that appear fre-
quently in the minutes. Similarly, we presumed redundant parts using redundant expressions that
appear frequently and clue words, and then deleted those parts to summarize. As a result of app-
lying this process to about 20 years of the minutes including spontaneous speech, the summary rate
was about 80%.
Keywords: The minutes of the national Diet, summarization, paraphrasing, spoken Japanese.
1 はじめに
国会会議録<1>は、書き起こし文書の 1 つである。書き起
こしの文の状態では話し言葉の文体であり、冗長な表現が多
く含まれる等の理由から読みづらい。また、国会会議録は、
国会図書館で閲覧される以外に国会議員が自身のホームペー
ジで発言部分を公開するなど読まれる機会が多い。そこで
我々は、冗長な部分を換言・削除することによって国会会議
録を要約することを試みた。
従来、要約処理は新聞などの書き言葉を対象としたもの
長岡技術科学大学 電気系
Dept. of Electrical Engineering, Nagaoka University of Technology
http://nlp.nagaokaut.ac.jp/
多く、話し言葉の要約を行っている研究は少ない。その理由
の一つとして、話し言葉の言語資源が少ないことが挙げられ
る。また、話し言葉の研究では、講演の書き起こし、ニュー
ス原稿、音声認識結果、テレビ番組の書き起こしを対象とし
たものが多く、これらには、作成に時間が掛かる、量が少な
い等の問題がある。そこで我々は、簡単に入手可能で、大規
模なデータである国会会議録に着目した。
国会会議録は、完全な書き起こしではないが竹沢らが指
しているような話し言葉の特徴が多く含まれている[1]。
従って、国会会議録を話し言葉の言語資源の一つとして利用
する価値がある。
本研究では、まず、国会会議録の n-gram 統計を取り国会会
議録中に頻出する表現の分析を行った。この統計結果から冗
長であると人手で判断した表現を取り上げ、その表現が含ま
れる文に対して、換言・削除処理を行った
国会会議録における文の特徴は、講演と同じ部分もある
例えば、福島らが文献[2]で報告している要約筆記における
手法のうち、丁寧表現の簡略化、節レベルでの要約などは本
研究で対象とした表現と同じものである。つまり、本稿で提
案する手法は講演など国会会議録以外にも有効に働くものと
考えられる。
本研究では、Web ページでの閲覧以外に、リアルタイム音
声認識結果の処理による字動生成、要約筆記の
等の用に用いられることを定し、欠落が少ない報
的要約を行った。
2 国会会議録
国会会議録は、 1 〜第 156 (2003 9 在)までに
れた本会議及び各委員会の会議録が Web 上で公開されて
いる。 156 (2003 5 )までのテデータは
が約 4.1GBが約 2.9GB 合わせて約 7.0GB であ
る。会議録の例を録にす。
2.1 会議録の種類
国会会議録は、一られているような質疑応答形
のものけではなく、以すようないくつかのがあ
る。
1) 質疑応答型
質疑者問に対してされた臣又
人が答弁をする形式のもの。(対話)
2) 所信明型
交代し、めて会議がされるときに
れる国よる演または、国会が開会さ
れ、最初の会議で国が行う演。講演文の性質
い。(独話)
3) 趣旨説明型
趣旨述べたり、ある問題に対するの取
り組みについて説明を行うもの(独話、)
4)
員会の人や案等の認を行うもの。員長
からの認要に対して出ているえる
のもの。
5) 混合型
1)〜4)までに述べ各型組み合わっているも
の。
本研究では、1)のように自由発話(朗読ではなく
自発的に行れる発)が多く含まれている会議録を対象に
要約処理を行う。
2.2 国会会議録の特徴
国会会議録は、会議での発言の書き起こしであるが、完全
な書き起こしではなく、言いしやフィラーなどは
削除されている。このような国会会議録の特徴をために
単語の n-gram をとり、調査を行った。調査象は、 141
〜第 144 回に行れた会議録全て( 78MB)である。
調査空白、句以外のは除いた。単語の 1-gra
m、2-gram3-gram の頻度上 20 までを表す。
:頻度上 20 までの単語 n-gram(n=1,2,3)
n-gram の統計結果及び会議録の観察から以すような
特徴が分った。
1) 丁寧表現
丁寧表現は、国会会議録でも特徴的なものであ
る。2-gram の結果から分るように、丁寧表現である
ますい頻度で出現し、それにって『ござ
おる等の謙遜表現が現れる。また接頭辞
『御』なども頻現れる(1-gram 46 位)
2) フィラー、感動詞存在しない
話し言葉では頻に現れフィラ感動詞国会
会議録には存在しない。これは、書き起こす
に削除されているものと思われる。したがって、国
会会議録をは、フィラ及び感動は考
要がない。
3)示詞の多用
国会議員の発話は一文が長くなるが見られ(
2-1)質疑応答対話であるから、の発言を
する場合には同じことをさずに指が用いら
れる。自身が行った説明する場合も指示詞
用いる場合が多い。
2-1)
今説明があったように、建前してそういう
なっているとしても、なかなかその用の場面
ういううになっていないようにっておりま
すので、どうそういう申立
いけるような、特に、そういう議をきちとし
もらえたと言えるような、そういう用をぜひ
ていたくように、どよしくいし
たいといます。
4)その
国会会議録の第1〜第 144 回までは、発行された
会議録を機で読み取っているため字、字が見ら
れることがある<1>。また、会議録では字が用
いられていたり、一部に現なる文法が用いら
れている。このため、本研究では取り扱わないことに
する。
3 関連研究
言語処理において国会会議録を取った文献は見つけ
ことができなかった。話し言葉の要約としては、講演音声
は書き起こし、ニュース原稿がどである[3]。我々
は、従来の要約対象のうち、国会会議録にい講演音声の書
き起こしテ用いられている手法を考にした。本研
究では冗長表現を個所として削除する幅田の研究[4](
行研究)考に国会会議録の要約を試みた。ここで
は講演音声の要約筆記データの分析結果かフィラ、言い
し、し、挿入句、丁寧表現、「〜という+名詞」
表現を処理対象としている。
2.2 節で述べたように国会会議録中ではフィーが存在
ない。また、行研究では、言し・し表現を削除
する部分で削除が多いと報告されている。そこで本研究
ではフィラー、言いし、し表現については取扱わ
ないこととし、挿入句、丁寧表現、とい+名詞」3点
についてそれれを拡張した実装し要約を試みた
4 処理方法
処理規の作成にっては、 145 予算委員会
分科会1号(242kB)調査に用いた。本手法では、茶筌<2>
の出結果を Perl を用いて処理を行う。また、要約
ステムとしては、以処理を 1.挿入句表現、2.「
います表現、3.丁寧表現、4.「という表現のに行
う。次に処理規す。たし、名詞 Nサ変名詞 NV
V形容詞 A助詞 P助動詞 AUXV AT任意の語
w とする。また、削除規場合は、括弧[]で削除する
す。
4.1 「という(名詞)」
行研究[4]で行れている処理を 1.1)1.6)す。
1.1) と[いううに]
1.2) V [という] N
1.3) A [という] N
1.4) ない(AUXV) [という] N
1.5) N1 [という N2]
1.6) P [という N]
我々はまず、以上の検討を行った。その結果、「AU
XV という N」(1.4)「P という N」(1.6)の削除規は処理対
象が少なかったり、処理りが見られた。そこで、これらに
ついて新たに規追加する。
4.1.1 「(助動詞)という(名詞)」
 処理は、AUXV+ということ+P+w」 AUXVPw 考に
して規を作成する調査の結果、後続助詞 P には「ハ,
ガ,ヲ,,ノ,モ,があったが、ノ,モ」 2 つについて
は出現頻度が少なかったため処理対象に含めないこととした。
に処理規す。
1.7) AUXV と[いうこと]は V
1.8) AUXV ということは {AT,点,形容動詞(茶筌におけ
「名詞-形容動詞幹」)}
→「AUXV のは{AT,点,形容動詞}」に換言する
1.9) AUXV [ということは] 普通名詞(茶筌における「名
-一般」)
1.10) AUXV と[いうことが] V
1.11) AUXV ということが N
「AUXV のが N」に換言する
1.12) AUXV と[いうことを]
1.13) 〜{,ない}[という]ことに
1.14) 〜AUXV({,ない}以外)+と[いうことに]
1.15) AUXV と[いうことで]+(AUXV 五段以外)
※「AUXV 五段とは、茶筌結果で得られる
助動詞であり、ここでは「ござ」「
に対象としている。
4.1.2 「(助詞)という(名詞)」
処理は、「w1+P1+ということ+P2+w2助詞 P1,P2、及び
前後の語 w1,w2 によって規を分処理を行った。後続
助詞 P2 には「ハ,ガ,ヲ,,がある。以処理規
す。
1.16) か[ということ]は
1.17) ないかと[いうことが]
1.18) 〜(ない以外)+か[ということ]が
助詞終助詞している
場合には終助詞「を削除しておく。
1.19) のか[ということ]を
1.20) 〜(の以外)+かと[いうことを]{V,A}
1.21) 〜(の以外)+か[ということ]を+({V,A}以外)
1.22) 〜(か以外)+と[いうことを]
1.23) [ということ]に
1.24) かと[いうことで]
1.25) 〜(か以外)+[ということで]+(AUXV 五段行以)
1.26) 〜(か以外)+[ということ]で+(AUXV 五段)
4.2 挿入句表現の削除
挿入句とは、文のにあって、その文のれとは無関
に挿入された表現である( 4-1)
4-1)
り時間がありまから問ができません
けれども、そういう文書あるいは報告というものは
さに報告をしていたきたいとです。
このような挿入句表現候補として、「〜うに、」「
けれども、」「〜すが、」「ですが、」「〜ましたが、
「〜でしたが、」「とおり、を取り上げた。調査結果、
「〜でしたが、ついては調した会議録での出現頻度が
1 回程度と少ないため、処理の対象からはずした。さらに
冗長と思われる表現を特定する手がかり語として「先
これは」「指摘「申」「おっしを取り上げる。
手がかり語は挿入句表現の候補と組み合わて処理す場合
もある。
挿入句表現では、読区切った範囲を処理とし、
稿ではこれを呼ぶ。音声認識結果を処理する場合
は読いため、節を認定することがしくなる。しかし、
音声認識結果に読付与する研究[5]や適当な節に分
る研究[6]が存在することから、本稿では節の分可能
という提で処理を行う。以に処理す。
これはまる場合
これはまっており、挿入句表現の終わ
いる場合、その範囲を削除する文的なりをすため、
この節に「他方しかし、」「同時に
後続する場合にはこれも削除す( 4-2)。ここでの処理は、
複数連続した節も対象とする
4-2)
回、これは検察審会の議ですから
される立場にはないとはいますけれども、しか
し、結果として、理由として、検察審査会法の
の規定によって、
「先ほまる場合
節において「先ほまり、「〜ように」「〜
ども、」「〜とおり」「〜(接続助詞)現で
っている範囲を削除する( 4-3)
4-3)
先ほどもしましたように、政府姿勢で、
同じ節に挿入句表現の候補場合「先が含
れる節以降2つの節調査し、挿入句表現候補が含まれて
いれば、その範囲削除する( 4-4)
4-4)
先ほど、オウ問題について、山県清里の問
題に関連して Y 先生から問があったいますが、
も、長野県北牧村の問題に関連をしまして、オウ
問をていたきます。
本稿ではをイニルで書く
「〜けれども、」「〜ように、「〜ですが
「〜ますが、」「〜ましたが、」「〜とおり、表現に
対する処理では、けるため時系にしておく
要があるのと、文的なをなくすため、次に 2
約をたすこと提となる。
・節に年を含まない
節の直後の節に指示詞存在しない。
「〜けれども、
けれども、が含まれる節の一の節が「(名詞)
終わっていた場合並列節としてけれども、の節
に含める。この処理再帰的に行う。
けれども、直前の節がであと、」「だ
うと、」「ならばと終わっており、かつ、
立助詞であ場合は、けれどもの節
を削除しない。
けれども、直前の節がから、終わって
いる場合は削除しない
上の 2 つの約をたし、さらに、節がけれども、
終わっていて指示詞が含まれていない場合は、その節を削除
する。また、「他方」「」「しかし、」「時に、
後続する場合にはこれも削除する。
「〜けれども、の節で、削除されなかった場合は、
れども換言する。
「〜ように、
示詞が含まれず「〜たように、」「〜のように
る節を削除する。
「〜ですが、
「〜ですが、終わる節を削除する。また「他方
」「しかし」「同時に、する場合にはこ
れも削除する。
「〜ますが、
「〜(名詞)ますが、」「〜(動詞)ますが
る節を削除する。「…」の部分にありいた
「ござ」「おりまいりが入る。
「〜ましたが、
「〜ましたが、が含まれる節の一つの節「(名詞)
終わっていた場合並列節としてましたが
節に含める。この処理は再帰に行う。
その「〜ましたが終わる節を削除する。
「〜とおり、
節に指示詞が含まれず「〜たとおり、」「のとおり
終わる節を削除する。また、「〜{,}とおりに、
同様に削除する。
指摘
指摘を含表現は、以上の挿入句表現の処理によっ
削除されるものがどであるが、ここでは、( 4-5)
すような削除されずにった節を削除する。
4-5)
かに、指摘のような、いあのとき
破防法の用の問題、
「申
「〜申し上げます。削除する。
・おし上げます。
御説明申し上げます。
また、( 4-6)す挿入句表現で処理対象とならずに削
除されなかった節も、ここで削除する。
4-6)
円借款というものを今申し上げたような、鋼材
ってそういうのをにするというな、
おっし
( 4-7)のような挿入句表現で削除されなかったもの
び「おっし含まれて、「〜ような終わる節を
削除する。
4-7)
っと見っていきたいとっていますが、
がおっしるように本として大な
て、
4.3 「と思います」
ここでは、いま表現の処理につい述べる。
こで対象とする表現は、( 4-8)のようなものである。
4-8
ぜひいで検討めてしいいます。
上の例ではいまの部分は削除可能である。
いますにもじま」「じる
についても同様に、処理対象として取り上げる。
いますを例として次に処理規す。
3.1) 〜{たい,ない,だろ}[といます]
3.2) A [います]
3.3) 〜だ(AUXV)います
助動詞「だ」直前詞(立)以外の
合「います削除する。し、名詞(立)
ところ」「こと」「直前ない
ある場合は、います削除する。
名詞(立)とは、茶筌結果であり、に対
象としているものはどが式名詞である。
4.4 丁寧表現
 処理は、ですますの表現を中に行う。尊敬
語は通の表現に言い換える要がある。そこで、丁寧表現
種類によって削除や換言を行った。
まず、接頭辞「」「御」を削除する。そのの規
部を 4.1)〜4.13)す。ここでは、全体で 35 の規を作成
した。これらは、丁寧表現の中でもまっで現れる表現
であり、簡単な換言によって処理した4.1)〜4.6)では、
前後を考た処理を行い、4.8)〜4.13)の規は、
に換言した。また、4.1)〜4.13)において規最初
#いている規は、通して以の処理を行う。
(# 通規則)
終助詞「」「付属する終助詞も削除
4.1) V けで{ござ,あり}まして V
4.2) N {ござ,あり}まして N
4.3)# ございます P です P
※「ですに言い換えるがここでは
ですにする。
4.4){ござ,あり}ます N である N
4.5) AUXV けです AUXV(基形)
4.6)# [けです]
4.7) [けで{ござ,あり}ます]
4.8)#ございます。 です。
※「ですに言い換えるがここでは
ですにする。
4.9)# おります いる
4.10) おりまして おり
4.11)# ておりませんでした てなかった
4.12)# ございませんでした なかった
4.13)# ございました でした
では、一的なます」「表現を削除、換言
行う法についてす。
この処理を行うにっては、表現や表現の特
形式が現れた場合、通に言い換える。の換言
を行う研究として Ohtake ら[7]の研究があるが、本稿では、
簡単な処理のみを行う。特形式を言い換えるために、
用の書を作成した(書と呼ぶ)書は合わ
3種類助詞(連)を言い換えるために種類
ており、動詞として 19 単語、詞(連)として 31 単語
録している。
形式動詞には複数つも(「いらっ
)存在するが、本稿ではこれらの多
たものについては取扱わないこととする
ます
ます直前動詞し、ます
を削除する。このと動詞書に録されていれば換言を
行う。し、例外処理として以の処理を行う。
4.14) NV ていた NV する
4.15) V(立)+ていた V(形)
4.16) NV し上げる NV する
4.17) NV し上げる NV する
4.18) いいたす 聞く
まし
ましの表現には、まして及び「ましがある
それ通の処理を行う。まし動詞書に
録されている場合書によって換言を行いましを削
除する。書にされていな動詞は、動詞
要がある。そこで、岡ら[8]の動詞用を
用規を作成し処理を行った。
せん
せん」直前書に録されている場合
書によって換言を行いん」を削除する。されて
いない場合は、動詞用処理を行う。用の定を表
すためない後ろ追加する。
まし
ましを削除し直前動詞する。動詞
書に録されてい場合は換言を行う。
です
本的な処理としてはです「だ」言い換える
そのの例外処理の一部を以す。ここでは、全体で 17
の規を作成した。
4.19) 終助詞「がつくには、これを削除する。
4.20) {V,A}[形式名詞です]
4.21) V[{,もの,ところ}です]
4.22) AUXV+形式名詞+です AUXV(基形)
4.23) A[{,もの,ところ,こと}です]
4.24) A[です]
4.25) AUXV ですよ AUXV(基形)
4.26) {V,AUXV}[でしう]
4.27) [でしう]か
4.28) でし だろ
4.29) でした 〜だった
4.30) でして
形式動詞の対ます処理の中で
てきた。しかし、単独で現れる場合もあるためこれらにも対
しなければならない。そこでますの処理で用いた
書を使用し、換言を行った。し、一部例外処理を行った。
例外処理規を以す。
4.32) NV ていた NV する
4.33) NV ていた NV
4.34) NV をいたす NV する
4.35) NV をいたし NV
4.36) NV いたいて NV してもらって
4.37) NV し上げて NV して
5 評価実験
節で述べた規し、 100 回から 155 ( 20
年分, 1.08GB)を対象に処理を行った。本手法では、疑応
等の話し言葉が含まれる会議録を対象としている。質疑応
答型等の会議録は的大きなイルになるため、
イル 120KB える会議録を価対象とした。
この約によって、国会回次によっては価対象となる会議
録が存在しない場合もある。
価対象となった会議録 3960 である。図に会
議録と要約率の関係す。要約率は次によってめた。
要約
要約処文字
原文文
×100 []
(5-1)
で、便宜横軸イル番としている。
さいい会議録である。い要約率は
74.39%、い要約率は 99.87%であった。
会議録の要約率
次に要約率の対度を図す。
:要約率の
図にすように要約率平均 80.17%、標準偏差 2.046
ばらつきの少ない結果が得られた。しかし、要約率のい会
議録もいくつか見られた。その述べる。ここでは、
85以上の要約率となった会議録の全て(50)について調査
行った。調査の結果を表す。
:要約率 85以上の会議録の分
本会議では、が多く自由な発話が少ない。従っ
自由発話で見られる挿入句表現が出現する割合ため、
要約率がくなったと考える。願」、会議録に
一覧が書かれているものである。このの一覧が会議録の
以上をイル 120KB えてしまい、本
来対象とならない会議録が処理されたために要約率がくなっ
た。の要約率がのも本会と同じである。
人の発話はい。一は自由発話である
から本手法が有効に働いた。つまり、公人の発話が含まれ
た分、若干要約率がい結果をしたと考える。席者
数」「異動数」、会議録に書かれる出席者異動が多い
ものである。従って願」と同じであるが、出
の一覧が会議録中めると少な
い。その他」は、案やェク等の文の用が多
く、これによって自由発話の少し、要約率が若干
まったと考える。
以上の分析結果から、要約率がくなる要は、本手法
対象外である読などが多く含まれているためであることを
認した。
次に、発話に要約率を見たときにどの程度要約率に
いがあるかを検討る。処理対象としたのは、図結果に
おいて要約率が 80.17%であった 9 会議録である。図に、
のうちも新しい会議録(第 145 予算委員会 22 号)した。
:発言の発話文字と要約率
を見ると、要約率 100である発話がいることが
認できるが、その発話文字 10 文字程度である。その
の発話しては、約 70〜90%と若干ばらつきがあるも
極端な要約率はない。つまり、発話よる要約率
はあまりないと言える。また、発話文字と要約率の関連性
いことが分る。
次に要約手法につい価する。対象としたのは、同
9 会議録である。ここでは、手法を単独でしたとき
の削除率で価する。削除率はによっめた。
除率 100
[%] (5-2)
要約手法削除率をす。手法の削除率
は、の削除率と大の削除率の〜2程度でそれ
が見られない。つまり、自由発話が含まれる会
議録を対象とした表現りなく出現し、削除され
ていることが分る。それでも〜2程度れがあるのは、
発話がある表現にった発言をするなど発話の特徴に起
するものであると考える。
本手法では 15〜25%程度の削除率をしている。行研
究[4]では、講演の書き起こしを対象とし 15〜20%の削除率
と報告されており、本手法が上回っている。研究に
おいては、表現に対する処理が削除率に大き
しているが、本手法ではそれを用いずに同程度の削除率を
現した。また、ら[9]の研究では、ニュース原稿を対象
に字幕生成のための要約を行っており、及び長部の
削除を行っており、15〜33%程度の削除率と報告されている。
本稿を含めたこれら 3 の結果から、話し言葉を対象とした
削除・換言による要約処理では30%程度の削除率が限界
する。
要約手法の削除率
6 解析誤りの考察
処理にりがあったものについてか理由検討する
6.1「という」表現
155 第2号(249KB)に対して本手法の要約
処理を行い、処理がれたという現の一部 232
ついてかを人手で判定した。その結果、 201
で、度は 86.6%であった。
6-1)った削除を行った例をす。括弧[]でまれた
範囲が処理によって削除された部分である
6-1)
a)梨県根町[というリ]がある
b)生相場[という調査]をめてい
c) この験炉からさらに次の[という]を
としても
d) 用するのだぞ[という姿勢]をけること
e) の原ではないか[ということ]になると、
f)消費税(仮称の手法によらずと[いうこと]が
書いている
g) 本からも人も[という]で、自衛隊
[という]要非常かった
というの処理では「〜とい N」名詞の部分が
式名詞である場合比較な結果が得られた。しかし、
a)〜c)すよう「N1 という N2表現で N2 形式名詞
外の普通名詞等のには一部処理りが見られた。a)は、
N2 複合名詞場合である。a)以外にも◯◯検討会[とい
検討]会などもある。従って、これらの複合名詞処理
するには、名詞を考した処理を行うことで改善
れる。本的にN1 という N2表現で N2 の果たす N1
調することにあるから、体的な名詞 N2 の部分にく
ることはない。つまり、N2 には、形式名N1 を表
名詞などが来ると考えられるため、したよ
うな複合名詞の処理分対が可能であると考える
b)c)では少し状なる。これらは「N1N2であり、
という N2を削除出来ない。これらを処理する場合 N1
N2 関連性判断するがある
d)、e)のようにという直前助詞場合の処理は、
処理りが多く見られた。しかし、『適なのはどのくらい
か[ということ]は、のように問題のない処理もあること
ら、この処理についてはもう少調査する要がある
f)は、本研究で新たに規追加「AUXV ということ
表現の処理のりである。本稿では、1 つの会議録(145
算委員会第二分科会2号)に規を作成したため、規
があった。よって調査る会議録をやし、対する
要がある。
g)「V という N」表現のりである。この処りは、
体節を考していないために起こった。体節の中でも
節にという現れ、内容節をには規があ
る。従って、これら名詞を挙げておくことで対処できると
考える。
6.2 丁寧表現
接頭辞「」「御」削除する処理を行ったが、単
除を行うけでは分である「御」語に削除で
きるが( 6-2a)、和語にを削除する場合( 6-2
b)には単に取れず、換言を行う要がある
6-2)
a)対象にしたいという趣旨の[]答弁がありました。
b)はどういうに[お]考えになられますか。
b)を削除しようとした場合には、例えば次のよう
な文にすきである
b')はどういうに考えるか
また、和語に接頭辞「、その丁寧表現
(「ます)に現れることが多く、を削除する
きのりがその丁寧表現を処理するりの原にも
なるため、Ohtake ら[7]、大ら[10]等と同様の検討
である。
謙遜表現、尊敬表現などの語表現の特形式への対
として書を作成したが、一的に使れる単語のみを
録しているため、会議録での不十分である。したがっ
て、特語表現を自するなどして書を拡張
対処する要がある。同時に、つものが現れる頻
度も少なくないため同定が要である
6.3 挿入句表現
155 員会第2号(249KB)に対して本手法の要約処
理を行い、処理が行れた挿入句表現の一 200 について
かを人手で判定した。その結果、 160 で、
度は 80.0%であった。
本稿では、文を読点区りしたものをとして挿入
表現の処理単とした。処理にしては、本的に規
した節を単独で削除している。このような処理を行った
文的なりがあることが認された。本手法では、挿
入句の後ろの節に指示詞が含まれていない場合削除するといっ
た処理を行って的なりを防ぐようにしたが、分で
あった。したがって接続助詞立助詞等も考た対
をしなければならない。また、直後の節の示詞直前
の節を指すけではなく、直後の節に指存在場合
でも挿入句を削除できる場合ある。応解が可能
であれば、なる削除がめる
さらに、( 6-3a)下部にすように挿入句表現はずし
も読区切った単とはならない。
6-3)
a)先ほしましたように概念が成する
b)今後も一くこの員会がされまして
史跡保護地元住民調つくように
大のをしたいといううにております
a)のように読が含まれない場合は挿入句の範囲
るのがしくなる。これにては、一部処理を行っている
が、やはりりが見られる。また、( 6-3b)のように挿入句
表現の手がかり語がいても削除出来ない場合もある。この
場合は、直前の節などとの関連を考て処理しなければ
ならない。
7 おわりに
話し言葉の一つとして国会会議録を取り上げ、要約を行
た。国会会議録は、話し言葉のを含でおり、話し言葉
の言語資源の一つとして利用価値がある。
本稿では、国会会議録の特徴である丁寧表現、話し言葉
見られるという表現、挿入句表現を冗長表現としてとら
え、行研究の規拡張し、換言・削除を行うことによっ
て報的要約を行った。約 20 年分の会議録に対して
行った結果、要約率平均 80.17%、標準偏差 2.046
の少ない要約結果が得られた。一で、要約文ではいくつ
かのりや的なが見られた
本稿で扱わなかった表現に」「並列がある
詞」では、っとような話し言葉でよく現れる
ものがあり、これらは、冗長なものと判断できるので、削除
してもよいだろう。並列表現では、以のような文があ
る。
7-1)
あのときの破防法の用の問題、公安審査員会
定に対する等は分報でもをした。
国会会議録では、このような表現がよく現れる。並列
現については、黒橋ら[11]等によって検討がされている。
要約の研究においても、上ら[9]が、例す表現を含
文節を冗長部として削除処理を行っている。しかし、[9]
では対象としている表現が少ないため、表現をして
実装する要がある。これらの表現に対処するによって
70 %程度の要約率が現できると考える。
使用した言語資源とツール
<1> 国会会議録ステム,国会図書館,http://kokkai.ndl.
go.jp/
<2> 「茶筌」Ver.2.3.0,奈良科学技術大学大学
本研究,http://chasen.aist-nara.ac.jp/
参 考 文
[1] 竹沢寿幸,田代敏久,森元,音声言語データベースを用いた自
発話の言語現象の調査,能学会研究会資,SIG-SLUD-9403
-3, pp.13-20,1994.
[2] 福島孝博,暉将,リアルタイム要約としての要約筆記におけ
る要約の手法,第 7 回言語処理学会年次大会,pp.293-296,2001.
[3] 奥村,難,要約に最近の話題,
言語処理,9(4),pp.97-116,2002.
[4] 幅田,個所の削除と言いえによる講演音声の要約,
科学技術大学修士論,http://www.jaist.ac.jp
/library/thesis/is-master-2001/paper/thabata/paper.pdf,
2001.
[5] 陽介,守男,音声認識支援ステムにおける句読挿入
法の提案,報通学会技術研究報告,NLC0005-4,pp.25-
32,2000.
[6] ,秀紀,熊野正,田中英,境界動検出ルールの
作成と,第 9 回言語処理学会年次大会,pp.517-520,2003.
[7] Kiyonori Ohtake, Kazuhide Yamamoto : Paraphrasing Honorif-
ics, Automatic Paraphrasing : Theories and Applications
(NLPRS2001 PostConference Workshop),pp.13-20,2001.
[8] ,田則,本語文法訂版―,しお出
,1992.
[9] ,繁,川聖,ニュース番組における字幕生成のた
めの文短縮による要約,言語処理,6(6),pp.65-81,1999.
[10]野満,,西,“日本語語表現の換・
テム,第 9 回言語処理学会年次大会,pp.218-221,2003.
[11] 黒橋,,“並列出にづく長い本語文の
,言語処理,1(1),pp.35-57,1994.
本手法による要約結果を以
処理対象の会議録は 155 員会第2号(249KB)である。全体
の要約率は 80.8%である。録ではこの会議録中のあ回の質疑
それに対する答弁す。以部分の要約率は73.0%(295 文字/
404 文字)である。
-原文-
Y
自身のお考えをおいしたいけです。例えば自本の
いというような見についてはどうですか。そのようにいますか
いや、大丈夫、問題はないということですか。
T
融担してからい指摘もいたましたけ
れども、の規監督というのは、やはり、自分自身の考えを
し上げて、それでから度をめるというようなものであっては
いけないといううにっております。
さままな見を聞きながら、こういうでやるというとして
の行めてから、どうしてそのような考えつにったかと
いうことをお話しする。 イングンド銀行の言葉で、行すれど
弁明せずという言葉があるといううにえてくれたがおります
けれども、そういうようなで、、とにかく、いで新しい規
を発表して、その上でと行めたいといううに
ているとこございます。
-要約文-
Y
自身の考えをいしたい。例えば自資本の見につ
いてはどうか。そのようにうか。いや、大丈夫、問題はないこと
か。
T
の規監督は、自分自身の考えを述べて、それでから
度をめるものであってはいけないっている。
さままな見を聞きながら、こういうでやるとしての行
めてから、どうしてそのような考えつにったかをお話し
する。
ングンド銀行の言葉で、行すれども弁明せずという言葉があ
るとえてくれたがいるが、そういうようなで、、とにかく
いで新しい規監督を発表して、その上で々と行
たいとっている。
ResearchGate has not been able to resolve any citations for this publication.
Automatic Paraphrasing : Theories and Applications
  • Kiyonori Ohtake
  • Kazuhide Yamamoto
Kiyonori Ohtake, Kazuhide Yamamoto : Paraphrasing Honorifics, Automatic Paraphrasing : Theories and Applications (NLPRS2001 PostConference Workshop),pp.13-20,2001.