Content uploaded by Kazuhide Yamamoto
Author content
All content in this area was uploaded by Kazuhide Yamamoto
Content may be subject to copyright.
「新幹線要約」のための文末の整形
山本 和英
†
池田 諭史
†
大橋 一輝
†
新幹線要約,すなわち新幹線車内や街頭での電光掲示板で流れるニュースは簡潔に表
現されており,このために独特の表現をしている.本論文ではこの特徴的な表現のう
ち体言止めや助詞止めといった文末表現に着目し,一般的な新聞記事の表現をこのよ
うな高密度表現に加工する手法を提案する.まず,実際に
2 万記事に及ぶ新幹線要約
の表現の特徴を調査し,文末におけるサ変名詞での体言止めが一般の新聞記事の
8 倍,
格助詞での助詞止めが一般の
20 倍あることを確認し,新幹線要約における表現の特
異性を確認した.次に,このような文末表現を実現するための提案手法を実装し,新
聞記事を入力として要約した.この結果,文末表現に限定した要約率は
12 %であり,
1 文当たり平均して 2.5 文字削除することができた.この結果を人間が行なった文末
整形の結果と比較したところ,要約率はほぼ同様の結果が得られた.さらに,出力表
現の評価を行なった結果,正解率は
95 % となった.
キーワード: 「新幹線要約」,自動要約,文末表現,体言止め,助詞止め
Transforming a Sentence End into News Headline Style
Kazuhide Yamamoto
†
, Satoshi Ikeda
†
and Kazuteru Ohashi
†
Electrical bulletin board news can be seen in the Shinkansen trains or streets. Their
news are short, simple, and concentrated. We present in this paper some expressions
often appeared in the bulletin board. For example, at the end of the news sentence
we can often see a noun or a case particle, which are not a usual sentence in the
newspaper. We first show that this observation is true, investigating over twenty
thousands articles of the real bulletin board news: a verbal noun appears eight times
larger than an ordinal news paper, and a case particle twenty times larger. We then
propose and implement a method of shortning sentence ends into these described
above, and evaluate the method. Our evaluation results shows that the summariza-
tion rate of the sentence ends are appoximately 12 %, and 2.50 characters are deleted
on average for one sentence. This power of deletions is approximately as same as
that human do es. Moreover, we have verified by human judge that the correctness
of output expressions is 95 %.
KeyWords: newsflash, automatic summarization, sentence-end expressions, nominal
sentences, sentences with particle-end
† 長岡技術科学大学電気系, Department of Electrical Engineering, Nagaoka University of Technology
自然言語処理 Vol. 12 No. 6 Nov. 2005
1 はじめに
新幹線の車内には電光掲示板があり,そこには各新聞社の最新のニュースが流れている.街
頭で見かける電光掲示板においても,同様のニュースを見ることができる.これらのニュース
はいずれも一般のニュースよりも短く,要点のみが簡潔に書かれている.新幹線で見かけるこ
れらの記事は,新聞に見られる一般のニュース記事からの対比で考えると一般の記事の要約と
捉えることもできる.その意味で,本論文では新幹線などの電光掲示板で流れるニュース記事
のことを「新幹線要約」と呼ぶ.
新幹線要約を注意深く観察すると,文末表現に一つの特徴があることがわかる.例えば,例
1 のような表現の文末を見ることがある.
例
1) 日本人拉致疑惑などは与党の動向見極め 判断。
対ロ支援は 継続へ
。
すなわち,新幹線要約の文末は名詞で終わる体言止め,あるいは助詞止めの割合が一般の記
事よりも多く感じる.
3 節で述べるように我々のこの観察は正しく,実際に体言や助詞で終わる
新幹線要約文は一般の記事よりも非常に多い.このことから,我々はこのような文末は要約文
として捉えたときの新幹線要約の一つの特異な特徴だと考えた.
これらの文末は一部が省略されているが,人が文意を補完することで意味をとることが可能
である.我々は,このような文の補完を意識せずに行なうことができる.さらに,人によって
違う意味になるのではなく同じ意味に補完され,文意に曖昧性は生じない.省略前と比較すれ
ば表現は短くなっているが人が見れば文意を容易に補完することができるので,省略後も文意
の保持された文といってもよい.これらの文は文意を保持する上では必要ないと思われる文末
を削除し,省略内容の補完は人が行なうという形で文意を保ち,その上で文を短くしているの
で冗長度が低い.
本研究は,新幹線要約のような簡潔で曖昧性のない要約文の生成を最終的な目標としてい
る.この実現には,原文
(ニュース記事全文) から重要な表現の選択や文の整形など,様々な処
理が必要である.このうち,重要表現
(多くの場合は重要文) 抽出の研究は数多く見られるが,
新幹線要約で見られるような体言止めや助詞止めへの表現加工の試みは前例がない.そこで,
本論文ではこれら文末表現への加工を行なうことで,どの程度の要約率と要約精度が得られる
のかを報告する.同時に,このような文末整形処理にはどのような情報が必要か,あるいはど
のような問題点があるのかを明らかにする.
以上のような動機から,本研究では処理の対象を文末表現に限定する.本研究で得られた知
見によって,文字単位で短縮する必要のある要約文生成時において文末の整形を自動で行なう
ことが可能になる.また,本論文で対象にした体言止めや助詞止めによる文末表現は,新幹線
要約などのニュース本文だけでなく新聞記事のタイトル
(見出し,ヘッドライン) にも多く見受
2
山本,池田,大橋 「新幹線要約」のための文末の整形
けられる.よって本提案手法はこれら日本語記事のヘッドライン生成にも活用できる.また,対
象とする分野を限定していないので,どのような新聞記事の入力に対しても有効であり,また
任意の重要文抽出手法との併用も可能である.
2 関連研究
広義の要約処理は大きく (1) 重要表現 (主に文) の特定と (2) 削除や換言による表現圧縮処理,
に二分することができる.このうち,本論文に関係する
(2) に関しては,修飾語の削除や (複数
記事要約における
) 重複表現の削除といった処理,あるいは予め用意した表現の変換表に基づい
た換言
(例:北大西洋条約機構を NATO に) といった処理が提案されている.これに対し,本論
文で対象とする文末表現を要約対象と捉えた研究は以下に示す一部の報告しか知られていない.
佐藤ら
(佐藤,岩越,増田,中川 2004) はパソコンで閲覧する目的で作成された新聞記事と
携帯端末で閲覧する目的で作成された新聞記事の両者を照合することで,文末の言い換えパター
ンの抽出を試みている.しかし,そのパターンには複数の語への言い換えがある語もあり,こ
のままでは言い換えることができない.
若尾らはテレビニュース番組の音声によるニュースと字幕によるニュースの調査を行なって
いる.この調査では文末表現についても調査を行なっており,本論文で行なったような要約表
現の言及もあるが具体的な実現方法についての言及はない.短縮可能な表現の列挙も行なって
おり,またニュース字幕におけるこれらの短縮表現の使用頻度の調査を行なっている.この報
告からは,ニュース字幕についても体言止めや助詞止めを有効に使って表現の短縮化を行なっ
ており,メディアや分野に依存しない日本語全般に広く使われる表現短縮技法であることが分
かる.本研究は文献
(若尾,江原,白井 1997) での調査結果を参考にした上で,次節で述べるよ
うに独自の調査を行なって文献
(若尾他 1997) にもない「自首 したと見られる →自首 か」「···
が発足 して初めて → ··· が発足 後初」などの要約可能な表現を洗い出した.その上で,機械的
な処理が可能な表現の検討を行なった.また,福島ら
(福島,江原,白井 1999) はこの調査結果
に基づいて不要部の削除を行なっている.この福島らの研究は本研究に最も近いと考えられる
ので
4.11 節で比較を行なう.
新幹線の電光掲示板と同様に,文字数制限のある文章のテレビニュースの字幕や,携帯端末
用の新聞記事への要約はいくつか行なわれている
(石ざこ,片岡,増山,中川 1999; 大森,増
田,中川
2003; 三上,増山,中川 1999).石ざこら (石ざこ他 1999) は,重複部を削除すること
による要約を行なっており,大森ら
(大森他 2003),三上ら (三上他 1999) は,文章全体の要約
を行なっている.しかし,これらの研究はいずれも文末表現については触れられていない.
これら研究とは別に,日本語の話し言葉は多彩で豊富な文末表現を持つためこれを対象に要
約,あるいは換言する研究が報告されている
(Ohtake and Yamamoto 2001).しかし本研究と
は目的や処理対象が大きく異なるためこの詳細は省略する.
3
自然言語処理 Vol. 12 No. 6 Nov. 2005
3 新幹線要約とその特徴
本論文で対象にした新幹線要約,すなわち新幹線の電光掲示板のニュースについて,実際に
新幹線に配信された記事と同じ記事を配信しているサービスがある.これは
NIKKEI-goo が行
なっている日経ニュースメール
(1) というサービスで,月曜から金曜までの週 5 日,1 日に 3 回,
電子メールによってニュースが配信される.日経ニュースメールの中で,「主なニュース」の欄
にある記事の本文が実際に新幹線の電光掲示板のニュースで使われている文であり,以下に例
を示す.
例
2) ◆国土交通省、外国船の監視を強化
国交省はテロ対策の一環として外国船の監視を強化する。
航行情報を一元管理するほか、港湾近くには監視カメラを
設置へ。
日経ニュースメールは例
2 のように記事の見出しがあり,その下に数文でその内容が示され
ており,多くの場合,
1 記事は 2 文である.1 記事当たりの文字数は 60 文字以内であり,その
多くが
56 文字である.我々はこのメールを 1999 年 12 月∼現在までの約 5 年分を収集した.収
集したニュースメールの統計を表
1 に示す.
表 1 収集したニュースメールの統計量
メール数 3365
記事数 21127
文数 40374
3.1 文末表現
新幹線要約の記事は,新聞等の一般的な記事に比べると文末に特徴がある.すなわち,我々
の観察では新幹線要約文は文末が名詞や助詞で終わっているものが多く見受けられた.そこで,
実際にこれを確認するために,新幹線要約と一般的な文として新聞記事について文末
(句点) の
直前の品詞を調べた.新聞は,今回収集した新幹線要約と同一対象として日本経済新聞
(2) の
統計を取った.その結果を表
2 に示す.
表
2 の名詞部分に着目すると,新幹線要約は新聞よりも約 2 倍文末での名詞の使用頻度が高
い,すなわち体言止めが多いことがわかる.特に,サ変名詞は出現比率が約
8 倍であること分
4
山本,池田,大橋 「新幹線要約」のための文末の整形
表 2 文末における品詞の出現比率
出現比率 [%]
品詞 日経新聞 新幹線要約
名詞 23.70 55.92
(うちサ変名詞) (5.00) (39.90)
動詞 28.66 15.91
形容詞 1.80 0.19
副詞 0.20 0.22
助詞 1.56 8.83
(うち格助詞) (0.34) (6.41)
助動詞 38.59 18.52
記号 5.42 0.40
かり,顕著に多い.これは,日本語の文章は文末に述語的な働きをする単語がないと意味がと
れないことや異和感を感じることがあるために,文が名詞で終わるためには述語的な働きをす
るサ変名詞を置かざるを得ないためだと考える.
一方,助詞の比率に着目すると新幹線要約は文末での使用頻度が約
6 倍高いことがわかる.
中でも格助詞が約
20 倍になっている.これは格助詞で文を終えることで後続する表現が省略さ
れていることを明確にし,さらにそれらの省略表現を格助詞の使用で補うことが可能である場
合にこのような表現になっていると考える.よってどのような場合にも格助詞止めが可能とな
るわけではなく,未来の動作や変化を示唆する「
··· へ」などのようにある一定の意味を持つ表
現の場合にのみ可能となる.
3.2 漢語の使用
新幹線要約では,文字数が少なくて情報が多い単語が使われていると考えられる.一般的に
和語よりも漢語の方が情報が多いとされるので,新幹線要約と新聞において漢語と和語の対応
がとれる主な単語の出現比率を調べた.この結果を表
3 に示す.表 3 から,実際に新幹線要約
では和語に比べて漢語が多く使われており,また一般的な記事と比較すると約
3 倍の比率で和
語よりも漢語が使われていることが分かる.
表
3 より,新聞に比べ新幹線要約文では和語に比べ漢語が約 3 倍使われている.以上より,
新幹線要約は同じ意味をもつ表現ならばより短い表現を好んで使っているということが推測で
きる.すなわち,新幹線要約は新聞記事に比べて高密度表現になっていることが以上の調査か
ら確認できた.
例えば,一般の新聞記事には例
3 のような文を見ることがある.
例
3) これまでに、··· といった巨匠が 選ばれている。
5
自然言語処理 Vol. 12 No. 6 Nov. 2005
表 3 新幹線要約と日本経済新聞の和語と漢語の比
和語に対する漢語の比率
和語 漢語 日経新聞 (a) 新幹線要約 (b) a/b
見つかる 発見 1.059 2.658 0.398
決める 決定 0.622 2.184 0.285
選ぶ 選出 0.210 2.643 0.079
分かる 判明 0.181 2.875 0.063
命じる 命令 1.132 3.841 0.295
述べる 発言 0.456 0.181 2.493
調べる 調査 6.284 53.333 0.118
以上 7 語の統計 2.712 7.271 0.373
この文を新幹線要約での文体にすれば「過去に ··· 等の巨匠が 選出」となるであろう.この
結果原文の付属語である「れる」や「ている」などが省略されているがこの文の意味に曖昧性
はなく,「
··· 選出 されている」という意味であることを我々は容易に理解できる.これは「選
出」の直前にある助詞「が」と「過去に」という二つの語を用いて意味を補完しているためであ
る.このように,新幹線要約は人間の補完能力を巧みに利用することにより,意味を把握する
上では不必要だが一般的な文としては必要な助動詞の削除を行なうことで,文字数の削減を行
なっていると推測される.逆に言えば,このような補完が可能な場合にのみ表現圧縮を行なっ
ているのではないかと考えられる.
3.3 新幹線要約の整形戦略
新幹線要約に対する以上の観察に基づいて,要約の方針を検討した.まず,新幹線要約にお
いて文の最終単語にサ変名詞が使用されることが多いという観察結果から,日本語文において
はサ変名詞で終わる体言止めが日本語話者にとって座りがいい表現スタイルの一つだと考えた.
従って,サ変名詞に後続する「
··· を示す」「··· したと見られる」「··· する方針」などの表現を
洗い出し,削除対象とすることとした.また,「
··· するのは初めて」という表現が新聞記事では
よく見受けられるため,この表現に対しては「初めて
···」という形に整形する.
関連して,サ変名詞以外で用言性のある形容名詞や動詞などに関しても付属語を削除または
簡略化することで文末表現の整形を目指す.動詞の「被害の受け身」とも言われる「
··· てしま
う」などの細かなニュアンスを表す表現を削除する.
一方,格助詞による文の助詞止めについては,すべての格助詞が文末に使用されているわけ
ではなく,例えば「
··· が。」のような表現は (倒置表現を除いて) 少ないことから,特定の固定
的な意味を想起させる「
··· に。」「··· へ。」のような表現への加工を目指す.
この他,文中の表現に関しても,和語を漢語に変換する処理や一部の格助詞を省略する処理
を行なうことで入力文の短縮化を目指す.
6
山本,池田,大橋 「新幹線要約」のための文末の整形
4 要約手法
本論文での処理は以下の 3 種に大別できる.
(1) 文末がある表現の時にそれを削除する
文末に存在する時に削除を行う表現の辞書を作成する.文末の表現がその辞書に含まれる場合
それを削除する.
(2) ある表現以降を削除し整形を行う
文中にある表現が含まれているときにそれ以降を削除する.削除された意味の補完を行うため
に文末に単語を付加や助詞の換言を行なう.
(3) 文末の形態を変える
文末の削除ではなく文末の変形を行う.本手法では文末の名詞を複合名詞へ換言している.
本論文では以下に示す手順で要約を行なった.括弧は大別したときに当てはまる処理である.
1. 断定表現及び敬語表現の削除 (1)
2.
「を示す」の削除 (1)
3.
サ変動詞の換言 (2)
4.
「なる」の削除 (2)
5.
「明らかに」の後の削除 (2)
6.
和語の換言 (2)
7.
「てしまう」の削除 (1)
8.
「立つ」の削除 (2)
9.
未来の行動を示唆する表現 (2)
10.
文末の複合名詞への換言 (3)
本論文ではこの順番で要約を行なったが,手順 3.∼9. は任意の順序で処理が可能である.
なお,終助詞「か」で終わっている疑問表現は新幹線要約では使われないので処理の対象と
しない.
4.1 断定表現及び敬語表現の削除
以下に示すものを断定表現もしくは敬語表現とする.これらの表現は文を読む上で意味を持
つことはないと考えるので,この表現で終わっている文についてその表現を削除する.
• 断定表現: 「だった」 「である」 「だ」
• 敬語表現: 「ます」 「です」
例
4) 幸い 2000 年問題は解決しても、油断は禁物 だ。
→幸い
2000 年問題は解決しても、油断は禁物。
7
自然言語処理 Vol. 12 No. 6 Nov. 2005
4.2 「を示す」の削除
文が「を示す」や「を示した」で終わっている時,これらの表現は直前のサ変名詞に付加
的な意味を加える役割をしている場合が多く,「示す」が本来持つ動詞としての意味よりも助詞
「を」を含めて「を示す」全体で助動詞としての使われ方に近い.すなわちこのような文の意味
上の主動詞は「を示す」の直前のサ変動詞であると捉え,「を示す」を削除する.
例
5) 自民党との最終調整に入る意向 を示した。
→自民党との最終調整に入る意向。
4.3 サ変動詞の換言
サ変動詞を換言する際にサ変動詞以降の部分を削除することで,サ変名詞で終わる体言止め
の文にする.これは,サ変動詞をサ変名詞に換言しても同じ意味としてとらえることが出来る
のでこの換言を行なうことにより文を短くできると考えられるからである.この際,サ変動詞
より後に自立語が存在する場合にそれを削除すると意味が変わることや意味がとれなくなるこ
とがある.
例
6) 気がつくと、いつの間にかコンピューターに 包囲され ているのに 驚く。
→
*
1
気がつくと、いつの間にかコンピューターに包囲。
そこで自立語がサ変動詞の後にある場合は,処理を行なわないこととする.
Step 1 サ変動詞の「する」以降,つまりサ変名詞よりも後の部分を削除する.これ以降,サ
変動詞の換言処理中の「サ変名詞」とは「する」の部分が削除されて名詞化したサ変動詞を指す.
Step 2 削除した部分に「みられる」「だろう」といった推定を表す表現が含まれていた時,文
末に「か」を付加する.その後の処理は行なわずにサ変動詞の換言を終了する.
例
7) 逃走資金に困って自首 したとみられる。
→逃走資金に困って自首 か
。
Step 3 削除した部分に「ない」や「ぬ」といった否定の表現が入っている時,「せず」を付加
して処理を終了する.同時に「れる」といった受動を表す表現が含まれる時は,「されず」を付
加する.その後の処理は行なわずにサ変動詞の換言を終了する.
1 記号 ‘*’ はその表現が不自然又は間違いであることを表す.
8
山本,池田,大橋 「新幹線要約」のための文末の整形
例 8) 今年は牝馬が出走 しない。
→今年は牝馬が出走 せず
。
Step 4 文末が「名詞+を+サ変名詞」であれば,「を」を取り除き,「名詞+サ変名詞」の複合
語にする.
例
9) 今月から、奇数月に各駅と車内のつり広告に 詰め将棋を掲載する。
→今月から、奇数月に各駅と車内のつり広告に 詰
め将棋掲載。
Step 5 残った部分が「助詞
1
+名詞+すること+ 助詞
2
+名詞」で終わっている時,「するこ
と」を取り除く.その時,助詞
1
が「を」「か」の場合は,それを「の」に置き換える.
例
10) 両国政府の実務者協議を 2 月 にも開催することで合意した。
→両国政府の実務者協議を
2 月 にも開催で合意。
例
11) 知事選に中馬弘毅・同府連会長 を擁立することを正式決定した。
→知事選に中馬弘毅・同府連会長 の擁立を正式決定。
「初めて」が削除した部分に含まれている時,
Step2 以降は,上記の処理ではなく以下の処
理を行なう.
Step 2 削除した部分に「するのは」もしくは「したのは」が含まれる時,サ変名詞の前に
「初めて」を付加する.削除した部分に「みられる」が含まれていれば,「か」を付加する.その
後の処理は行なわずにサ変動詞の換言を終了する.
例
12) 人口関連活動を日本企業が 直接援助するのは初めて。
→人口関連活動を日本企業が 初めて直接援助
。
例
13) 同条約に基づき日本政府が海外からごみを 撤収したのは初めて。
→同条約に基づき日本政府が海外からごみを 初めて撤収
。
9
自然言語処理 Vol. 12 No. 6 Nov. 2005
Step 3 削除した部分に「して」が含まれる時,「後初」を付加する.サ変名詞の直前が助詞
「が」ならば,その助詞「が」を「の」に置き換える.
例
14) 会見に応じたのはカルマパ 17 世が中国から出国 して初めて。
→会見に応じたのはカルマパ
17 世が中国から出国 後初。
例
15) イスラエルに和平推進派のバラク政権 が発足して初めて。
→イスラエルに和平推進派のバラク政権 の発足後
初。
Step 4.1 サ変名詞が「発言」「言及」の時,サ変名詞の前に「初めて」を付加する.
例
16) 主要閣僚が、6 月選挙を前提に公式 に発言したのは初めて。
→主要閣僚が、
6 月選挙を前提に公式 に初めて発言。
例
17) ロシア軍幹部が撤退に 言及したのは初めて。
→ロシア軍幹部が撤退に 初めて言及
。
Step 4.2 サ変名詞が「発言」「言及」以外の時,サ変名詞の直前の単語を調べ,その単語によ
り以下の処理を行なう
• 助詞「の」「が」+サ変名詞
→ 助詞「の」+サ変名詞+「は初」
• 助詞「を」「も」+サ変名詞
→ 助詞は変化せず+「初めて」+サ変名詞
• 上記以外の時,
∼サ変名詞 →∼のサ変名詞+「は初」
Step 5 削除した部分に「みられる」が含まれる時,文末に「か」を付加する.
4.4 「なる」の削除
「助詞+なる」という表現が文中に存在する場合に,「助詞+なる」以降の部分を削除する.
この際,削除される部分に自立語が含まれていると意味が変わることや意味がとれなくなるこ
とがある.
例
18)1 月末まで入札趣意書を受け付け、3 月中旬に優先的交渉の対象 となる企業を 決める。
→
*1 月末まで入札趣意書を受け付け、3 月中旬に優先的交渉の対象に。
10
山本,池田,大橋 「新幹線要約」のための文末の整形
そこで「助詞+なる」より後に自立語が含まれる場合は処理を行なわない.推定を表す「だ
ろう」が「助詞+なる」の後に含まれる場合は,これを削除すると意味が変わるので,処理を
行なわない.
「助詞+なる」も含めてそれ以降を削除し,以下の処理を行なう.助詞が「に」「と」の場
合は,「に」を付け足す.
例
19) 総選挙投票 3 カ月半後の合意で、ぎりぎりの選択 となった。
→総選挙投票
3 カ月半後の合意で、ぎりぎりの選択 に。
削除した部分に,否定を表す「ない」や「ぬ」を含む時は,「ならず」を付け足す.
例
20) 火薬が湿っていたのか、ほとんどが起爆剤 にならなかった。
→火薬が湿っていたのか、ほとんどが起爆剤 にならず
。
4.5 「明らかに」の後の削除
「明らかに」という表現が文中に存在する場合に,「明らかに」よりも後の部分を削除して
「∼明らかに」という文つまり,助詞「に」で終わる文にする.この際,「明らかに」の後に名詞
の自立語が存在する場合,名詞の自立語を削除すると意味が変わることや意味がとれなくなる
ことがある.
例
21) 香港の人権擁護団体が 3 日明らかにしたところによると、北京 の…。
→
*香港の人権擁護団体が 3 日明らかに。
そこで,「明らかに」より後に自立語を含む場合は処理を行なわない.
Step 1 「明らかに」の後の部分を削除する.
Step 2 削除した部分を調べ,削除された部分により以下の処理を行なう.
• 否定の表現「ない」か「ぬ」と受身の表現「れる」が同時に存在する場合
→文末に「されず」を付加する.
• 否定の表現「ない」か「ぬ」が存在する場合
→文末に「せず」を付加する.
11
自然言語処理 Vol. 12 No. 6 Nov. 2005
例 22) 特別損失額は明らかに していない。
→特別損失額は明らかに せず
。
例
23) 費用は明らかに されていない。
→費用は明らかに されず
。
Step 3 「明らかに」の直前が「することを」ならば,「すること」を削除する.「すること」の
直前が「助詞「に」+サ変名詞」ならば,「に」を「へ」に置き換える.「すること」の直前が「助
詞「を」+サ変名詞」ならば,「を」を「の」に置き換える.
例
24)4 月に北区の西友赤羽店 に移転することを明らかにした。
→
4 月に北区の西友赤羽店 へ移転を明らかに。
例
25) 宗教法人の代表役員 を辞任することを明らかにした。
→宗教法人の代表役員 の辞任を明らかに
。
4.6 和語の換言
表 3 に示した和語が文中に存在する場合に,和語より後を削除して和語を漢語に置き換える.
この際,和語より後に自立語が存在する場合,自立語を削除すると意味が変わることや意味が
通らないことがある.
例
26) ヨットレースのアメリカズカップの挑戦艇を 決めるルイ・ヴィトン杯 は延期となっ
た。
→
*ヨットレースのアメリカズカップの挑戦艇を決定。
そこで,和語の後に自立語が存在する場合は,処理を行なわない.表
3 の和語について漢語
に換言した.
Step 1 和語も含めて和語以降の部分を削除する.
Step 2 削除によって,文末が「することを」になった場合,「すること」を削除し,対応する
漢語を付加する.和語の換言の処理を終了する.
例
27)「災害広域支援マニュアル」の作成に着手 することを決めた。
→「災害広域支援マニュアル」の作成に着手 を決定
。
12
山本,池田,大橋 「新幹線要約」のための文末の整形
Step 3 以下の条件の場合,処理を行なう.
• 削除後の文末が助詞「が」で和語が「分かる」
→漢語「判明」を付加して,処理を終了する.
• 削除後の文末が助詞「が」で和語が「調べる」以外 →助詞「が」を助詞「を」に置き換
える.
• 削除後の文末が「が+名詞+で」
→ 「の+名詞+を」
• 削除語の文末が助詞「は」で和語が「分かる」
→ 処理を行なわない.
• 和語が「調べる」で削除した部分に「している」
→「∼調査中」.処理終了
Step 4 和語に対応する漢語を付加する.
例
28) 昨年 12 月の大学理事会で解任されていたこと が分かった。
→昨年
12 月の大学理事会で解任されていたこと が判明。
例
29) 変造硬貨計 359 枚 が見つかった。
→変造硬貨計
359 枚 を発見。
例
30) 寝室から中根さん が焼死体で見つかった。
→寝室から中根さん の焼死体を発見
。
例
31) 西淀川署で出火原因を 調べている。
→西淀川署で出火原因を 調査中
。
4.7 「てしまう」の削除
「てしまう」が文に入っている時,その文は負のイメージを持つ文になるだけであり文意を
とる上では必要ない表現であると考える.そこで「てしまう」の削除を行なう.この処理は文
末以外にも適用できるので,文末以外にも適用している.「てしまう」が文中に存在する場合に,
「てしまう」を削除する.「てしまう」の後ろに「ば」が付いて「てしまえば」になっている時,
処理は行なわない.
「てしまう」で文が終わっている時,「てしまう」を削除して,その前の単語を原形にして,
処理を終了する.
例
32) 難しい人名は振り仮名がないとまごつい てしまう。
→難しい人名は振り仮名がないとまごつく。
13
自然言語処理 Vol. 12 No. 6 Nov. 2005
「てしまう」が文の途中にある時,「てしまう」の直前の一語と「てしまう」を取り除く.
例 33) 日本の宇宙開発は金縛り状態に陥ってしまったのだろうか。
→日本の宇宙開発は金縛り状態に陥ったのだろうか。
4.8 「立つ」の削除
「立つ」が文中に存在する場合に,「立つ」を含めてそれ以降を削除する.この際,自立語が
「立つ」以降に含まれている場合,この自立語を削除すると意味が変わることや意味が通らなく
なることがある.
例
34) 行司の「ハッケヨイ」の掛け声で 立つ よう 競技規則 を改正した。
→
*行司の「ハッケヨイ」の掛け声で。
そのため「立つ」より後に自立語を含む場合は,処理を行なわない.「立つ」が慣用表現の一
部になっている場合は,処理を行なわない.例外として「めどが立つ」については行なうこと
とする.
Step 1 「立つ」を含む「立つ」以降の部分を削除する.
例
35)「トップボーイ」はTVゲームの専門小売店の頂点に 立つ。
→「トップボーイ」はTVゲームの専門小売店の頂点に。
Step 2 削除した部分に否定の表現である「ない」や「ぬ」を含む場合は,文末に「立たず」
を付加する.
例
36) 零式装備品が何になるのか、まだ見通しは 立っていない。
→零式装備品が何になるのか、まだ見通しは 立たず
。
慣用表現「めどが立つ」の場合は,「が立つ」を削除し名詞「めど」で体言止めの文にする.
削除部に「ない」や「ぬ」を含む場合は「めどが立たず」とする.
例
37) 来月、義足をつける めどが立った。
→来月、義足をつける めど
。
例
38) 環境問題で二転三転し、建設の めどは立っていない。
→環境問題で二転三転し、建設の めどは立たず
。
14
山本,池田,大橋 「新幹線要約」のための文末の整形
4.9 未来の行動を示唆する表現
「計画」や「予定」のように未来に行動を行なうという意味がとれる表現が文末にあるとき
は,その表現を「へ」の
1 語で置き換えることが日本語では可能である.そこで以下に示す語
を未来の行動を示唆する表現として,「する+未来の行動を示唆する表現」が文中に存在する場
合に,これらの表現を削除して助詞「へ」を付加する
2
.
「予定」 「計画」 「方針」 「方向」
「する+未来の行動を示唆する表現」が文中に存在しても,これより後に「ない」「ぬ」の
ような否定を表す表現が入っていると意味が逆になるので,処理を行なわない.また,「という」
や読点「、」が含まれる場合も処理を行なわない.複数の「する+未来の行動を示唆する表現」
が文に含まれる時は,一番最後に出現したものについて処理を行なう.
「する+未来の行動を示唆する表現」を含むそれ以降の部分を削除する.削除後の文末が助
詞ならば,この助詞も削除する.その後,文末に「へ」を付加する.
例
39) 来月の通常国会に提出し、2001 年度から実施 する予定だ。
→来月の通常国会に提出し、
2001 年度から実施 へ。
4.10 文末の複合名詞への換言
上記の処理を行なった後に「名詞+助詞+サ変名詞」で終わっている場合に,助詞を削除し
「名詞+サ変名詞」の複合名詞で終わる文にする.ただし,名詞の種類が茶筌
(3) の分類で,代
名詞,人名,固有名詞,接尾のいずれかの時,もしくは自立語でない時は処理を行なわない.助
詞が「から」「で」「も」の時についても処理を行なわない.
複合名詞の妥当性を見るために,毎日新聞
(4) の記事の見出しと新幹線要約文から,複合名
詞を取り出して辞書を作成した.助詞が「に」の時,「名詞+サ変名詞」の複合名詞が辞書にあ
れば,その複合名詞は妥当であるとして,「名詞+助詞+サ変名詞」を「名詞+サ変名詞」の複
合名詞に置き換える.上記以外の助詞の時は,「名詞+助詞+サ変名詞」を「名詞+サ変名詞」
の複合名詞に置き換える.
例
40)3 階の焼け跡から男性の遺体 が見つかった。
→
3 階の焼け跡から男性の 遺体を発見。
→
3 階の焼け跡から男性の 遺体発見。
2 我々は以前に動詞的意味の弱い名詞として「予定」「計画」「方針」の 3 語を挙げている (山本,大橋 2005).
15
自然言語処理 Vol. 12 No. 6 Nov. 2005
この換言を行なう際の複合名詞は,体言止めの時のみ使われる表現が多く,一般的な文で使
われていないからといって間違った表現であるという判断はできない.しかし,助詞「に」を
削除して作られる複合名詞は一般的な文で使われる複合名詞が多く,また助詞「に」を削除し
てしまうと意味が保持されない場合もある.従って作成した辞書より妥当性の判断を行なった.
「に」以外の助詞の場合は,例
40 のように意味がとれる形になる.この例の場合「遺体発見」を
「遺体 が
発見した」や「遺体 に 発見した」ではなく「遺体 を 発見した」という意味の文であ
ると解釈できる.助詞が「から」「で」「も」の時は人が意味をとる際に正しく補完が行なわれ
ないので処理を行なわない.
4.11 従来手法との比較
本研究に最も関連した研究として不要部の削除により要約を行なった福島ら (福島他 1999)
の報告を取り上げ,この先行研究との比較を行なう.福島らは文末表現だけではなく文頭や文
中の処理も行なっているが,本研究との比較は文末のみで行う.
まず,福島らと比較して本論文では新たに以下の表現を考慮に入れ,それらの要約手法を提
案した.
• 断定表現の削除 (4.1 節)
•
「なる」の削除 (4.4 節)
•
「立つ」の削除 (4.8 節)
•
未来の行動を示唆する表現 (4.9 節)
•
文末の複合名詞ヘの変換 (4.10 節)
次にサ変名詞の換言,「明らかに」の後の削除,和語の換言の 3 種類の表現については先行研
究と本研究のいずれにおいても処理対象とされている.しかし以下の点で先行研究と本研究は
異なっている.またいずれの場合も本手法の方が優位であると考える.
サ変動詞の換言
サ変動詞の換言において福島らは文末が否定表現の場合は処理を行なっていないが,本研究で
はこのような場合においても処理を行なっている.また,我々は「自首したとみられる。」→
「自首か。」のような表現や「∼初。」で終ることで初めてであるという意味を付加するといった
新幹線要約文特有の表現にも対応している.
「明らかに」の後の削除
福島らは「見解を明らかにしました。」→「見解。」のようなルールを作って要約を行なってい
るが,本手法では「∼明らかに。」で文を終ることにより細かいルール作成を行なうことなく要
16
山本,池田,大橋 「新幹線要約」のための文末の整形
約することが可能である.「明らかに」を残すことで削減文字数の減少が考えられるが,これに
より少ないルールで多くの文の要約に対応出来ると考えた.また本研究では否定文についても
考慮にいれて要約を行なっている.
和語の換言
福島は「調べを進めています。」→「調査。」のように長いパターンにマッチさせパターンの
置換により要約を行なっている.これはパターンが長いために対応する文が少ないということ
であり,多くの文の要約を行なうためには多くの対応したパターンが必要となる.本研究では,
表
3 に示したような和語と漢語の変換パターンを用いることでより短いパターンのマッチング
で要約を行なうことが出来る.これによりパターン数が少なくても多くの文で要約が可能にな
ると考える.
また,「を示す」の削除,敬語表現の削除においては福島と同様の処理を行なっている.
5 要約実験
本論文の要約手法の妥当性をはかるために,提案手法を Perl によって実装し,毎日新聞
2000 年度版の全記事全文を入力として要約を行なった.新聞記事は句点「。」を文の区切りと
して,
1 文づつ入力した.232,038 文を入力し,73,512 文について要約された出力を得た.
5.1 要約率
要約された文約 7 万文について文の要約率及び 1 文当りの削減文字数を求めた.この結果を
表
4 に示す.要約手法の数字は節番号を示す.また複数の手法が適用されたものではなく 1 種
類の手法のみ適用された文についてのみ示している.提案手法全体で要約率
94 %,すなわち文
字単位で比較した場合に原文に対して
6%の文字列削減を実現した.
表 4 文の要約率
要約手法 4.1 4.2 4.3 4.4 4.5
文数 16825 1313 37995 7510 199
要約率 0.94 0.94 0.94 0.93 0.90
削減文字数 1.60 4.00 2.56 3.12 5.41
要約手法 4.6 4.7 4.8 4.9 全体
文数 7194 600 197 848 72681
要約率 0.96 0.89 0.92 0.87 0.94
削減文字数 2.20 3.93 3.28 6.57 2.45
17
自然言語処理 Vol. 12 No. 6 Nov. 2005
表 4 より未来を示唆する表現の削除 (4.9) が多く削除されていることがわかる.これは他の
手法に比べて削除される部分の判定の条件が緩くなっているためと考えられる.
また断定表現及び敬語表現
(4.1),和語の換言 (4.6) は削除する文字数が決っているために,
多く削除されることはない.
5.2 文末の要約率
一般的に要約率は文章全体や文全体に対して計算する.しかし本手法では主に文末表現のみ
を要約対象にしているため,前節の数値だけでは文末部分がどの程度短くなったのかが明確で
ない.そこで,本節では文末の要約率を計算する.
文末の要約率を計算するには,まず「文末」を定義しなければならない.文末には様々な定
義が可能であるが,本論文では
(1) 機械的に定義可能 (2) 処理対象が要約,であることを考慮し
て以下のように定義した.すなわち,原文と文末整形したものを前方から一致させて,違う表
現になった文字以降を文末と定義した.これを以下の例で説明する.
例
41) 日本交通公社などが 1 月 1 日、社名 を変更する。
→日本交通公社などが
1 月 1 日、社名 変更。
例
41 の場合,原文と要約結果を前方一致させると「日本交通公社などが 1 月 1 日、社名」ま
では両者が一致する.そこで,これ以降を文末表現と定義することによって,下線部「を変更
する」
(5 文字) →「変更」(2 文字) の要約率を計算する.すなわち,
例
41 の文末の要約率 =
2
5
=0.40
となる.
4.7 節の「てしまう」については,文末の整形ではないので除いている.表 5 に各手法によ
る要約率を示す.提案手法全体で文末の要約率
12 %を実現した.
表 5 文末の要約率
要約手法 4.1 4.2 4.3 4.4
文数 16825 1313 37995 7510
要約率 0.07 0 0.08 0.11
要約手法 4.5 4.6 4.8 4.9 全体
文数 199 7194 197 848 72081
要約率 0.52 0.49 0.09 0.17 0.12
18
山本,池田,大橋 「新幹線要約」のための文末の整形
5.3 人手による正解評価
次に,出力された要約結果の品質を評価する.要約された 73,512 文から無作為に 1,000 文
を取り出し,
3 人の被験者が正しい文になっているかを個別に評価して,3 人の評価の多数決に
よって正解の評価を行なった.以下の
2 つを評価の基準とし,この 2 点を満したものを正解と
した.
• 文意が保持されていること
これは要約であるので絶対の条件である.
• 異和感があるときでもそれが少いこと
この判断は被検者が異和感を感じたときでもそれが許せる範囲であった時に異和感が少
ないと判断した.
評価結果を表
6 に示す.ここで,要約手法の数字は節番号を示す.
表 6 本手法における正解率
要約手法 4.1 4.2 4.3 4.4 4.5
文数 231 19 492 107 9
正解数 205 18 481 106 8
正解率 0.89 0.95 0.98 0.99 0.89
要約手法 4.6 4.7 4.8 4.9 全体
文数 116 21 3 13 1000
正解数 113 17 3 12 952
正解率 0.97 0.81 1 0.92 0.95
またそれぞれの人による正解についてのゆれをみるために,一人以上が正解とした時と 3
人が正解とした時の正解率をそれぞれ求めた.それを表 7 に示す.全ての場合において正解率
90 %以上という結果が得られた.
表 7 正解の人数を変えた時の正解率
1 人以上が正解 2 人以上が正解 3 人が正解
正解率 0.98 0.95 0.91
5.4 人間の文末整形との比較
要約文の出力された 73,512 文から無作為に 100 文を取り出しその入力文について人手で文
末の整形を行った.その文について文末の要約率を求めた.
表
8 にその結果を示す.表 8 より,人手による整形と同程度の要約率が得られていることが
分かる.
19
自然言語処理 Vol. 12 No. 6 Nov. 2005
表 8 本手法と人手による整形の比較
本手法 人手による整形
文数 72727 100
文末の要約率 0.52 0.51
文全体の要約率 0.94 0.92
削減文字数 2.45 3.87
表 8 より要約率は文全体,文末ともに人手による整形と近い値が得られている.しかし削減
文字数は大きく異なっている.これは文全体の要約率では文の長さに対して削除された部分が
短かったために大差が生れなかったと考える.また文末の要約率については人手の整形のほう
がより自然な文にしようとするために機械よりも前の部分で助詞を変更するといった整形が行
われたためと考える.
6 考察
6.1 不正解の文について
不正解の文についてその例と対処方法について述べる.
例
42) 本当の顔は世界中の映画を取引する巨大な見本市なのだ。
→
*本当の顔は世界中の映画を取引する巨大な見本市 なの。
例
42 は断定の表現「だ」を削除した時に間違った文となった例である.文末「なのだ」の
「だ」だけを削除したために,残った部分が「なの」という文末としてはふさわしくない形に
なっている.この文は「なのだ」を削除すれば正しい文になる.断定の表現が不足していたこ
とによって起こった間違いであるので,断定の表現を増やすことにより解決が可能である.
例
43) 顔はその人の年輪みたいなもので、喜怒哀楽の表情を積み重ね、人柄を示す。
→
*顔はその人の年輪みたいなもので、喜怒哀楽の表情を積み重ね、人柄。
例
43 は「を示す」を削除した時に間違った文となった例である.「を示す」を削除する際に,
「を示す」の直前が名詞の時に起こる間違いである.名詞がサ変名詞の時は正しい文になる.ま
たサ変名詞以外でも「考え」「意向」「見通し」といったような名詞の時も正しく削除される.こ
れらの名詞は数が多くないので辞書を作ることにより防ぐことができる.
20
山本,池田,大橋 「新幹線要約」のための文末の整形
例 44) スポーツ記事に出てくる『結果を出す』という言葉が 気になります。
→
*スポーツ記事に出てくる『結果を出す』という言葉が 気に。
例
44 は,「なる」を削除した時に間違った文となった例である.これは「気になる」が一つ
の決まった慣用表現であり,この表現を途中で削除したために間違った文になったと考えられ
る.慣用表現の辞書を作ることで防止できる.
例
45) 北部ニーダーザクセン州のシュターデ原発を 2003 年までに廃止することを明らかに
した。
→
*北部ニーダーザクセン州のシュターデ原発を 2003 年まで へ 廃止を明らかに。
例
45 は「明らかに」の後を削除した時に間違った文となった例である.これは「明らかに」
の直前が「助詞「に」+サ変名詞」の時に「に」を「へ」に置き換える処理をした時に間違っ
た文となった.この時,助詞「に」の前が場所を表す単語ならば正しい文になるが,それ以外
の単語であれば,間違った文になる.また,場所を表す場合に助詞「に」を「へ」に言い換え
なくても例
46 に示すように正しい文になる.しかし,助詞「に」を「へ」に置き換えられた例
24 の方がより正しい文となる.
例
46)4 月に北区の西友赤羽店に移転することを明らかにした。
→
*4 月に北区の西友赤羽店 に 移転を明らかに。
助詞「に」の前の単語が場所の場合のみ「へ」に置き換えること,もしくは助詞「に」を
「へ」に置き換えないことにより防ぐことができる.
例
47) 利用者に過度の使用を警告することを決めた。
→
*利用者に過度の使用 を 警告を決定。
例
47 は和語を換言した時に間違った文となった例である.和語を変換する際に,「すること」
を削除する時がある.この時,漢語への換言後に,係り受け関係が間違っているために起こっ
た間違いである.「助詞
1
+名詞+ 助詞
2
+漢語」で文が終わっている時,助詞が両方とも「を」
の時に表現は正しくない.これは 助詞
1
を「の」に置き換えれば正しい文になる.例 48 のよう
に修正すれば良い.
21
自然言語処理 Vol. 12 No. 6 Nov. 2005
例 48) 利用者に過度の使用を警告することを決めた。
→利用者に過度の使用 の
警告を決定。
例
49) 母親を殺してしまおうと思っていた。
→
*母親を 殺しう と思っていた。
例
49 は「てしまう」を削除した時に間違った文となった例である.「てしまう」を削除する
際に,「てしまう」の前の動詞と「てしまう」の活用が一致しない時に起こる間違いである.「て
しまう」を削除する際に,活用形を「てしまう」の活用形に一致させる必要がある.
例
50) 遊泳プールの水質基準を厳しくする方向で検討に入った。
→
*遊泳プールの水質基準を 厳しくへ。
例
50 は「する+未来の行動を示唆する表現」以降を削除し「へ」を付加した時に間違った
文となった例である.「する」がサ変動詞の一部になっていない時に「する」以降を削除すると,
間違った表現の文になる.よって「サ変名詞+する+未来の行動を示唆する表現」が文に含ま
れる時に「する」以降を削除して,「へ」を付加すればよい.
6.2 文末のサ変名詞の動詞性と名詞性
4.3 節のサ変動詞の換言において,「∼は初」で終わる文になることがある.この表現は文意
は分かるのだが人による違和感のゆれが大きかった.このため元々「∼は初」とする処理の多く
を,今回は「∼初めて∼」とする処理に変更した.処理を変更する前の例を例
52∼例 53 に示す.
例
51) プーチン大統領がアラブ国家の指導者と会談するのは初めて。
→プーチン大統領がアラブ国家の指導者との 会談
は初。
例
52) NHKと民放が同じ内容で放送するのは、初めて。
→NHKと民放が同じ内容での 放送は初
。
例
53) 参加の背景を、ASEAN側が公式の場で説明したのは初めて。
→参加の背景を、ASEAN側が公式の場での 説明は初
。
これらの例は人によっては違和感を感じたり文が間違っていると感じる場合がある.しかし
元の文に「初めて」という単語がない場合,つまり「は初」がない場合には正しい表現である
といえる.「初めて」という情報を削除した文についてサ変動詞の変換を行なった文を例
54∼例
56 に示す.
22
山本,池田,大橋 「新幹線要約」のための文末の整形
例 54) プーチン大統領がアラブ国家の指導者と会談する。
→プーチン大統領がアラブ国家の指導者と 会談
。
例
55) NHKと民放が同じ内容で放送する。
→NHKと民放が同じ内容で 放送
。
例
56) 参加の背景を、ASEAN側が公式の場で説明した。
→参加の背景を、ASEAN側が公式の場で 説明
。
これらについては違和感を感じる場合は少ないと思われる.これは「は初」の前のサ変名詞
が大きく関係してくるためと考える.サ変名詞は名詞にも関わらず動作を表すことができる名
詞であることが一般的に知られている.我々は以前に複合名詞中のサ変名詞の動詞的な働きに
ついて議論した
(山本,大橋 2005).サ変名詞が表す動作の度合は,サ変名詞の文での出現位置
や読む人の感性によって様々である.
具体的に例
51 と例 54 での「会談」について考えてみる.まず例 54 では「会談する」とい
うサ変動詞という動詞的な意味で文を補完して読むのが一般的であると思う.日本語において
通常述語が最後に来るので,人が文において述語を見つけられない時は最後の単語を述語的に
考えるて読む傾向にあると考えられる.一方例
51 では「会談」を名詞的意味としてとらえる見
方と例
54 と同様に動詞的意味としてとらえる見方が考えられる.これは例 54 の場合は例 51 と
違いサ変名詞が文末ではなくその手前にあるためにサ変名詞「会談」がサ変名詞としての「会
談する」という意味でらえる場合と普通名詞としての「会談」という意味でとらえる場合の
2
通りの意味の取りかたができると考える.この時,「会談」を普通名詞としてとらえた場合は文
に違和感を感じ,サ変動詞としてとらえると違和感を感じることはない.
本論文の要約間違いとしてサ変名詞以外の名詞で終わっている文をあげたがこれらの文でも
この動詞性が関係している.また,サ変名詞以外にも「考え」のように動詞的な働きが出来る
名詞がある.
6.3 人手の整形文との比較
本手法による整形と人手による整形とを比較するために 5.4 節で作成された人手での整形文
と本手法の出力文について考察する.本手法と同じ結果の文と,文意を変えずに助詞が変わっ
ていた文がほとんどであったが,大きく違う文もあった.そのうちの何文かを以下に示す.例
は原文,本手法の出力文,人手での整形文の順に示す.
例
57) 今後になお課題を残した 形だ。
→今後になお課題を残した 形
。
→今後になお課題を 残す
。
23
自然言語処理 Vol. 12 No. 6 Nov. 2005
例 57 では本手法による文は断定表現「だ」の削除を行なっているが,人手では「形」とい
う表現が大きな意味を持たないということを判断しその削除削除も行なっている.
例
58) カラー写真を使ったグラフ面なども あります。
→カラー写真を使ったグラフ面なども ある
。
→カラー写真を使ったグラフ面なども。
例
58 では本手法による文は敬語表現「ます」の削除を行なっているが,人手での整形にお
いては人が文を読んで文を補完する際は肯定の意味で補完を行なうので削除が可能であると判
断している.これは「ある」も断定表現と同様に削除できる考えられる.またこの時文が「も」
で終わっている.これは新幹線要約ではしばしば見られる表現であるが,これについては本手
法では実現できていない.
例
59) 同改正案は今月中に成立 する見通しだ。
→同改正案は今月中に成立 する見通し
。
→同改正案は今月中に成立 へ
。
例
59 は本手法による文は断定表現「だ」の削除を行なっているが,人手での整形においては
「する見通しだ」を「へ」の一語で置き換えている.これは「見通し」も
4.9 節で述べた「へ」
で終わる文への整形が可能であることを示している.
例
60) クレジットカードの利用 を中止すると発表した。
→クレジットカードの利用 を中止すると発表。
→クレジットカードの利用 の中止を発表。
例
60 では本手法では「発表する」というサ変動詞をサ変名詞に換言しているが,人手によ
る整形では「すると」という表現も削除している.本手法では「すること」は削除の対象とし
たが「すると」も同様に削除可能と考える.
例
61) この結果、調査捕鯨問題をめぐる日米間の 対立は収束した。
→この結果、調査捕鯨問題をめぐる日米間の 対立収束
。
→この結果、調査捕鯨問題をめぐる日米間の 対立は収束
。
24
山本,池田,大橋 「新幹線要約」のための文末の整形
例 61 は今までの例とは逆に本手法が短くなった例である.本手法では「収束した」という
サ変動詞をサ変名詞に換言したあとに文末を複合名詞化することにより助詞の削除をしている
が人手による整形ではその助詞を削除して複合名詞化をしていない.このような文はいくつか
見られた.
6.4 要約されなかった文
本手法がどの程度実行漏れがあるかを調べるために,本手法で要約されなかった 158,526 文
から無作為に
200 文取り出して,本手法で要約する文にも関わらず要約されていない文がない
かを調べた.その結果,本手法で処理されるべき文で処理されていない文はなかったが,要約
を想定していたにも関わらず要約されていない文が
9 文あった.以下に例を原文,想定してい
た要約文の順で示す.
例
62) 焼け跡から池本さんが遺体で発見 された。
→焼け跡から池本さんが遺体で発見。
例
62 は自立語の判断を茶筌の解析結果が「非自立」となった名詞と動詞を自立語ではない
としたので,「れる」は「非自立」とはならず動詞の「接尾」となったので自立語として処理さ
れたために例
62 の換言が行われなかった.「接尾」も非自立語であるという判断を追加すること
が考えられる.
7 結論
新幹線の電光掲示板で使用されるような簡潔で短い文への要約を目的として,体言止めや助
詞止めへの文末の整形手法を提案した.提案手法を実装し,新聞記事を入力として要約したと
ころ,文末の要約率は
12 %であり,1 文当たり 2.5 文字削除することができた.これは人間が
行なった文末整形の結果とほぼ同じ値となった.人手で出力の評価を行なった結果,正解率は
95 %となった.
今後の課題として
6.1 節で示したように,断定の表現や慣用表現が不足しているのでそれに
対応すること,係り受け関係が間違う文があったので,その文に対して係受け関係を修復する
ことが挙げられる.新幹線要約で良く見られる表現として文末が助詞「も」で終わる記事があ
るがこれへの対応も課題である.
25
自然言語処理 Vol. 12 No. 6 Nov. 2005
謝辞
本研究の一部は,科学研究費補助金 若手
(B) 「高密度表現を利用したまとめ型要約に必要
な言語変換技術」 課題番号
16700134,及び科学研究費補助金 基盤 (A) 「円滑な情報伝達を支
援する言語規格と言語変換技術」 課題番号
16200009 によって実施した.
使用した言語資源及びツール
(1) 日経ニュースメール,NIKKEI-goo,http://nikkeimail.goo.ne.jp/
(2)
日本経済新聞全記事データベース 2000 年度版,日本経済新聞社.
(3)
形態素解析器「茶筌」,Ver.2.3.3,奈良先端科学技術大学院大学 松本研究室,
http://chasen.naist.jp/hiki/ChaSen/
(4)
毎日新聞全記事データベース 2000 年版,毎日新聞社.
参考文献
福島孝博,江原暉将,白井克彦 (1999). “文単純化のための文字数圧縮規則.” 言語処理学会 第
5回年次大会発表論文集
, pp. 221–224.
石ざこ友子,片岡明,増山繁,中川聖一 (1999). “テレビニュース番組の字幕作成のための重複
部削除による要約
.” 情報処理学会 研究報告 NL133-7, pp. 45–52.
三上真,増山繁,中川聖一 (1999). “ニュース番組における字幕生成のための文内短縮による要
約
.” 言語処理学会論文誌「自然言語処理」, 6 (6), pp. 65–81.
山本和英,大橋一輝 (2005). “「サ変動詞+名詞」の複合名詞への換言.” 言語処理学会論文誌
「自然言語処理」
, 12 (3), pp. 19–42.
Ohtake, K. and Yamamoto, K. (2001). “Paraphrasing Honorifics.” In Proc. of NLPRS2001
Post-Conference Workshop on Automatic Paraphrasing: Theories and Applications,
pp. 13–20.
大森岳史,増田英孝,中川裕志 (2003). “Web 新聞記事の要約とその携帯端末向け記事による
評価
.” 情報処理学会 研究報告 NL153-1, pp. 1–8.
佐藤大,岩越守孝,増田英孝,中川裕志 (2004). “Web と携帯端末向けの新聞記事の対応コー
パスからの言い換え抽出
.” 情報処理学会 研究報告 NL159-27, pp. 193–200.
若尾孝博,江原暉将,白井克彦 (1997). “テレビニュース番組字幕に見られる要約の手法.” 情
報処理学会 研究報告
NL122-13, pp. 83–89.
26
山本,池田,大橋 「新幹線要約」のための文末の整形
略歴
山本 和英: 1996 年豊橋技術科学大学大学院工学研究科博士後期課程システム
情報工学専攻修了.博士
(工学).1996 年∼2005 年 (株) 国際電気通信基礎技
術研究所
(ATR) 研究員 (2002 年∼2005 年客員研究員).1998 年中国科学院
自動化研究所国外訪問学者.
2002 年より長岡技術科学大学電気系,現在助
教授.言語表現加工技術
(要約,換言,翻訳),アジア言語処理 (中国語,韓
国語など
),言語処理技術を活用したテキストマイニングなどに興味がある.
言語処理学会,人工知能学会,情報処理学会,
ACL 各会員.
e-mail: yamamoto@fw.ipsj.or.jp
池田 諭史: 2005 年長岡技術科学大学電気電子情報工学課程卒業.現在,同大
学大学院工学研究科修士課程電気電子情報工学専攻在学中.日本語要約処理
の研究に従事.言語処理学会学生会員.
e-mail:ikeda@nlp.nagaokaut.ac.jp
大橋 一輝: 2004 年長岡技術科学大学電気電子情報工学課程卒業.現在,同大
学大学院工学研究科修士課程電気電子情報工学専攻在学中.換言処理,統計
的機械翻訳の研究に従事.言語処理学会学生会員.
e-mail:ohashi@nlp.nagaokaut.ac.jp
(2004 年 11 月 30 日受付)
(2005
年 1 月 21 日 再受付)
(2005
年 3 月 9 日採録)
27