Content uploaded by Kazuhide Yamamoto
Author content
All content in this area was uploaded by Kazuhide Yamamoto
Content may be subject to copyright.
係り受け関係を用いた重複表現削除
石ざこ 友子
y
片岡 明
y
増山 繁
y
山本 和英
yy
中川 聖一
yyy
字幕生成のためのニュース文要約のような報知的要約では,原文の情報を落とさないこ
とが望まれる.本論文では,このような原文の情報を極力落とさない要約手法の一つと
して,重複部削除による要約手法について議論する.テキスト内に,同一の事象を表す部
分が再度出現したならば,その部分を削除することによって冗長度を減少させ,情報欠落
を可能な限り回避した要約を行う.事象の重複を認定するために,係り受け関係のある
2
語が一つの事象を表していると仮定し,
2
語の係り受け関係の重複を事象の重複と認定
する.また,
2
語の係り受け関係を用いて重複部を削除するだけでは,読みやすく,か
つ,自然な要約文を生成することができない.そのために考慮すべきいくつかの情報につ
いて議論する.以上の方法のうち,実装可能な部分を計算機上に実装し,評価実験を行っ
た.人間による削除箇所と本手法による削除箇所とを比較したところ,再現率
81.0%
,
適合率
85.1%
の結果を得た.
キーワード
:
報知的要約,重複部削除
,2
語の係り受け関係
Reductionofoverlapping expressions
using dependency relations
Yuko Ishizako
y
, Akira Kataoka
y
, Shigeru Masuyama
y
,
Kazuhide Yamamoto
yy
and
Seiichi Nakagawa
yyy
Informative summaries are used as substitutions for original texts. It is necessary for
those for captions of newscasting, in particular, to keep the original information as
much as possible. This paper discusses a summarization method of reducing overlaps
to generate informative summaries. Deleting a part of the text which refers to the
same content as some other part can reduce redundancy and avoid lack of informa-
tion. In order to recognize overlaps, we utilize a pair of dependent words. Deletion of
overlaps only using a pair of words having a dependency sometimes makes a summary
unnatural and dicult to read. Therefore, what should b e considered to cope with
the problems is described. We compared summaries of TV news texts independently
generated by our method and by human for evaluation. The experimental results
show that the precision attained 85.1% and the recall attained 81.0%, respectively.
KeyWords:
informative summarization, reduction of overlaps, a pair of words having
dependency relation
y
豊橋技術科学大学 知識情報工学系
, Department of Knowledge-based Information Engineering,
Toyohashi UniversityofTechnology
yy
ATR
音声言語通信研究所
,ATR Spoken Language Translation Research Laboratories
yyy
豊橋技術科学大学 情報工学系
, Department of Information and Computer Sciences,
1
自然言語処理
Vol. 7 No. 4 Oct. 2000
1
はじめに
近年,テキストの自動要約の研究が盛んに行われている
(
奥村 難波
1999)
.要約は,その利用
目的により,原文の代わりとして用いる報知的
(informative)
要約と,原文を参照する前の段階で
原文の適切性の判断などに用いる指示的
(indicative)
要約とに分類される
(Hand 1997)
.
報知的要約には,
TV
ニュース番組への字幕生成
(
例えば
,(
白井
,
江原
,
沢村
,
福島
,
丸山
,
門
馬
1999)
参照
)
などのように
,
情報を落とすべきではない要約も含まれる.このような要約文の生
成に,文や段落を単位とした重要文抽出の手法を利用すると,採用されなかった文に含まれる情報
が欠落する可能性が高い.
情報欠落の可能性が低い要約手法として,言い換えによる要約
(
若尾
,
江原
,
白井
1997;
山崎
,
三
上
,
増山
,
中川
1998)
があるが,要約率に限界があることから
(
例えば,
(
山崎他
1998)
参照
)
,他の
要約手法との併用が必要となる.
情報欠落の可能性を減少させた手法として,これまでいくつかの手法が提案されている.福島
ら
(
福島
,
江原
,
白井
1999)
は,長文を短文に分割した後に重要文抽出を行うことで,情報欠落の可
能性の減少を試みている.しかし,重要文として採用されなかった文に含まれる情報には,欠落の
可能性が残っていると言える.
三上ら
(
三上
,
増山
,
中川
1999)
は,文ごとに冗長な部分を削除することにより,文単位での抽
出による情報の偏りを回避している.この手法では,連体修飾部や例示の部分を削除しても,文の
中心内容は影響を受けないとして,これらの部分を削除対象としている.しかし,削除された部分
が,読み手にとって重要と判断される場合もあることが三上らのアンケート調査の結果より明らか
になっている.さらに,三上らは,連体修飾部等の意味に立ち入らず,構文構造のみから削除部分
を認定しており,また,ある文を要約する際には,他の文の情報を使用していない.そのため,例
1
の下線部のように,意味が同じ修飾部であっても,一方が冗長であると認定されて削除されるな
らば,もう一方も同様に削除され,これらの情報は欠落する.逆に,冗長であると認定されなけれ
ば,両方とも残されるので,読み手にとって既知の情報を再度伝えることになる.
例
1
:
薬害エイズの真相究明につながる 新たなファイルがあることが明らかになった問
題で、
111111
この問題は、 薬害エイズの真相究明につながる 厚生省のファイルがこれまでに見
つかった九冊の他にさらに七冊あることがわかったもので、
111
そこで本論文では,このような,意味の重複部分を削除する要約手法について議論する.テキ
スト内で,既出の部分と同一の意味を表している部分のみを削除することにより,情報欠落の可能
性を極力回避し,冗長度を減少させることが可能であると考えられる.
意味が同一であるかを判定するためには意味を理解する必要があるが,現状の技術で機械によ
Toyohashi UniversityofTechnology
2
石ざこ・片岡・増山・山本・中川 係り受け関係を用いた重複表現削除
る意味理解は困難である.よって,意味の重複のうち,表現の重複で認定可能な事象
1
を対象とす
る.例
1
の下線部のように,テキスト内に同じ事象を表す部分が再び現われたならば,その修飾部
(
第
2
文の下線部
)
を削除しても,人間は理解が可能である.
本論文では,事象の重複部分の削除による要約を,事象の重複部を認定する「重複部の認定」
と,重複部のうち削除可能な部分を決定する「重複部の削除」とに分けて議論する.
「重複部の認定」では,
2
語の係り受け関係を用いて重複部の認定を行う.係り受け関係のあ
る
2
つの語が,一つの事象を表していると仮定し,それを比較することで事象の重複を認定する.
2
節では,この
2
語の係り受け関係を用いた重複部の認定について述べる.
一方,認定された重複部がすべて削除可能であるとは限らない.たとえ重複していたとして
も,削除すると読み手の理解が困難になることや,不自然な要約文が生成されることがある.よっ
て,「重複部の削除」では,全ての重複部を削除するのではなく,削除可能な部分を決定する必要
がある.
3
節では,決定の際に考慮すべき情報について述べる.
以下,
4
節では,
2
節で述べる重複部の認定と,
3
節で示す情報のうち実現可能なものとを用
いた要約手法の計算機上での実現について述べる.
5
節では,本手法の評価を行う.記事内に重複
の多いニュース原稿を入力テキストとして要約を行い,どの程度重複部分を削除可能か,また,削
除箇所が妥当であるかの評価実験を行った.ニュース原稿は,
NHK
放送技術研究所との共同研究
のため提供された,
NHK
汎用原稿データベースを使用した.
6
節では,評価実験の結果より,人
間
(
筆者
)
は削除したが本手法では削除されなかった重複部,および,妥当でない削除箇所について
考察する.さらに,本手法の妥当性と有効性等について考察する.また,
7
節では関連研究につい
て論じる.
テキスト自動要約においては
,
一般的に単独の手法のみでは必ずしも十分な要約率が達成できる
とは限らない
.
むしろ
,
複数の要約手法を併用することで望ましい要約が得られることが多い
.
本論
文で提唱する手法は
,
要約を行なう応用において要素技術の一つとして用いることができるが
,
要約
率を向上させるには文間の重複表現以外を用いた他の要約技術との併用を前提とする
.
2
重複部の認定
2.1 2
語の係り受け関係の利用
事象の重複を認定するために,
1
語による表現が重複しているか否かの照合を行うことを考え
る.以下の例の第
1
文と第
2
文は,「太郎がボールを買った」という事象が重複している.この例
文では,
1
語による表現「太郎」
,
「ボール」
,
「買う」の重複によって,重複している部分を認定
することができる.
1
本論文では,語の集まりによって表現される対象物や現象,動作などを事象と呼ぶ.
3
自然言語処理
Vol. 7 No. 4 Oct. 2000
例
2
:
太郎がボールを買った。
昨日、 太郎が スポーツ用品店で ボールを買った。
以下の例では,
1
語による表現「走る」
,
「グランド」が重複しているが
,
それらの語が示して
いる事象は異なっている.第
1
文では,走ったのは太郎であり,向かっている先がグランドであ
る.しかし,第
2
文では,走っているのが次郎で,走っている場所がグランドである.
例
3
:
太郎は、 走って グランド へ向かった。
そして、 グランド を 走って いる次郎を応援した。
このように,
1
語による表現の重複によって重複部を認定すると,重複していない事象を誤っ
て認定する可能性がある.誤った認定を避けるために,係り受け関係のある
2
つの語が一つの事象
を示していると仮定し,これを
2
語の係り受け関係と呼ぶ.
文の骨格は
2
語の係り受け関係の組合せにより成っていると考えることができる.例
2
の第
1
文は,「太郎が買った」
,
「ボールを買った」という
2
語の係り受け関係の組合せで表すことがで
きる.同様に第
2
文は,上記
2
つの
2
語の係り受け関係に,「昨日買った」
,
「スポーツ用品店で
買った」を加えた,
4
つの
2
語の係り受け関係で表すことができる.第
1
文と第
2
文で重複してい
る
2
語の係り受け関係が,事象の重複を表している.
この
2
語の係り受け関係を用いて,例
3
の
2
つの文における事象の重複の認定を行う.第
1
文
に含まれる
2
語の係り受け関係は,「太郎が向かった」
,
「走って向かった」
,
「グランドへ向かっ
た」となり,第
2
文は「グランドを走っている」
,
「走っている次郎」
,
「次郎を応援した」とな
る.よって,第
1
文と第
2
文とで重複している
2
語の係り受け関係は存在しないので,事象の重複
部はないと認定する.
このように,
2
語の係り受け関係を用いると,事象の重複を誤って認定する可能性を減少さ
せ,また,複数の事象により成っている文から,重複している事象のみを抽出することが可能とな
る.
2
語の係り受け関係は,その係り受け関係より,表
1
の関係
1
〜関係
4
に分類することができ
る.名詞
A
が名詞
B
を修飾する「
A
の
B
」の関係は,連体修飾語と被修飾語の名詞の関係の一つ
だが,後述するようにいくつかの用法があるため,本論文では区別して扱う.
係り受け関係にある語
w
1
;w
2
から構成される,
2
語の係り受け関係を
R
(
w
1
;w
2
;r
)
と表す.第
1
項が係り元の語,第
2
項が係り先の語であり,
r
は表
1
の分類における関係の番号
(1
〜
4)
であ
る.本手法では,
2
語の係り受け関係において,文型の変化に柔軟に対応するために,助詞の情報
は扱わない.また,これらの語は,活用による変化に対応するために,基本形を用いる.
4
石ざこ・片岡・増山・山本・中川 係り受け関係を用いた重複表現削除
表
1
2
語の係り受け関係の分類
分類 例
関係
1
:用言とその用言がとる格要素 太郎が買った
,
ボールを買った
関係
2
:連体修飾語と被修飾語の名詞 買ったボール
関係
3
:連用修飾語と被修飾語の用言 本格的に検討する
関係
4
:
A
の
B
太郎のボール
2.2
重複の認定
2
語の係り受け関係の重複
関係
1
の
R
1
=(
w
1
;w
2
;
1)
と
R
2
=(
w
3
;w
4
;
1)
において,
w
1
と
w
3
が同一の語であり,か
つ,
w
2
と
w
4
も同一の語であるならば,
R
1
と
R
2
は重複していると認定する.関係
2,3,4
同士の
重複の認定も同様に行う.
同じ種類の関係同士だけではなく,異なる種類の関係同士であっても,それらの示す事象が重
複している場合がある.そのため,異なる種類の関係であっても,以下のように照合
2
を行う.
a.
関係
2
連体修飾語には,被修飾語である名詞が連体修飾語の格要素となる「内の関係」と,格要素と
ならない「外の関係」とがある
(
寺村
1975 1978)
.表
1
の関係
2
の例「買ったボール」の連体修飾
語と被修飾語とは「内の関係」であり,被修飾語のボールを修飾語の格要素とすると,関係
1
であ
る,「ボールを買った」となる.このように,関係
2
が表す事象と,関係
1
が表す事象は重複して
いる可能性がある.よって,関係
2
の連体修飾語と被修飾語とが「内の関係」であれば,関係
1
と
関係
2
を相互に照合を行い,関係
1
の
R
1
=(
w
1
;w
2
;
1)
と,同一の語によって構成される関係
2
の
R
2
(
w
2
;w
1
;
2)
とは,重複していると認定する.
b.
関係
3
関係
3
において,連用修飾語が形容詞,あるいは,形容動詞であり,被修飾語が動詞である場
合は,関係
1
,および,関係
2
が示す事象と重複している可能性がある.例えば,関係
3
である
「本格的に検討する」は,関係
1
である「検討が本格的だ」と,関係
2
である「本格的な検討」と
重複している.よって,関係
3
は,関係
1
および関係
2
と相互に照合を行う.関係
3
である
R
3
=
(
w
1
;w
2
;
3)
の動詞
w
2
を名詞形にした
w
0
2
と
w
1
によって成る,関係
1
の
R
1
=(
w
0
2
;w
1
;
1)
およ
び,関係
2
の
R
2
=(
w
1
;w
0
2
;
2)
は,重複していると認定する.
c.
関係
4
2
本論文において「照合」という語は,比較する処理のことを指し,比較した結果,同一であったという意味は含まない.
5
自然言語処理
Vol. 7 No. 4 Oct. 2000
「
A
の
B
」には以下のような用法があり,
A
と
B
のどちらも用言となりうることが,島津ら
(
島津
,
内藤
,
野村
1985)
によって指摘されている.
i. A
が
B
の格要素:ビルの建設 → 関係
1
に対応
ii. B
が
A
の格要素:類似の経路 → 関係
2
に対応
iii. A
が
V
する
(
動詞を補う
)B
:彼女の鉛筆 → 関係
1
と関係
2
の組合せに対応
関係
4
を
R
1
=(
A; B ;
4)
とすると,
i.
の用法より関係
1
の
R
2
=(
A; B ;
1)
と,関係
2
の
R
3
=
(
B; A;
2)
との重複を認定する.これにより,「ビルの建設」が「ビルを建設する」
,
および
,
「建設
するビル」と重複していると認定する.
ii.
の用法より関係
1
の
R
4
=(
B; A;
1)
と,関係
2
の
R
5
=(
A; B ;
2)
との重複を認定する.こ
れにより,「類似の経路」が「経路が類似する」
,
および
,
「類似する経路」と重複していると認定
する.
また,
iii.
の用法により,用言が省略されているとみなすことができるものもある.よって,
R
1
=(
A; B ;
4)
の名詞
A; B
と,関係
1
および関係
2
のうち,同一の用言
v
と関係のある名詞
A; B
との重複を認定する.
R
1
と重複している関係
1
,および,関係
2
の組合せを以下に示す.
関係
1
の
R
6
=(
A; V ;
1)
と
R
7
=(
B; V;
1)
関係
1
の
R
8
=(
A; V ;
1)
と関係
2
の
R
9
=(
V; B;
2)
関係
1
の
R
10
=(
B; V;
1)
と関係
2
の
R
11
=(
V; A;
2)
これにより,「彼女の鉛筆」が「彼女が鉛筆を所有する」,「彼女が所有する鉛筆」,「鉛筆を所
有する彼女」と重複していると認定される。
複合名詞と
2
語の係り受け関係の重複
複合名詞内の名詞同士の関係は,「
A
の
B
」の関係で表しても,意味が変わらない場合があ
る.例えば,「財政問題」と「財政の問題」とは同一の内容を指している.よって,複合名詞は
一つの語として扱い,その係り先の語との関係を既出の関係と照合する
複合名詞を構成する各名詞間の係り受け構造から,複数の部分
p
1
;p
2
;
111
;p
n
に分割して,
複数の関係
4
「
p
i
の
p
j
」
(
i<j
)
として扱う.
の
2
通りで重複の認定を行う.
2.3
提題表現
提題表現は,
2
語の係り受け関係とは独立に重複を認定することができる.提題表現は,その
文の主題を提示するものであり,
1
つ前の文の提題表現と同じ名詞であれば,その名詞を省略して
も,人は前の文の主題が続いていると理解する.よって,以下の例のように,提題表現の名詞と前
文の提題表現の名詞とが同一であれば,
2
語の係り受け関係が重複していなくても,重複と認定す
る.
6
石ざこ・片岡・増山・山本・中川 係り受け関係を用いた重複表現削除
例
4
:
橋本総理大臣は
111111
に懸念を表しました。
また 橋本総理大臣は
111111
という考えを示しました。
3
重複部の削除
本節では,重複部削除において必要となる情報について整理を行う.重複部と認定された
2
語
の係り受け関係,および,提題表現を削除することにより要約を行うが,理解しやすく,かつ,自
然な要約文を生成するためには,いくつかの情報を考慮しなければならない.これらの情報の中に
は,現段階では機械による実現が困難なものもあるが,重複部削除に必要な情報を整理することは
有用である.
3.1
削除対象
重複している
2
語の係り受け関係であっても,その全体を削除してしまうと,理解が困難な文
となる場合がある.以下に示す例文では,「韓国との連携を」が重複部と認定される.しかし,
2
度目に出現した「韓国との連携を」を削除すると,何を重視するのかの理解が困難な文となる.
例
5
:
「韓国との 密接な 連携を 必要とする」と述べ、
111
では
[
韓国との連携を
]
重視す
る考えを示しました。
これは,連携という語について,「連携を必要とする」という事象は既出であるが,「連携
を重視する」という事象は述べられていないためである.すなわち,
2
語の係り受け関係
R
1
=
(
w
1
;w
2
;r
)
が重複していても,係り先となっている語
w
2
は,その係り先の語
w
3
との
2
語の係り
受け関係
R
2
=(
w
2
;w
3
;r
)
が重複していなければ,削除することはできない.よって,重複してい
る
2
語の係り受け関係の
2
つの語のうち,係り元の語のみ削除を行う.
3.2
並列する節全体の削除
直接引用文を含む文では,以下の様な節の並列が見られる.
例
6
:
橋本総理大臣は、中国の核実験について、「今月モスクワで原子力安全サミット
が開催されるが、
111
。我々の立場は、実験の早期停止を求めることだ」と述べ、
原子力安全サミットを前に、核実験の停止を重ねて求めました。
後半の節
(
下線部
)
の内容は,引用文を言い換えている場合が多く,また,ニュース文では,第
1
文
等で同じ内容が既に示されている事が多い.そのため,重複している
2
語の係り受け関係の係り元
を削除すると,係り先である文末の述部「求めました」のみが残存し,
7
自然言語処理
Vol. 7 No. 4 Oct. 2000
橋本総理大臣は,
111
「
111111
」と述べ、求めました。
という不自然な文を生成してしまう.自然な文を生成するには,「求める」の格要素「停止を」を
残存させる必要があるが,「停止を求めた」ことについては既に述べられているため,冗長とな
る.よって,冗長度を落とし,自然な文を生成するためには,後半の節全体を削除することが考え
られる.この際に,前半の節の文末に,文末表現を補完する必要があるが,削除する後半の節から
抽出して,補完が可能であると考えられる.
3.3
名詞の修飾要素の削除
重複部と認定された
2
語の係り受け関係が連体修飾語と被修飾語の名詞の関係,すなわち,関
係
2
,または,関係
4
であった場合,その係り元である連体修飾語を削除すると意味の理解が困難
になる可能性がある.一般に,連体修飾語は,以下の
2
つの要因を考慮して削除すべきである.
形式的表現の修飾要素の削除
被修飾語の名詞が,形式的表現
(
三上他
1999)
である場合は,その修飾語を削除すると意味が
とれなくなる可能性がある.形式的表現は,「考え」
,
「状況」のようなその語単独では,あまり
意味を持たない語である.そのため,以下の例のように修飾語を削除すると,どのような考えなの
か,どのような状況なのかを限定することができなくなり,読み手の理解が困難になる.
例
7
:
[
財政支出を予算案から削除する
]
考え はないことを強調しました。
[
話し合う
]
状況 になっていない。
しかし,以下の例のように,形式的表現であっても,修飾要素を削除してもよい場合もある.
例
8
:
昨日から、困った事態になっている。
[
困った
]
事態 を解消するため、
111
「事態が複雑になる」や「事態を解消する」のように,何かの事態が何らかの状態になる,また
は,何かの事態を何らかの状態にする,という用法の場合は,「事態」を限定する修飾要素を削
除可能であると考えられる.しかし,「〜が…な事態になる」や,「〜が…の事態に至る」のよう
な場合は,削除すると不自然になると考えられる.よって,形式的表現の修飾語は,その用法によ
り,削除可能であるか否かを認定する必要がある.
ダ文の修飾要素の削除
以下の例の第
2
文は,ダ文
(
述部が名詞+判定詞からなる
)
である.
例
9
:
食中毒の 原因の食材を 特定した。
8
石ざこ・片岡・増山・山本・中川 係り受け関係を用いた重複表現削除
カイワレ大根が
[
原因の
]
食材だ。
第
2
文は,第
1
文の下線部と重複しているので,「原因の」が削除される.しかし,第
2
文はカイ
ワレ大根が食材であることを述べているのではなく,カイワレ大根が原因であるということを述べ
ているので,不自然な文となっている.第
2
文の修飾部が削除不可能な理由は,述部の名詞とその
文の主語の関係にあると考えられる.主語の名詞「カイワレ大根」の意味は,述語の名詞「食材」
の意味を包含している.さらに,その包含関係は読み手にとって明らかである.そのため,述部の
名詞の修飾要素「原因の」を削除すると,不自然な文となる.このように,ダ文の場合は,述部の
名詞よりも,その修飾語が重要な場合もある.
3.4
対照表現である修飾要素の削除
同一文章内に,「輸入の 血液製剤」と「国内産の 血液製剤」のように,同じ語「血液製材」が
対照表現である修飾語を伴って出現する場合がある.これらの
2
語の係り受け関係の「血液製材」
に対する修飾語を削除すると,どちらの血液製材について述べているのか分からなくなる.よっ
て,ある語
w
1
の修飾語
w
2
を削除する際には,同一文章内で,
w
1
が,
w
2
の対照表現である修飾
語
w
3
を伴って出現しているか否かを判定し,出現している場合には,修飾語
w
2
の削除を行わな
いよう考慮しなければならない.
3.5
用言がとる格要素の削除
用言がとる格要素を削除すると,その用言だけでは意味を理解できない場合がある.そのよう
な例を以下に示す。
例
10
:
[
台湾海峡を
]
めぐる 今回の事態は
111
[
先送りすることも
]
ある という考えを
111
111
、引き続き
[
受注競争が
]
激しく、
111
。
これらの動詞や形容詞は広い意味を持つため,いずれかの格要素を残す必要性が高いと考えられ
る.しかし,以下のような文脈を考えると,「ある」の格要素が残されていなくても理解が可能で
あることがわかる.
例
11
:
過半数の賛成があるかが心配だ。
[
過半数の賛成が
]
あれば、法案が可決される。
よって,これらの用言がとる格要素のうち,どれを削除すべきでないかは,記事中で
2
語の係り受
け関係が出現する距離や,どの程度記事の中心になっているかなどの文脈にも依存すると考えられ
る.
9
自然言語処理
Vol. 7 No. 4 Oct. 2000
4
計算機上での実現
4.1
定義
2
節で述べた方法で重複部を認定するために,語,および,
2
語の係り受け関係について定義す
る.
○ 語の定義
JUMAN
3
による形態素解析,
KNP
3
による構文解析を行ない,それぞれの文節内の
自立語:名詞
(
形式名詞,副詞的名詞を除く
)
,動詞,形容詞,副詞
付属語:名詞接頭辞,サ変動詞「する」
からなる語群を,
1
つの語として扱う.よって,複合名詞は
1
つの名詞として,サ変名詞+「す
る」は
1
つの動詞として扱う.また,名詞+動詞
(
先
/
送り
/
する
)
,動詞+動詞
(
創り
/
出す
)
な
ども,一つの動詞として扱う.ただし,動詞,または,形容詞の後に形式名詞または副詞的名詞が
くる場合は,動詞+形式名詞で一つの名詞とし,
2
文節を一つの単位として扱う.
例
11
:問題を処理することが先決
取り出される関係:
(
問題
;
処理する
;
1)
(
処理する
(
こと
)
;
先決
;
1)
○
2
語の係り受け関係の定義
KNP
による係り受け解析結果で,係り受け関係にある
2
つの語を
2
語の係り受け関係とする.
4.2
重複部の認定
2
語の係り受け関係の照合
4.1
節で定義した
2
語の係り受け関係を
2.2
節で述べた方法で,既出の
2
語の係り受け関係と
照合を行い,重複部を認定する.ただし,
2.2
節
a.
で述べた関係
2
と関係
1
との照合において,連
体修飾語と被修飾語である名詞とが「外の関係」である関係
2
は,関係
1
に変換することはできな
い.そのため,たとえ
2
つの関係がどちらも
w
1
,
w
2
によって構成されていても,重複と認定する
ことはできない.しかし,「外の関係」で現われた連体修飾部の用言と被修飾部の名詞が,同一テ
キスト内に,用言とその用言がとる格の関係で出現する可能性は低いので,実用上区別を行わなく
ても問題はないと考えられる.このため本手法ではこれらを区別せず照合を行う.
また,
2.2
節
2.
で述べたように,複合名詞は
2
通りの照合を行う.
3 http://pine.kuee.kyoto-u.ac.jp/nl-resource/
10
石ざこ・片岡・増山・山本・中川 係り受け関係を用いた重複表現削除
語の照合
語の照合において,複合名詞とその省略形とを重複していると認定するために,次のように照
合を行う.比較する
2
つの複合名詞
(
一方が名詞
1
つでも可
)
の形態素数の和に対し,重複している
形態素数の和
(2
語に共通なので,
1
つ重複していれば+
2)
が
5
割以上を占めていたら,同じもの
を意味する複合名詞であると認定する.
例
12
:「ビデオ
/
テープ」と「テープ」
形態素数の和:
3
重複している形態素数:
2
複合名詞の照合
2.2
節で述べたように,複合名詞は,それを構成する各名詞間の係り受け構造から,複数の部
分
p
1
;p
2
;
111
;p
n
に分割して,複数の関係
4
「
p
i
の
p
j
」
(
i<j
)
として照合を行う必要がある.し
かし,本手法では,複合名詞間の重複の削除は行なわない.それは,複合名詞内の名詞群をどのよ
うに
2
語の係り受け関係「
A
の
B
」に分割するかが問題となるからである.例えば,「農協系金融
機関」という複合名詞は,
JUMAN
の形態素解析により「農協
/
系
/
金融
/
機関」の
4
つの形態
素に分割される.この複合名詞を「
A
の
B
」の関係で表すならば,「農協系の金融機関」とすべき
である.また,「老人
/
保険
/
福祉
/
審議会」は「老人保険福祉の審議会」とすべきである.さら
に,「農協系金融機関」を構成する複合名詞「金融機関」は,「金融の機関」と分割することもで
きる.このように,形態素群をどのように「
A
の
B
」に分割するかは,複合名詞の持つ意味によっ
て異なる.「財政の問題」と「財政問題」の照合のように,複合名詞内の形態素群
A
と
B
が同一
文章中に関係として出現している場合は,
A
と
B
への分割が可能であると判断できる.しかし,
関係として出現していない場合は,どこで分割すべきなのかの判断は困難である.
4.3
重複部の削除
実装困難な情報
3
節で述べた情報のうち,本手法で実装を行わないものについて,その理由を述べる.
○ダ文の修飾要素の削除
3.3
節で述べたように,ダ文において,その述部の名詞の修飾要素が削除不可能であることを判
定するためには,主語と述部の名詞の意味の範囲を認定し,比較する必要がある.しかし,この比
較を行うには,世界知識を含めた大規模なシソーラスが必要となる.さらに,判定詞「だ」は省略
されることもある.もし,
3.3
節例
9
の第
2
文が「カイワレ大根が原因の食材
(
だ
)
とは
111
」のよ
うに,「だ」が省略された形であった場合,構文解析結果からも,省略を認定できないため,削除
可能か不可能かの認定はより困難になる.
11
自然言語処理
Vol. 7 No. 4 Oct. 2000
○対照表現である修飾要素の削除
3.4
節で述べた,修飾語が対照表現であるかの認定を行うために,辞書を用いることが考えら
れる.しかし,対照表現となる修飾語を辞書に全て列挙することは困難である.また,文脈によっ
て,修飾語が対照表現であるかの認定には,背景知識が必要になる場合もあると考えられる.これ
らは,背景の知識を含めて判断する必要がある.
○用言がとる格要素の削除
3.5
節で述べたように,用言がとる各格要素に対して,削除すべきか否かを判定するためには,
記事中で
2
語の係り受け関係が出現する距離や,どの程度記事の中心になっているかなどの文脈を
考慮する必要がある.
削除の方法
3
節で述べた情報を用いて,重複部の削除を計算機上で実現する方法について述べる.
なお,形式的表現の修飾要素の削除への対処については,
3.3
節で述べた用法の違いを,助詞
の種類や動詞の種類,あるいは,それらの組合せなどにより区別することが考えられる.しかし,
形式的表現ごとに条件が異なると考えられ,それらに対して全ての条件を辞書に登録することは困
難である.そのため,人手で作成した辞書を用いて形式的表現を認定し,その修飾語は削除しない
という,三上ら
(
三上他
1999)
と同様の対処が,現状では容易である.よって,本手法では,三上
らの形式的表現辞書に,新たに
5
つの表現
段階,問題,立場,認識,前提
を加えた辞書を作成し,実装した.
以下に削除の手順を示す.
(1)
記事の先頭から順に見ていき,
2
語の係り受け関係
(
w
i
;w
j
;r
)
を抽出する.
(2)
その係り元の語
w
i
が提題表現であり
(KNP
の解析結果より判定
)
,かつ,その名詞と前
文の提題表現の名詞との重複があるか認定する.但し
,
以下のように,文内に直接引用文
が含まれている場合,引用文内
(
括弧内
)
での提題表現の処理と,本文
(
括弧外
)
での処理
は区別して行う.
例
14
:
土井議長は、
111
について、「
111
議員は、選挙区にできるだけ長く居よう
とし、
111
」と述べました。
その上で、
[
土井議長は、
]
「
111111
」と述べました。
(3)
一般の重複表現であり
,
かつ
,
係り先の語
w
j
が形式的表現でないか認定する.
2.,
あるいは,
3.
を満たしている
w
i
を削除する.ただし,
w
i
を削除することにより,
構文構造
4
が破壊される場合は,削除を行わない.
4 KNP
の係り受け解析結果
12
石ざこ・片岡・増山・山本・中川 係り受け関係を用いた重複表現削除
(4) 1
文の重複部を削除した後,並列する節の後半の節が述部を残して全て削除されていな
いかを調べ,削除されていたら後半の節の述部も削除する.
(
注意:前半の節の述部に,
文末表現を補完する必要があるが,今回は行っていない.
)
以下に,上記の手順によって行われる削除の例を示す.
例
15
:
薬害エイズの真相究明につながる新たなファイルがある ことが明らかになった問
題で、
111111
この問題は、
[
薬害エイズの真相究明につながる
]
厚生省のファイルが これまでに
見つかった九冊の他にさらに七冊 ある ことがわかったもので、
111
第
1
文の下線部から抽出される関係は,
R
1
=(
薬害エイズ
;
真相究明
;
4),
R
2
=(
真相究明
;
つながる
;
1),
R
3
=(
つながる
;
ファイル
;
2),
R
4
=(
新たな
;
ファイル
;
2)
R
5
=(
ファイル
;
ある
;
1),
の
5
つである.第
2
文の下線部から抽出される関係は,上記の関係と重複している
R
1
;R
2
;R
3
;R
5
と,重複していない
R
6
=(
厚生省
;
ファイル
;
4)
の
5
つである.
R
1
〜
R
3
が重複していることよ
り,
[]
で囲まれた部分が削除される.一方,
R
5
も重複はしているが,その係り元の文節「ファイ
ルが」を削除すると,
R
6
の「厚生省の」の係り先が失われ,構文構造が破壊されてしまう.よっ
て,第
2
文の「ファイルが」の削除は行われない.
5
評価
ニュース原稿
1996
年
1
月〜
8
月分のうち
20
記事を抽出
5
し,その
20
記事の筆者によって重複
部を削除した要約結果と,本手法による要約結果
(
平均要約率
91.1%)
との削除された箇所を比較
し,再現率,適合率によって評価を行う.
今回の評価実験では,本手法の削除箇所が妥当であるか否かの評価を行う.よって,筆者によ
る要約では,
(1)
情報欠落を極力回避:既出の情報を含む部分のみを削除
(2)
自然な要約文を生成:文が不自然になる削除は行わない
(3)
文節単位の削除と,複合名詞の部分的な削除のみを行う
と言う方針で,要約結果を作成した.
なお,削除箇所としては,
2
語の係り受け関係の照合を
1
回行うごとに,削除可能と認定され
る文節群を
1
箇所として数える.
5
削除率
(= 1
0
要約率
)
が極端に低いものは除外したが,記事の内容については無作為に選んだ.また,
KNP
による解析誤
りは人手により修正を行なった.
13
自然言語処理
Vol. 7 No. 4 Oct. 2000
再現率
=
人手と本手法とで一致する削除箇所数
人手による削除箇所数 ×
100 (%)
適合率
=
人手と本手法とで一致する削除箇所数
本手法による削除箇所総数 ×
100 (%)
評価の結果を以下に示す.
人手による削除箇所:
205
箇所
本手法による削除箇所:
195
箇所
人手と本手法とで一致する削除箇所:
166
箇所
再現率:
81.0%
適合率:
85.1%
本手法による要約結果,および,人手による要約結果の例を付録に添付する.
6
考察
6.1
再現率
まず,再現率について考察する.再現率が
81.0%
であることより,人間がニュース記事を見
て,
5
節の方針に従い削除可能と認定する箇所の多くを本手法によって削除できていると言える.
人手により削除可能と認定された箇所が,本手法によっては削除されなかった原因を以下に示す.
また,それぞれの箇所数を表
2
に示す.
以下の例文のように,前文の提題表現として「参議院本会議」が出現していなくても,人間
には,それが主題であることが理解できるため,
2
文目の下線部が削除可能と認定された.
例
16
:
総額十一兆円余りの平成八年度の暫定予算が、きょう午前開かれた 参議院本会
議で 可決され、成立しました。
また、
[
きょうの
]
参議院本会議では、
111
など十五本も、可決され、成立しま
した。
原因の多くは,このように,後の文の提題表現や修飾要素が削除されたものであった.よっ
て,提題表現によって示されていない主題の認定やその影響の範囲の認定を行い,対処する
ことで,再現率の向上が望める.
人間は,「選挙制度」が「小選挙区比例代表並立制」の上位概念であるという知識から,こ
れらの語を重複していると認定することができる.本手法では,語の照合において,類語を
考慮していないため,これらを重複していると認定することはできない.また,類語辞典を
用いて語の照合を行うとしても,人間には,文脈によっては同意である語の重複の認定も可
能であるが,機械で実現することは困難である.
本手法では「使用期限」などの複合名詞同士の重複の認定を行い,「期限」と省略する処理
を
4.2
節の理由より行っていないが,人間はこれらの重複を認定し,削除した.
14
石ざこ・片岡・増山・山本・中川 係り受け関係を用いた重複表現削除
表
2
本手法では削除されなかった箇所
原因 箇所数
主題の認定
14
類語の知識の利用
9
複合名詞の部分的な削除
4
文型の違い
4
表記のゆれ
2
世界知識の利用
1
複合名詞の後方部分の削除
1
以下の例において,動詞「きっかけにする」は,第
1
文では体言を修飾しており,第
2
文で
は用言を修飾している.このように,文型によって係り先が異なっている場合,
2
語の係り
受け関係では重複を抽出できない.しかし,この原因によるものは
4
箇所と稀であった.
例
17
:
111
の事件を きっかけにした 見直しが行われた。
111
の事件を きっかけにして、見直しが行われた。
「今日」と「きょう」のような表記のゆれによって,
2
語の係り受け関係が重複していると
認定できなかったものがあった.
法案は,会議で採決して,可決されて,成立するものであるという知識を利用して,例
16
の第
2
文を以下のように削除した
.
例
18
:
〜会議で
[
採決され
]
,〜の賛成で
[
可決され
]
,成立しました.
人間は「無差別テロ事件」と「爆弾テロ事件」が同じ事件を指している事を理解し,「事
件」と省略するよりも「爆弾テロ」と省略する方が一般的だと判断した
.
6.2
適合率
次に,適合率について考察する.適合率は
85.1%
と高い値を示しているため,本手法による削
除箇所は概ね妥当であると言える.本手法では削除したが,人間は削除しなかった箇所
(
以下妥当
ではない削除箇所と呼ぶ
)29
箇所を,その原因によって分類した結果を表
3
に示す.原因の多く
は,
3
節で述べた,考慮すべき情報のうち,本手法で対処していないものであった.
用言がとる格要素の削除
妥当でない削除箇所のうちこの原因によるものが
25
箇所と大部分を占めている.実験結果
では,この原因による妥当でない削除箇所のうち,用言が動詞であったものが
21
箇所,用
15
自然言語処理
Vol. 7 No. 4 Oct. 2000
言が形容詞であったものが
4
箇所であった.
4.3
節で述べたように,この原因への対処は困
難であるが,他の原因に比べて占める割合が大きいので,現時点で最も対処が必要であると
いえる.
用言が動詞であったものには,「地震がある」
,
「最高となる」のように,動詞の直前の名
詞と一組で動詞と考えられるものもあった.「
111
になる」
,
「
111
がある」
,
「
111
とする」
などの動詞については,助詞と動詞との組をあらかじめ辞書に登録し,直前の名詞と合わせ
て,動詞として扱うことで,妥当でない削除を避けることは可能である.ただし,削除可能
な場合も削除を行なわない可能性があるので,登録する動詞については検討が必要である.
この対処を行うことにより,今回の実験結果では
4
箇所の妥当でない削除を回避できる.
ダ文の修飾要素の削除
この原因による妥当でない削除箇所は,
4.3
節で述べたように,判定詞「だ」が省略された
ものであった.
形式的表現
本手法では,形式的表現の辞書を用いて,形式的表現の修飾要素の削除を防いでいる.そ
のため,この原因による妥当でない削除箇所は
29
箇所中
2
箇所と少なかった.
2
箇所は,
名詞「範囲」が形式的表現の辞書に登録されていなかったため,妥当でない削除箇所となっ
た.形式的表現辞書に登録する名詞の数を増やすと,妥当でない削除を行う可能性は低くで
きるが,
3.3
節の例
8
のような削除可能な場合にも削除を行なわなくなる.よって,登録す
る形式的表現はさらに検討が必要である.
文脈上,削除不可能であった削除部分
以下のように重複している文において,第
2
文の「外国の」を削除すると「国内の衛星の受
注」もなかったともとれる曖昧な文になってしまう.
例
19
:
日本が独自に開発した
H2
ロケットの改良型のロケットを使って西暦二千年に
も日本として初めて 外国の衛星 を打ち上げることになりました。
表
3
妥当でない削除箇所
原因 箇所数
用言がとる格要素の削除
25
ダ文の修飾要素の削除
1
形式的表現の係り元の削除
2
文脈的に削除不可能
1
16
石ざこ・片岡・増山・山本・中川 係り受け関係を用いた重複表現削除
111
、一回の打ち上げ費用がおよそ百九十億円と世界で最も高いため
[
外国の
]
衛星の受注はありませんでした。
同一記事中に「国内の衛星の受注」についての記述はなかったが,人間は背景の知識から,
「外国の衛星の受注」に対照する修飾要素「国内の」を思い浮かべることができる.そのた
め,「外国の」を削除すると,「国内の衛星の受注はあったが」とも「国内の衛星の受注も
なかった」とも解釈できてしまう.
しかし,このような妥当でない削除箇所は
29
箇所中
1
箇所であったので,大きな影響はな
いと考えられる.
今回の評価実験では,
2
語の係り受け関係を用いた重複部認定において,助詞の種類の考慮を
行わなくても,異なる事象を重複と認定する例は見られなかった.また,
4.2
節で述べたように,
関係
2
と関係
1
の照合において「内の関係」と「外の関係」との区別を行っていないが,これに
よって重複の認定を誤った例も見られなかった.
6.3
評価結果
まず,本手法の妥当性と有効性について考察する.
本論文では,表層的に捉えられる重複部を対象にして,情報欠落を回避し,かつ,削除結果が
不自然とならない表現の抽出ならびに削除手法を提案した.このため,手法の評価においてはこれ
らの削除をどの程度正しく行なうことができたかについて評価した.評価の結果は,再現率,適合
率共に良好であったことから,本手法が重複部と認定する箇所は概ね妥当であり,不自然な文を生
成する原因となる削除をほぼ回避できていると言える.
ただし,本論文における評価結果は,本来の意味における重複部を概ね削除できているという
ことを示さない.すなわち,重複であっても表層的には捉えられないものが存在し,報知的な要約
を行なう場合このような重複に対してさらに削除できる可能性がある.本論文においては,このよ
うな意味的に高度な処理を要する重複は処理対象外としたが,今後これらに対しても検討を行なう
必要がある.
次に,要約率について考察する.本手法は,文内の表層的な情報から捉えられる重複部を削除
することによって情報欠落を極力回避した要約手法であり,比較的重複の多いニュース原稿を対象
とした場合の要約率は
91%
程度であった.文内の部分的削除による要約において,情報欠落を避
けるためには,重複している情報のみを削除することが安全な方法であると考えられ,重複部以外
の部分を削除しようとすると,情報欠落の危険があると言える.よって,評価結果の再現率と適合
率が共に良好であったことから,本手法は情報を可能な限り保持した場合の文内の部分的削除 に
よる要約の限界に近いと考える.また本手法はどのようなテキストに対しても適用可能であるが,
テキストの性格によって表層的な重複の多少は異なるので,期待される要約率は要約対象に依存す
る.
17
自然言語処理
Vol. 7 No. 4 Oct. 2000
前述したように,本手法の適用後であっても要約結果には表層では捉えられない重複が含まれ
ていることが予想されるため,情報欠落なくさらに要約できる余地があると考えられる.本論文で
はこのような重複は議論の対象外としたため最終的にどの程度まで報知的に要約することが可能な
のかは不明であるが,これは今後の課題としたい.
一方,表層で捉えられる重複部削除による要約率は限界に近いため,現状では,本手法のみで
の要約率の大幅な向上は望めない.しかし,本手法の枠組には取り入れていない,表層的な情報を
用いた言い換えなど,情報欠落の可能性の低い既存の要約手法と併用することにより,要約率の向
上が可能であると考える.
次に,構文解析の誤りが本手法に与える影響について考察する.今回の評価実験は,
KNP
の
解析誤りを人手で修正して行ったが,修正しない場合の再現率,適合率はそれぞれ
67.3%
,
75.8%
であった.
KNP
の解析誤りの影響では,削除可能な重複部が削除されなかったものが,削除不可
能な重複部が削除されたものより多く見られた.
本手法は,構文解析結果を用いて
2
語の係り受け関係の抽出を行っており,構文解析の誤り
は,重複部の認定に大きな影響を与える.また,
4.3
節で示した削除の手順
3
の制約も構文解析結
果によるため,重複部の認定を誤ると,削除可能な重複部が連鎖的に削除不可能となる可能性もあ
る.
これらにより,再現率が約
15%
,適合率が約
10%
低下したため,本手法は
KNP
の解析誤りに
より大きな影響を受けると言える.また,削除可能な重複部が削除されなかったものが多く見られ
たことより,構文解析の誤りは,適合率よりも再現率に影響を与えると考えられる.
最後に,指示的な要約要求との関連について述べる.本論文では情報欠落を最小限にする報知
的な要約手法を提案したが,本手法は指示的要約を行なう場合にも有効である.すなわち,本論
文の手法は他の指示的要約手法と併用することが可能であり,例えば本手法によってテキストを
(
ニュース原稿であれば
)90%
程度に圧縮した後,任意の指示的要約手法を用いることによって実現
することができる.本手法は要約率が
90%
であるため本手法単独で要約率を
90%
から
100%
の範
囲で変化させる状況は考えにくいが,前述のように要約手法を併用することによって必要な要約率
を可変とすることも実現できる.
7
関連研究
複数の語を用いて,内容の重複を認定する研究に,岡ら
(
岡
,
宮内
,
上田
1998)
がある.岡ら
は,概念を語の関係により表現し,語の関係を表す「リレーション記号
(
助詞など
)
」を別のリレー
ション記号に展開することにより表層表現の違いを吸収している.それに対し,本手法では,助詞
の種類を考慮しないことと,
4
種類の関係間で相互に照合を行うことにより実現している.本手
法の
2
語の係り受け関係は,同一テキスト内で,同一の概念を表す関係の抽出を目的としているた
18
石ざこ・片岡・増山・山本・中川 係り受け関係を用いた重複表現削除
め,助詞の種類を詳細に考慮しなくても,異なる事象を重複していると認定する可能性は低いと考
えられる.また,今回の評価実験では,誤って認定した例は見られなかった.
重複部を削除することにより要約を行う研究に,山本ら
(
山本
,
増山
,
内藤
1996)
がある.山本
らの節照合処理では,内容が類似している節を認定し削除するために,同一,または,類似した動
詞を含む
2
つの節内の,同じ助詞を含む文節同士が異なる内容を含んでいないかを判定している.
節照合処理では,節内に重複していない情報が含まれている場合でも,その節全体を削除する.一
方,本手法では,情報を落とさないことを目的としており,内容が類似している節であっても,新
たに出現した情報を含む場合があるため,
2
語の係り受け関係を用いて,節内で削除可能な部分の
みを認定して削除を行う.また,助詞の種類を考慮していないため,受け身や,連体修飾による表
現の違いへの柔軟な対応が可能である.
8
おわりに
本論文では,表層で捉えられる重複部の認定と削除について議論を行った.文内の重複部は,
情報欠落の可能性を減少させることを考えると,優先して削除するべき部分であると考えられる.
重複部の認定では,係り受け関係のある
2
つの語が一つの事象を表していると仮定し,
2
語の係り
受け関係同士を比較することで,表層から捉えられる内容の重複部を認定した.重複部の削除で
は,理解しやすく自然な要約文を生成するために,削除の際に考慮すべきいくつかの情報について
述べた.
さらに,議論した方法のうち,実現可能な部分を計算機上に実装し,評価実験を行った.本手
法の削除箇所が妥当であるか否かの評価を行うため,ニュース原稿
20
記事の重複部を人手で削除
した要約文と,本手法により削除した要約文との比較を行った.
その結果,人間が削除可能と認定する削除箇所の
81.0% (
再現率
)
が本手法によって削除可能で
あった.人間は削除したが,本手法では削除しなかった箇所の原因の多くを占めていた,提題表現
によって示されていない主題の認定を行うことで,さらに再現率を向上させることができる.
また,本手法による削除箇所の
85.1%(
適合率
)
が妥当であることが分かった.妥当でない削除
箇所の原因としては,用言がとる格要素の削除が大部分を占めていたため,最も優先して対処を行
う必要があるといえる.
自動要約において,要約率と情報欠落の回避はトレードオフの関係にあり,本手法の要約率
は,情報を可能な限り保持した場合の文内の部分的削除による要約の限界に近いと考えられる.
今後の課題として,本手法の精度向上のため,用言がとる格要素の削除への対処が最も優先さ
れる.
19
自然言語処理
Vol. 7 No. 4 Oct. 2000
参考文献
福島孝博
,
江原暉将
,
白井克彦
(1999). \
短文分割の自動要約への効果
."
自然言語処理
,
6
(6), 131{
147.
Hand, T. (1997). \A Proposal for Task-based Evaluation of Text Summarization Systems.."
In
Proc. of the ACL Workshop on Intelligent Scalable Text Summarization
, pp. 31{38.
三上真
,
増山繁
,
中川聖一
(1999). \
ニュース番組における字幕生成のための文内短縮による要約
."
自然言語処理
,
6
(6), 65{81.
岡満美子
,
宮内忠信
,
上田良寛
(1998). \
キーリレーションに基づくテキスト検索
."
情報処理学会研
究報告
NL-103-12, pp. 89{96.
奥村学 難波英嗣
(1999). \
テキスト自動要約に関する研究動向
."
自然言語処理
,
6
(5), 1{26.
島津明
,
内藤昭三
,
野村浩郷
(1985). \
日本語意味構造の分類
-
名詞句構造を中心に
-."
情報処理学
会研究報告
NL-47-4, pp. 25{32.
白井克彦
,
江原暉将
,
沢村英治
,
福島孝博
,
丸山一郎
,
門馬隆雄
(1985). \
視聴覚障害者向け放送ソ
フト製作技術研究開発プロジェクトの研究状況
." Proc.ofTAOWorkshop on TV Closed
Captions for the hearing impaired people, pp. 9{28.
寺村秀夫
(1975{1978). \
連体修飾のシンタクスと意味
(1){(4)."
日本語・日本文化
vol.4{7.
大阪
外国語大学研究留学生別科
.
若尾孝博
,
江原暉将
,
白井克彦
(1997). \
テレビニュース番組の字幕に見られる要約の手法
."
情報処
理学会研究報告
NL-122-13, pp. 83{89.
山本和英
,
増山繁
,
内藤昭三
(1996). \
関連テキストを利用した重複表現削減による要約
."
電子情報
通信学会論文誌
,
J79-D-II
(11), 1968{1971.
山崎邦子
,
三上真
,
増山繁
,
中川聖一
(1998). \
聴覚障害者用字幕生成のための言い替えによるニュー
ス文要約
."
言語処理学会 第
4
回 年次大会論文集
, pp. 646{649.
20
石ざこ・片岡・増山・山本・中川 係り受け関係を用いた重複表現削除
付録
本手法による要約結果を以下に示す.
括弧
[]
で囲まれた部分は,本手法により削除された箇所を示し,下線部は,人間により削除さ
れた箇所を示す.
原稿
1
要約率
: 89.4% (279 / 312 = 0.894)
===================================
スリランカのコロンボで起きた爆弾テロ事件について、外務省の橋本報道官は、
「非人道的な無差別テロ 事件 であり、この様な痛ましい事件が二度と起こることの
ないよう強く望む」とする談話を発表しました。
この中で
[
橋本報道官は
]
「今回の事件は、 多数の罪のない市民を犠牲にした
[
非人道的な
]
無差別テロ 事件 であり、犠牲者に対して深い哀悼の意を表すととも
に、
[
この様な痛ましい事件が 二度と
]
起こることのないよう強く希望する」として
います。
また
[
橋本報道官は
]
「日本は、スリランカが平和と安定の内に発展することを
[
強く
]
希望しており、民族問題の解決に取り組むスリランカ政府と国民が今回の悲
劇を克服し、永続的な和平の達成に向けて努力されることを期待する」としていま
す。
原稿
2
要約率
: 91.2% (406 / 445 = 0.912)
===================================
衆議院の土井議長は今日、東京都内で講演し、衆議院に導入された小選挙区比例
代表並立制について、「制度の 導入による弊害が深刻になっていると指摘する人が
多くなっている」と述べました。
この中で、
[
土井議長は、衆議院の小選挙区比例代表並立制について、
]
「私
は、宮沢内閣当時、委員会で、
[
小選挙区制度が
]
導入されたら、議員は、選挙区に
できるだけ長く居ようとし、国際社会の中で日本がどうあるべきかなどという問題よ
りも、選挙区の冠婚葬祭に関心を持つようになると発言したことがある。今、そうい
う状況が深刻になっていると指摘する人が多くなっている」と述べました。
その上で、
[
土井議長は、
]
「新しい 選挙 制度を一回も実施しないうちに、再び
改正するようなことをすれば、国会の権威はなくなるという人もいる一方で、実施す
21
自然言語処理
Vol. 7 No. 4 Oct. 2000
れば初めから悪くなるということがわかっている制度は英断をもって改正するべきだ
という人もいる。私としては、どっちに分があるとは言えないが、仮に改正案が提出
されれば正常な形で議論が行われるようにしたい」と述べました。
原稿
3
要約率
: 90.6% (424 / 468 = 0.906)
===================================
バンコクを訪れている橋本総理大臣はまもなく中国の李鵬首相と会談し、台湾の
総統選挙を前に中国と台湾の間の緊張が高まっていることについて中国側に自制した
行動をとるよう求めたいとしています。
アジア・ヨーロッパ首脳会議は二日目のきょう首脳レベルの会議を行い、核軍縮
や国連改革など政治分野での協力や地域間の経済交流の拡大など幅広い分野で、アジ
アとヨーロッパが連携を強化していく必要性を確認しました。
[
会議は、
]
あす再び首脳同士の意見交換を行った上で会議の成果をとりまとめた
議長声明を発表することにしています。
二日目の会議日程を終えた橋本総理大臣は、まもなく、中国の李鵬首相
6
と総理大
臣就任後初めての会談を行います。
この中で、
[
橋本総理大臣は、
]
今月二十三日に行われる台湾の総統選挙を前に
[
中国と台湾の間の 緊張が
]
高まっていることについて当事者の間で平和的な解決を
図るため
[
自制した行動をとるよう
]
中国側に求めたいとしています。
また
[
橋本総理大臣は
]
中国に核実験を繰り返さないよう申し入れるとともに、
包括的核実験禁止条約の早期妥結に向けて、協力を求めるものとみられます。
6
「中国の李鵬首相」という表現の二度目の出現で「中国の」は削除されていない
.
これは
,KNP
の解析結果において
,
「中国
の李鵬首相」の一度目の出現では
,
「中国の」が「李鵬首相」にかかると認定されているのに対し
,
二度目の出現では
,
「李鵬
首相と」と「総理大臣就任後」が句の並列として認定され
,
「中国の」はそれら全体にかかると認定されているため
,
本手法
では重複表現とは認定されないためである
.
22
石ざこ・片岡・増山・山本・中川 係り受け関係を用いた重複表現削除
略歴
石ざこ友子
:
2000
年 豊橋技術科学大学大学院修士課程修了.現在,松下通信工業
(株)勤務.在学中は
,
自然言語処理,特にテキスト要約の研究に従事
.
片岡 明
:
2000
年 豊橋技術科学大学大学院修士課程修了.同年,NTT西日本入
社.現在,NTT コミュニケーション科学基礎研究所勤務.在学中は
,
自然言
語処理,特にテキスト要約の研究に従事
.
E-mail: kataoka@cslab.kecl.ntt.co.jp
増山 繁
:
1977
年 京都大学工学部数理工学科卒業.
1982
年 同大学院博士後期課
程単位取得退学.
1983
年同修了
(
工学博士
)
.
1982
年 日本学術振興会奨励研
究員.
1984
年 京都大学工学部数理工学科助手.
1989
年 豊橋技術科学大学知
識情報工学系講師,
1990
年 同助教授,
1997
年 同教授.アルゴリズム工学,
特に,並列グラフアルゴリズム等,及び
,
自然言語処理,特に
,
テキスト自動要
約等の研究に従事.言語処理学会,電子情報通信学会,情報処理学会等会員.
E-mail: masuyama@tutkie.tut.ac.jp
山本 和英
:
1996
年豊橋技術科学大学大学院博士後期課程システム情報工学専攻
修了.博士
(
工学
)
.
1996
年〜
2000
年
ATR
音声翻訳通信研究所客員研究員,
2000
年〜
ATR
音声言語通信研究所客員研究員,現在に至る.
1998
年中国科
学院自動化研究所国外訪問学者.要約処理,機械翻訳,韓国語及び中国語処理
の研究に従事.
1995
年
NLPRS'95 Best Paper Awards
.言語処理学会,情報
処理学会,
ACL
各会員.
E-mail: yamamoto@slt.atr.co.jp
中川 聖一
:
1976
年京都大学大学院博士課程修了
.
同年京都大学情報工学科助手
.
1980
年豊橋技術科学大学情報工学系講師
. 1983
年助教授
. 1990
年教授
. 1985
〜
1986
年カーネギメロン大学客員研究員
.
工博
. 1977
年電子通信学会論文賞
.
1988
年度
IETE
最優秀論文賞
.
著書「確率モデルによる音声認識」電子情報
通信学会(
1988
年)
,
「情報理論の基礎と応用」近代科学社(
1992
年)
,
「パ
ターン情報処理」丸善(
1999
年)など
.
E-mail: nakagawa@tutics.tut.ac.jp
23