ArticlePDF Available

動詞型連体修飾表現の“N1のN2”への言い換え

Authors:

Abstract

片岡 明,増山 繁, 山本 和英. 動詞型連体修飾表現の“N1のN2”への言い換え. 自然言語処理, Vol.7, No.4, pp.79-98 , 言語処理学会 (2000.10)
動詞型連体修飾表現の への言い換え
片岡 明 増山 繁 山本 和英
動詞を含む連体修飾表現を という表現に言い換える手法を提案す 動詞を
含む連体修飾節は
各文を短縮する既存の要約手法において 削除対象とされている
ころが
連体修飾節の削除によって その名詞句の指示対象を同定することが困難にな
場合があ
それを表 言い換えることで 名詞句の意味を限定 かつ
字数を削減することが可能である 言い換え 動詞を削除することによって行う 表現
では の意味関係を示す述語が省略されている場合がある この
省略されうる述語を
削除可能な動詞として 種類の方法により定義した 一方では 表現
の意味構造に対応する動詞 シソーラスを用いて選択した また 他方では
ある語から連想される動詞を定義し ただし コーパスから 名詞とそれが係る動詞と
の対を抽出し
共起頻度の高いものを 名詞から動詞が連想可能であると考えた これら
の削除可能な動詞を用いた言い換えを評価したところ 再現率 適合率 との
結果を得た
さらに 言い換え可能表現の絞り込みを行うことによって適合率は
改善することが可能であることを示す
キーワード 言い換え 表現 修飾部削除 要約
豊橋技術科学大学 知識情報工学系
音声言語通信研究所
自然言語処理
はじめに
本論文では 表現 が多様な意味構造を持つことを利用して 詞を含む連体修飾節を
表現
に言い換える手法を提案する
自然言語では 一つの事象を表すために多様な表現を用いることが可能であり 人間は ある表現
同じ意味を持つ別の表現に言い換えることが しばしばある 言い換え 自然言語を巧みに操
るために不可欠な処理であり
佐藤 それを機械によって実現することは有用であると考えら
れる
例えば 文書要約において 意味を変えずに字数を削減するためや 文章の推敲を支援するシ
ステムにおいて
同一の表現が繰り返し出現するのを避けるために必要な技術である また ある事
象が様々な表現で表されているとき
それらの指示対象が同一であると判定するためにも必要であ
節で述べるよう 近年 言い換え処理の重要性はかなり認識されてきたと考えられるが 適切
な問題の設定を行うことが比較的困難なため
言い換え処理の研究はそれほど進んでいない 佐藤
佐藤 「構文的予測の分析」から「構文的予測を分析する」への言い換えのように 論文
表題を対象にして
動詞を含む名詞句を述語の形式に また近藤ら 近藤 佐藤 奥村 「桜
が開花する」から「桜が咲く」への言い換えのように
サ変動詞を和語動詞に言い換える問題設定
をしている
この他 「∼を発表しました 」から「∼を発表 」のような文末表現の言い換えや「総
理大臣」から「首相」のような省略形への言い換え
若尾 江原 白井 山崎 三上 増山 中川
など 言い換えテーブルを用意することによって 言い換え処理を実現している研究もある
これに対し我々は 名詞とそれに係る修飾語 すなわち連体修飾表現を異形式の連体修飾表現に
言い換えるという問題設定を提案する
節に述べるよう 我々は連体修飾表現を言語処理の観点
から
分類し これらの相互の変換処理を計算機上で実現することを研究の最終目標として設定し
このうち本論文において動詞型から名詞型へ変換する手法を議論する 連体修飾表現を対象にし
本論文のような問題設定は従来見られないが
表現が短縮される場合は要約などに また逆に言い換
えの結果長い表現になる場合は機械翻訳などの処理に必要な処理であると考える
本問題においても 従来研究と同様言い換えテーブルを用意することで言い換え処理を実現す
しかし本論文では その言い換えテーブルを如何にして作成するかについて具体的に述べる
体修飾表現の言い換え可能な表現は非常に多く存在することが容易に想像でき
これらをすべて手
作業で作成することは現時点においては困難である
このため 現実的な作業コストをかけることで
言い換えテーブルを作成する手法を示す
本提案処理の一部にはヒューリスティックスが含まれて
いるが
これらについても一部を提示するにとどめず 具体例をすべて開示する
本論文で言い換えの対象とする表現 つの語 が連体助詞 によって結
ばれた表現であ
表現 多様な意味構造を持ち さまざまな表現をそれに言い換え
ることが可能である
また 動詞を含む連体修飾節 各文を短縮する要約手法 三上 増山 中川
山本 増山 内藤 において削除対象とされている しかし 連体修飾節すべてを削
片岡・増山・山本 動詞型連体修飾表現の への言い換え
することにより の名詞句の指す対象を読み手が同定できなくなる場合がある このとき それを
という表現に言い換えることができれ 名詞句の指示対象を限定し かつ 字数を削減
することが可能となる
表現 多様な意味を持ちうるため たとえ適切な言い換えがさ
れたとしても
曖昧性が増す場合がある しかしながら 言い換えが適切であれば み手は文脈や
知識などを用いて理解が可能であると考えられる
以下 節で 連体修飾表現を分類し 本論文で対象とする言い換えについて述べ 節から
節で本手法について述べ 節では主観的に本手法を評価する 節では 評価実験の際に明らかに
なった問題点などを考察する
また 節では 本論文の関連研究について論じる
連体修飾表現の言い換え
動詞型連体修飾 する
名詞型連体修飾
形容詞型連体修飾
:名詞 する:動詞 な:形容詞
連体修飾表現の分類
動詞型
軽傷を負った人
速く走る列車
名詞型 形容詞型
軽傷の人
高速()列車
傷が軽い人
速い列車
型を変換する言い換え
本節では 連体修飾表現の言い換えという問題設定を 我々が如何にして行うかについて述べ
自然言語処理
のうち本論文で対象とする問題の定義を行う
まず自然言語処理の観点から 連体修飾表現の分類として のように 動詞型 名詞型 形容
詞型の
種類の型を定義する 名詞を修飾するという同じ役割に対して さまざまな表現が可能であ
例えば図 のように 異なる型においても ほぼ同一の意味を持つ表現が存在する 人間ならば
これらの表現が同一の意味を持つと理解した上で 互いに言い換えることが可能である そこで本研
究では
これを計算機で行うことを目指す なわち ある型の連体修飾表現を 如何にして他の型
の連体修飾表現に変換するか
という型変換処理の形で問題を設定する
機械によっ それぞれの表現の意味を理解 言い換え可能であるか判定することは現状の技
術では困難であり
何らかの表層表現を手がかりにした近似的な手法を考案する必要がある よって
我々は
それぞれの型変換における表層的な特徴を利用して言い換えを実現する
のうち本論文で対象とするのは 動詞型連体修飾表現を名詞型連体修飾表現
言い換えるものである
他の型の表現を に言い換えることで 要約において 文の冗長さ
を減少させることや
文章推敲を支援するシステムにおい 文章中に同一の表現が続くことを避け
ることなどが可能である
国で起きたクーデター事件 国のクーデター事件
動詞型連体修飾表現は
各文を短縮する要約手法 三上他 山本他 において削除対象
となっている
しかし上の例 のように 連体修飾表現を削除すると 読み手が の名詞句の指す
対象を同定することが困難になる場合も存在する
こういった連体修飾表現を表現 に言
い換えることによって
可能な限り字数を削減することができ かつ の指示対象の同定を容易に
することができる
本論文で提案する手法によって への言い換えも 同様に可能であると考える
外国で製作された映画 外国の映画
外国映画
しかし
この言い換えを行う場 下の点を判定する必要があり 論文では この言い換えは扱
わない
を連結し 複合名詞 として扱うことが可能か
太郎が持つ考え 太郎の考え
太郎考え
が指す対象と のそれとが同一であるか
日本にある大学 日本の大学
日本大学
片岡・増山・山本 動詞型連体修飾表現の への言い換え
N
1
(//)V-するN
2
削除動詞判定部
意味構造から
得られる動詞
N
1
or N
2
から
連想される動詞
絞り込み部
着物-着る
-降る
……
作る
持つ
……
今日-会議
反対-意見
……
N
1
N
2
シソーラス
30分類
245動詞
………昨日降った雨が…
○○新聞
……………………………
…着物を着て、…………
……………
……………
……………
……………………………
……………………………
……今日の会議で、……
反対の意見が……………
12NV
43NN
汎化処理
本手法の概念図
なお 本論文でいう動詞には サ変名詞 する を含み する なる である など を含
まない
本手法の構成
本手法は 以下に示す部分から成る また 本手法の概念図を図 に示す
削除動詞判定部 動詞型連体修飾表現に含まれる動詞が 種類の方法で定義した削除可能な動詞
であるか否かを判定する
言い換え表現絞り込み部 ーパスに出現しない表 に言い換えることがないよう
言い換えに制限を加える
表現 の中には 結ぶ述語が省略されている 連体修飾節の短縮形と考
えられるものが存在する
平井 北橋 黒橋 島津 内藤 野村 この省略され
うる述語として
本論文では図 に示すように 種類削除可能な動詞 を定義す
表現 の意味解析に関する既存の研究では の意味関係を幾つかのクラスに
分類することを試みている
平井・北橋 国立国語研究所 れらの意味構造に対応
その他は よる できる 関する 対する いう つく 伴う
自然言語処理
る動詞は 削除可能であると考えられ 一方 表現 には 間の意味関係を示す
動詞を
または から連想できる場合がある の場合 連想される動詞は その語と共
起したときのみ 表現
の意味構造に対応するため 常に既存の分類と対応するとは限らな
どの動詞が連想されるか 日常的な語の使われ方によって決まるため その情報は コーパス
から得ることが適切である
よって 以下の 種類の方法により 削除可能な動詞を定義する
シソーラスを用いて 表現 の意味構造に対応する動詞を選択する
コーパスから 名詞と動詞の対を抽出し 共起頻度の高い対の名詞から動詞が連想可能である
と判定する
これらの削除可能な動詞を用いることで 動詞を含む連体修飾節が表現 に言い換
られることを示す
一般に言語現象は複雑であり 題解決のための規則を人間が記述する規則利用型
処理において べての現象をとらえられる規則を記述するのは困難である 一方 用例利用型
処理では コーパスに類似した用例が出現しない場合 問題に対処することがで
きない
これらの理由から 本論文では 種類の方法によって削除可能な動詞を定義する
削除可能な動詞
名詞型連体修飾 の意味解析に関する研究は 従来から多く行われている 平井・北橋
国立国語研究所 黒橋・酒井 島津他 冨浦 中村 日高 平井ら 平井・
北橋
表現 を結ぶ述語が省略されているものが存在するとしてい
また この種の の意味を理解するためには 読み手が 略された述語を推定できな
ければならないことから
それらの述語は非常に基本的な関係を示すものであるとしている また
英語の複合名詞句において つの名詞間の意味関係を 種の深層レベルの述語
によってとらえる研究もある
これらの研究でも示されているように という表現 複合名詞では 述語が省略さ
れているものが存在する
逆に言う の省略されうる述語を含む連体修
する 表現 に言い換えることが可能である
以下の例 では 動詞 発表する を削除して と言い換えることができるが 動詞
批判する を削除して言い換えることはできない これは 発表する によって結
ばれた場
その意味関係 の意味構造に対応するが 判する によって結ばれた場
それに対応しないからだと考えられる
具体的には
片岡・増山・山本 動詞型連体修飾表現の への言い換え
首相が発表した法案 首相の法案
首相が批判した法案
首相の法案
本論文で
この 発表する ような省略されうる動詞を 削除可能な動 と呼 種類の
方法により定義する
の意味構造から得られる動詞
国立国語研究所は
の意味構造を人手により分類している 国立国語研究所
その中で 述語が省略されていると考えられる分類を抜き出し 以下に示す
所有主
例: 太郎のボール
執筆者 発信者 主催者 主演者など 後ろの体言の作成行為をなした者
例:漱石の小説 首相の談話
所属の団体
例: 社の役員
存在の場所・位置
例:奈良の東大寺
これらの意味関係を示す動詞を 削除可能な動詞であると考える また 削除可能な動詞は 平井
らが述べているように「非常に基本的な関係を示す述語」でなければならないため
新聞記事に出
現する頻度が上位の動詞だけを含める
よって 以下の条件 を満たす動詞を削除可能な動詞であると定義する
条件
シソーラス 大野 浜西 において 上記の意味関係を示すと考えられる分
類に含まれる
かつ
コーパスに出現した動詞のうち 出現頻度が上位である
上記の意味関係に対応するシソーラスの分類としては 所有 生成 開始 表現
実行 生産 など 末端の分類で 分類を選択した また コーパスとして日本経済新聞
の全記事を使用し
それらに出現した動詞 万語 を観察した結 上位 に当たる
以上の動詞を出現頻度が上位であると判断した
その結果 削除可能な動詞を 発表 する 始める まとめる 開く 実施 決める
開始 建設 行う など 個登録した 付録 選択し 分類 および 削除可能な動
詞の一部を示す
なお これらの分類は 必ずしも並列ではない
自然言語処理
なお れらの動詞の中には 削除可能な動詞として不適切な動詞 偽造 分類:製造
分類:保 なども含まれているが 客観性を保つた それらを人手で除去することは行わ
なかった
語から連想される動詞
前節では
削除可能な動詞をシソーラスを用いて定義した しかし これら以外の動詞であっ
文脈によって削除可能となる場合がある 以下の例 では 動詞 着る 降る を削除し
と言い換えることができる
着物を着た女性 着物の女性
雨が降った日
雨の日
これは
名詞 着物 から それぞれの動詞を連想できるためと考えられる の意味
解析に関する研究
平井・北橋 黒橋・酒井 島津他 田中 冨浦 日高 にお
いても
または から連想される動詞を補完することで その意味関係がとらえられる
合があるとしている
これらの動詞 前述の定義では削除可能な動詞として定義されな これらの動詞を削除可能
であると判定するためには
ある名詞から連想される動詞を判定する必要がある そこで 新聞記事
において
ある名詞と れが係る動詞との対を抽出す ある名詞が与えられたとき 抽出した対
の中で
その名詞と共起頻度の高い動詞を連想される動詞であると判定する
の抽出
以下の手順により
新聞記事から名詞と動詞との対を抽出する この抽出される対を
と定義し と表記する
記事に対して形態素解析 および構文解析を行う 形態素解析器は を用いた
また 構文解析器は 言語を用いて独自に実装し 基本的に すべての助詞は最も近い
後方の用言に係ると判定した
解析結果の人手による修正は行わない
解析結果から 以下を として抽出する
動詞 その格要素の主辞
修飾表現内の動詞 その被修飾部の主辞
ただし 本論文では 名詞 または 接尾辞が連続している部分のうち最も後方の形態素を
主辞と定義する また の品詞 の解析結果 が数 人名 地名 組織名の
田中ら 田中 一部の の意味推定の際に 本論文と同様 コーパスにおける名詞と動詞の共起関係を用
いている
片岡・増山・山本 動詞型連体修飾表現の への言い換え
ずれかであるならば それぞれの品詞名を として抽出する
例えば 東京で開かれた国際会議に出席する という文からは 地名 開く 会議 開く
会議 出席 という が抽出される
を抽出する際に に対し がとる格を考慮することが考えられる ところが 連体修
飾表現
する においては 被修飾 がとる格を表層表現から得ることができない また
文型によって表層格が変化しても同一の として抽出することが望ましい これらの理由から
表層的な情報のみを扱う本論文では において 格の情報は扱わない
また 述の抽出法では 連体修飾表現が「外の関係」 である場合 動詞の格要素ではない名詞
が抽出される
しかし一般に ある連体修飾表現が「内の関係」であるか「外の関係」であるかを機
械的に判定することは困難であるため
本論文ではその判定は行わない
日本経済新聞 年の全記事 万記事 に対して抽出を行った結果 万の 対が
抽出された
の抽出結果
抽出対象 万記事
の延べ数
の異なり数
の異なり数
の異なり数
対による削除動詞の判定
抽出された
を用いて 連想される動詞の判定を行う
まず 名詞 と動詞 の共起率 を次式によって定義する
の出現頻度
ある名詞に対して最も高い共起率を持つ動詞
連想される動詞として定義する つまり
以下の条件
を満たすとき 名詞 から動詞 が連想されると判定する
条件
前節で抽出された に対して判定を行った結果 異なり数で約 万対が条件 を満たし
被修飾語が修飾部の用言の格要素とならない 寺村 格要素となる場合を「内の関係」と呼ぶ
条件 を用いず によっても同等の定義が可能である
自然言語処理
名詞から動詞が連想されると判定された 条件 を満たす について延べ数などを示
付録 にその例を示す におい の異なり数と の異なり数とが一致していな
これは ある名詞に対して 条件を満たす が複数存在する場合 それらの動詞すべてを
その名詞から連想される動詞として判定しているからである
条件 を満たす
延べ数
対の
異なり数
の異なり数
の異なり数
ある動詞 および 本節の の方法で重複して削除可能と判定される場合もある
を満たす 対のうち シソーラスを用いた定義によっても削除可能と判定されるものは約
万対であった 複して判定される動詞の例を表 に示 表中の の動詞は ソーラスを
用いても削除可能であると判定される
重複して削除可能と判定される動詞
対頻
社債 発行
結論 出す
会議 開く
教書 発表
伸び 示す
の抽出 および それによる削除動詞の判定において 節に述べた理由から 名詞と動
詞の格関係を考慮していない
そのため 以下の状況が生じうる まず 名詞 と動
が格関係 によって係る割合 とす ある 条件 を満たすとしても
最大にする格関係
において である が存在する可能性がある 格関係
が異なる
なる意味関係で共起していると考えることもでき この状況では から連想さ
れる動詞として
が適切であるとは限らない
分母は の定義と同様 の出現頻度
片岡・増山・山本 動詞型連体修飾表現の への言い換え
しかし が条件 を満たす際には ある特定の格関係が に大きく寄与していると
考えられ
すなわち を最大にする格関係 において となる
ことが多く
前述の状況は生じにくい 例えば 犯人 逮捕 という例で その格関係はヲ格
のみと考えるのが自然である 本論文におい 名詞から動詞が連想されると判定された
を観察したところ
名詞と動詞の格関係は一定の場合が多かったことから 前述の状況となる
は少ないと考えられる
一方 複数の格関係 に寄与しうる例として 読む が挙げられる ところが 深層
格が異なる
本を読む 本で読む という表現において 同一の 対が抽出され から
が連想されると判定されても問題はない 関係が異なっているとしても 係り受け関係を持っ
て共起していることから
連想される動詞としての意味的な関係は ある程度妥当である場合が多い
と考えられる
以上の議論から 本論文におい に格の情報を含めなかったことが 精度に与える影響は
小さいと予想する
で述べた理由によって のデータ量を確保するという観点から
の情報を考慮しないことが現実的には有利な選択であろう
言い換え可能表現の絞り込み
連体修飾表現の動詞が慣用句の一部である場合な たとえ動詞が削除可能な動詞であっても
と言い換えると不自然となることがある 以下の例 では 慣用句 力を入れる の動詞
を削除して言い換えると意味が分からない表現となる
力を入れる交渉 力の交渉
また
が同じ語であっても の格が異なれば 言い換えが不自然になる例がある
裁判長が出した勧告 裁判長の勧告
勧告を出した裁判長
勧告の裁判長
このような不自然な言い換えを避けるため
動詞型連体修飾 する
の言い換えにおいて がコーパス中に の形で出現している場合にのみ 言い換
えを行う
では 言い換え後の表現である 力の交渉 勧告の裁判長 コーパスに出現し
ないと考えられることから
不自然な言い換えを回避できる
の抽出
コーパス中に
の形で出現する名詞句に含まれる語 の対を として定義
と表記する
自然言語処理
新聞記事から 以下の手順により を抽出する
記事に対して による形態素解析を行う 解析結果の人手による修正は行わない
接続助詞 による修飾表現のうち 修飾部の主辞 被修飾部の主辞 を抽出
する
ただし の品詞 による解析結果 が人名 組織名 地名 数詞の
ずれかの場合は
それぞれ品詞名を あるいは として抽出する
例えば 形態素解析の実行結果 いう表現から 解析 結果 という が得られ また
いう形の表現において に係る るいは に係るか 表層
的な情報から判定することは困難であ
対は 言い換えの際の誤りを排除するという目的
正しいもののみが収集されていることが望ましい よって という形の表現か
らは
として のみを抽出する
日本経済新聞 年の記事から抽出を行った結果 延べ数で約 異なり数で約 万の
が抽出された
の汎化処理
日本語で
名詞のうち多くのものを接続助詞 よって結合することができ その結果
くの表現を生成することが可能である
よって コーパスから抽出した データのスパース
性が問題となる
これには コーパス量を増やすことで対応することも考えられるが 本論文で
に対してシソーラスを用いた汎化を行 対の シソーラ 大野・浜西
中の末端の分類に置き換えた その際 複数の意味カテゴリに分類されている単語 各分類ごとに
汎化した
を作成し また シソーラスに記載されていない単語に対しては 汎化を行わない
評価
評価方法
日本経済新聞
年の記事から 動詞型連体修飾 する を人手
で抽出し
本手法の有効性を検討する 本実験では 動詞 が格要素を一つ取っている表現のみを対
象とした
これは 以下の理由による 例えば する という表現を言い換える
際に
のいずれの表現に言い換えるか 文脈に応じて
適切な表現を選択する必要がある
本論文は 言い換えを行う際に削除できる動詞を判定する手法を
提案するものであり
いずれの格要素を残すべきかの選択は対象外とする
記事より 動詞型連体修飾表現を無作為に 個抽出した これらの表現に対し 人間 およ
本手法によって言い換えを行い 再現率 適合率で評価する
再現率 × 適合率 ×
ここで 筆者が主観によって に言い換えられるかどうかを判定し 言い換え可能
片岡・増山・山本 動詞型連体修飾表現の への言い換え
評価結果
制限無し
制限
制限
正しく判定された例
言い換え前 言い換え後 動詞の分類
高シェアを持つ会社 高シェアの会社 所有
組合で作る連合会 組合の連合会 生成
一日に開く会議 一日の会議 挙行 開始 会議 開く
大賞を受賞した さん 大賞の さん 大賞 受賞
賛成に回る議員 賛成の議員 賛成 回る
低迷が続く業績 低迷の業績 低迷 続く
と判定された表現の数を示す また 本手法によって言い換え可能と判定された表現の数を示
人間と本手法とで共に言い換え可能と判定された表現の数を示す
対による絞り込みでは 以下の 種類の制限を用いて実験を行った
制限無し 制限を設けない
制限 の頻度が 以上ならば言い換える
制限 汎化した の頻度が 以上ならば言い換える
評価結果
評価結果を示す 表中の 列に示す括弧で括られた つの数 それぞれ
シソーラスを用いて定義された動詞によって言い換えられた表現の数
連想可能な動詞と判定された動詞によって言い換えられた表現の数
を表す
また 除可能な動詞が正しく判定され 言い換えられた動詞型連体修飾の例 制限無
に示す シソーラスを用いた定義により判定されたものには動詞の意味分類を示し 連想可
能と判定されたものには
対と を示す
自然言語処理
考察
本論文で 動詞の表層的な情報のみに基づく判定によって への言い換えを行った
よる制限を加えない場合 再現 適合率 とおおむね良好な結果が得
られた
本手法では 種類の方法により削除可能な動詞を定義した シソーラスによる定義のみで ある
いは
連想される動詞のみで言い換えを行うと仮定すれば それぞれ再現率が 度となる
ことから
種類の方法を併用して定義したことが有効であったといえる
まず による制限無しの場合に 再現 合率を低下させた原因について考察する
現率を下げた原因には
以下のことが挙げられる
手掛ける 抱える など 新聞記事においては 実施 所有 などの意味を示しうるが
節で選択したシソーラスの分類には含まれていない動詞があった
は比較的高頻度で出現するが その名詞に対して最も共起頻度が高い動詞ではなかっ
たため
連想される動詞として判定されなかった
再現率を上昇させるために シソーラスを用いた削除可能な動詞の定義において 選択する意味分類
対象コーパスに適応させることが考えられる しかし コーパスにおける動詞の使用状況を調査
する必要があるなど
その実現は容易ではない もちろん 実験によって発見された動詞を 削除可
能な動詞として新たに加えることは可能である
また による削除動詞の判定において 高い
を持つ を採用することによっても再現率の上昇が期待できる しかし その閾値は
実験により求める他になく
決定は困難である
適合率を低下させた原因に 以下のことが挙げられる れらは を用いた絞り込みに
よっても排除することができない
本実験では 新聞記事から を抽出した そのため 前年 上回る 経費 削減 といっ
の出現頻度が高くなっこれらは 新聞記事において頻出するが その名詞から
動詞が連想可能とは言えない
を用いた制限を行っても 例え 前年の成 とい
う表現がコーパスに出現していれば
前年を上回る成績 それに言い換えてしまう この
問題に対しては
新聞記事に限定せず 様なコーパスから を抽出することで避けら
れると考えている
質問 答える 費用 かかる なども出現頻度が高く 直観的に名詞から動詞が連想可能であ
ると言える
しかし 以下のような動詞型連体修飾として出現した場合 動詞を削除すると意
味が変化する
質問に答えた結果 質問の結果
費用がかかる調査
費用の調査
ところが
以下のような文脈を考えることで 同様の言い換えは許容されると考えられる
片岡・増山・山本 動詞型連体修飾表現の への言い換え
の質問に答えた結果 の質問の結果
莫大な費用がかかる調査
莫大な費用の調査
よって
これらの例は 本研究における評価では失敗としたが から得られる連想可能
な動詞に対する反例であるとは考えていな
実際には は単独で出現するの
はなく
必ず文章中の他の語と共起して出現するため 文脈を考慮した判定 評価が必要であ
しかしながら 考慮に入れるべき文脈の範囲を決定することは容易でなく また 現在の
技術では
正確な文脈解析を期待できない したがって本論文では 修飾表現内で観測可能な
現象のみを対象とした
なお シソーラスを用いて定義された動詞が原因で 不適切な言い換えを行い による制限に
よっても排除できなかった例も存在する
上述したように 実験によって発見された これらの動詞
を除くことは可能である
次に による制限を加えた場合について考察する 制限を加えることで 適合率が上昇し
言い換えの誤りを除くという目的を達成することはできた しか その一方で再現率が減少する
制限によって再現率が大幅に減少するのは データのスパース性が影響しているためとも考
えられる
しかし コーパス量を 日本経済新聞 年分 として 対を抽出しても再現率は数
程度しか上昇しなかった したがって を汎化する際に意味レベルをどのように設定する
かの影響が強いと考えられる
最適な汎化レベルを求めることは シソーラスの編集方針に依存する
ため容易ではない
また新聞記事では
に言い換え可能な表現は 初めからそれで表現される
によって表現すると曖昧さが残るものは 動詞型連体修飾で表現される
と考えられる
そのため 動詞型連体修飾表現に出現する との間に重複が
少なく
適切な が収集されなかった可能性がある
また を汎化する際 複数の意味カテゴリに分類されている名詞は 各分類ごとに汎化を
行った
この汎化処理では 名詞が その意味では使用されていないカテゴリへ誤って汎化される恐
れがある
しかし 誤った汎化を行ったとしても それに対応する表現が絞り込みの対象とならない
限り影響はない
実験では 汎化処理を行った絞り込み 制限 における適合率の減少は 程度
と高くはないことから
誤った汎化の影響を受ける 絞り込みの対象となる確率は低い
と考えられる
また 汎化を行った結果 再現率が 程度改善されている データのスパー
ス性に対処するという目的で汎化を行っており
また 適合率の減少は再現率の上昇と比較して微小
であることから考えて
誤った汎化の回避は 優先して取り組むべき課題ではないと考えている
自然言語処理
関連研究
まず 言い換えに関する既存の研究について論じる 節で挙げた研究の他では 加藤ら 加藤
原文とその要約文との対応がとれたコーパスを用いて 言い換えが行われている部分を
照合により特定し
それを言い換えの知識として自動的に得る手法を提案している また
近藤ら 近藤 シソーラスを用いて 意味が類似した複数の
語句を
より抽象的な一つの語句に言い換える手法を提案している また 近藤 近藤 佐藤 奥村
「犬が彼に噛み付く」から「彼が犬に噛み付かれる」のような 単文中の非ガ格要素をガ
格化する言い換えを実現するための規則を提案している
連体修飾節を対象とした言い換えに関し
ては
これまで ほとんど研究されていなかったが 野上ら 野上 藤田 によっ
年に創立されたコスタ スウェデーン最古の工場だ 」から「コスタは スウェデーン最古の工
年に創立された 」への言い換えのように 連体修飾節を主文から切り離す言い換えが取り
上げられている
次に 本論文における削除可能な動詞 およ その定義に関連する研究について論じる 田中
田中他 の意味関係を推定するために 「一般的な意味関係」 と「名詞固
有の意味関係」を定義している
この中で 本論文における の定義 および それによる連想
される動詞の判定は
田中らが「名詞固有の意味関係」を得る際に行う処理とほぼ同一である
中らの概念は
冨浦ら 冨浦 による意味推定において曖昧性が残 を対象とし
ている
一方 本論文では 言い換えを行う際の削除動詞を決定するという立場から 言い換え可
能な
すべてを対象としている そのため 「連想される動詞」によって言い換えられる
田中らの「名詞固有の意味関係」と 必ずしも一致しない また田中らの概念では
意味推定という立場から 対象としている つの概念のいずれかに分類される 一方
本論文における つの概念は互いに排他的ではなく 節で議論したよう 両者の概念によって
定義される動詞も存在す
これらの相違は 田中らが意味推定 本論文においては言い換え と異
なる目的のために
つの概念を定義し 利用していることにあるといえる
また 村田ら 村田 長尾 山本 山本 村田 長尾 名詞や動詞の省略補完にお
いて
本論文と同様に コーパスから取得した用例を利用している ただし 村田らの手法 村田・長
では コーパスに対して形態素解析や構文解析をせず 単なる文字列として最長に一致する
部分を用例と認定している
また山本らの手法 山本他 では 名詞と動詞との係り受け関係に
関する情報は格フレーム辞書から得ている
これらの手法も 田中らと同様 表層的には存在しない
動詞を推定することを目的とする
よって 用例を利用している点では本論文と類似するが 目的は
異なる
「一般的な意味関係」は さらに つに分類される
片岡・増山・山本 動詞型連体修飾表現の への言い換え
おわりに
本論文では 動詞型連体修飾 する 名詞型連体修
に言い換える手法を提案した
中には 動詞型連体修飾において動詞が省略された短縮形と考えることができるも
のがあり
その省略されうる動詞を削除可能な動詞として 種類の方法によって定義し これら
の削除可能な動詞を利用することで
動詞の表層的な情報のみを利用して への言い換え
が実現可能であることを示した
また コーパスに の形で出現するもののみを言い換え
ることで
削除可能な動詞の判定の際の誤りを排除し 適合率を上げることが可能であることを示し
今後の課題として 文脈を考慮して削除可能な動詞を判定すること 複数の格要素を持つ動詞型
連体修飾表現を言い換えること
などが挙げられる
謝辞
本研究で使用した「角川類語新辞典」を機械可読辞書の形で提供いただき の使用許可をいた
だいた
角川書店に深謝す また,本研究で言語データとして使用した日経新
年版の使用許可をいただいた 日本経済新聞社に深謝する.
参考文献
平井誠 北橋忠宏 日本語文における「の」と連体修飾の分類と解析 情報処理学会研究報
加藤直人 浦谷則好 局所的要約知識の自動獲得手法 自然言語処理
国立国語研究所 現代語の助詞・助動詞 用法と実例 秀英出版
近藤恵子 奥村学 言い替えを使用した要約の手法 情報処理学会研究報告
近藤恵子 藤理史 奥村学 「サ変名詞 する」から動詞相当句への言い換え 情報
理学会論文誌
自然言語処理
近藤恵子 佐藤理史 奥村 変換による単文の言い換え 情報処理学会研究報告
黒橋禎夫 酒井康行 国語辞典を用いた名詞句「 」の意味解析 情報処理学会研究報
三上真 増山繁 中川聖一 ニュース番組における字幕生成のための文内短縮による要約
自然言語処理
村田真樹 長尾真 日本語文章における表層表現と用例を用いた動詞の省略の補完 自然言
語処理
野上優 藤田篤 乾健太郎 文分割による連体修飾節の言い換え 言語処理学会 回年
次大会 発表論文集
大野晋 浜西正人 角川類語新辞典 角川書店
佐藤理史 論文表題を言い換える 情報処理学会論文誌
島津明 内藤昭三 野村浩郷 日本語文意味構造の分類 名詞句構造を中心に 情報処理
学会研究報告
田中省作 冨浦洋一 日高達 統計的手法を用いた名詞句「 」の意味関係の抽
電子情報通信学会技術研究報告
寺村秀夫 連体修飾のシンタクスと意味 日本語・日本文化 大阪
外国語大学研究留学生別科
冨浦洋一 村貞吾 日高達 詞句「 」の意味構造 情報処理学会論文誌
若尾孝博 江原暉将 白井克彦 テレビニュース番組の字幕に見られる要約の手法 情報処
理学会研究報告
山本専 村田真樹 長尾真 用例による換喩の解析 言語処理学会 年次大会 発表論
文集
山本和英 増山繁 藤昭三 文章内構造を複合的に利用した論説文要約システ
自然言語処理
山崎邦子 三上真 増山繁 中川聖一 聴覚障害者用字幕生成のための言い替えによるニュー
ス文要約
言語処理学会 回年次大会 発表論文集
片岡・増山・山本 動詞型連体修飾表現の への言い換え
付録
削除可能な動詞の例を示す 付録 シソーラスを用いて定義された動詞の例を 付録
名詞から動詞が連想可能であると判定された の例を示す
シソーラスにより定義された動詞の例
分類 動詞
所有 共有 持つ 所有 占める 占領 独占 備える
保有 確保 保つ 保管 保有 冷蔵
生成 形成 結ぶ 結晶 構成 作り出す 作る 作成 成り立つ 成る 生じる
生まれる 生み出す 生む 組み立てる 創作 創造 造る 誕生 発生
編成
挙行 開く 開催 挙げる 共催 行う 催す 執行 主催
建造 改築 建つ 建てる 建設 建造 建築 構え 構築 再建 新築 組み
立てる
増築 築く
存在 既存 共存 潜在 存在 分布
その他の分類
従属
発生 開始 進捗 提示 表現 叙述 描写 書き 執筆 発言 言明 総括 実行
設置 設備 生産 製造 架設 決定 施設 発表 発行
自然言語処理
連想可能な動詞の例
対頻
平行線 たどる
注目 集める
けじめ つける
長期間 わたる
ボタン 押す
流す
役割 果たす
損害 与える
たばこ 吸う
白紙 戻る
うわさ 流れる
受賞
被害 受ける
使う
小説 書く
赤字 転落
治療 受ける
メッセージ 送る
務める
抵抗 あう
画面 表示
片岡・増山・山本 動詞型連体修飾表現の への言い換え
略歴
片岡 豊橋技術科学大学大学院修士課程修了.同年,NTT西日本入
社.現在,NTTコミュニケーション科学基礎研究所勤務
在学中は 自然言
処理,特にテキスト要約の研究に従事
増山 京都大学工学部数理工学科卒業. 大学院博士後期課
程単位取得退学.
年同 工学博士 日本学術振興会奨励研
究員.
京都大学工学部数理工学科助手 豊橋技術科学大学知
識情報工学系講師,
助教授, 同教授.アルゴリズム工学,
特に,並列グラフアルゴリズム等,及び
自然言語処理,特に テキスト自動要
約等の研究に従事.言語処理学会,電子情報通信学会,情報処理学会等会員.
山本 和英 豊橋技術科学大学大学院博士後期課程システム情報工学専攻
修了.博
工学 年∼ 音声翻訳通信研究所客員研究員
年∼ 声言語通信研究所客員研究員,現在に至る 年中国科
学院自動化研究所国外訪問学者.要約処理,機械翻訳,韓国語及び中国語処理
の研究に従事.
.言語処理学会,情報
処理学会,
各会員.
ResearchGate has not been able to resolve any citations for this publication.
Article
Full-text available
We propose a method of paraphrasing a Japanese noun modifier into a noun phrase in the form of "A no B." The semantic structures of "A no B" are sometimes recognized by supplementing some abbreviated predicate. We define these abbreviated verbs as "deletable verbs" in twoways: 1. Wechoose verbs matched with the semantic relations of "A no B" by using a thesaurus. 2. We choose verbs associated with specific nouns. If a verb frequently co-occurs with a noun in newspaper articles, we concluded that the verb is associated with the noun. By defining "deletable verbs" and utilizing a variety of the semantic structure of "A no B," we accomplished this paraphrasing by using only surface linguistics characteristics. 1 Introduction In natural language, various expressions can be used to denote an identical object, and a human can paraphrase an expression into some other expressions with the same meaning. Paraphrasing is an essential human skill to use natural language (Sato, 1999), thus its rea...
Article
SUMMARIST is an attempt to create a robust automated text summarization system, based on the `equation': summarization = topic identification + interpretation + generation. Each of these stages contains several independent modules, many of them trained on large corpora of text. We describe the system's architecture and provide details of some of its modules.