奥村研究室では,テキスト自動要約について様々な角度から研究を進めている.
・論文間の参照情報を考慮した学術論文要約システムの開発
本研究では,データベースから関連する論文を自動的に収集し, 人間が特定分野のサーベイ論文を作成する作業を支援するシステムを示す. 本研究では,サーベイ論文作成支援の際,論文の参照情報に着目する.論文 の参照情報とは,論文中でその論文と参照先論文との関係について記述され ている箇所(参照箇所)から得られる情報のことで,参照先論文の重要点や, 参照元と参照先論文間の相違点を明示する有用な情報が得られる.サーベイ 論文作成には2つの処理(1)特定分野の論文の収集(2)論文間の相違点の検出 が必要であると考えられる.本研究では参照情報を利用することでこれらの 処理が部分的に実現可能であることを示す.・動的要約の生成
一般にテキストの主題は複数あり得る.また,テキストを書き手が1つの主 題で書いたとしても,読み手によって主題と受け取るものは様々である可能 性があり,個々の文の重要度は読み手の観点によって変わってくるであろう と考えられる.これに関して,近年,要約の利用される状況でユーザの要求 に適合した要約を動的に作成する必要があるという考え方に基づいた研究が 行われつつある.・抄録を利用した情報検索本研究では,動的要約生成研究に関して,基礎的な調査を行っている.この 調査とは,被験者が重要文抽出を行う際に,予め観点を与えられている場合 と与えられていない場合とで,抽出される重要文にどのような違いがあるの かを調べる心理実験である.調査の結果,被験者に予め観点を与える場合と 与えない場合とでは,抽出される重要文のうちの40%程度が異なることがわ かった.
動的な要約の利用に最も適した分野の1つとして,情報検索があげられる. 一般に情報検索では,検索結果として,検索要求に一致するテキストのリストと 各テキストの要約が提示される.この要約の目的は,利用者が自分の要求に合う テキストを実際にテキスト全体を読まずに判断できるようにすることである.こ の目的で要約が利用される場合,一般的な要約よりも,利用者が入力した検索要 求に即した要約の方が良いと考えられる.このタイプの要約は `query-biased summary'(検索要求を考慮した要約)と呼ばれる.
本研究では,このquery-biased summaryを検索要求と一致するテキスト中の語彙 的連鎖に基づいて作成する手法について述べる.語彙的連鎖とは,テキスト中で 意味的つながり(語彙的結束性)を持つ語の連続のことをいう.各連鎖がテキスト 中の話題のまとまった一部分であると考えられる.このような語彙的連鎖の情報 を利用することで,従来の手法よりも読み易く,一貫性の高い要約が作成できる. 本稿では提案手法の有効性を確かめるため,情報検索タスクに基づく評価方法を 採用し,他の手法で作成された要約との比較を行なう.実験では人間の被験者達 によって,実際の情報検索タスクにおけるテキストの検索要求への適合性判定を 行なう.結果から語彙的連鎖に基づく要約手法が,情報検索タスクに適した良い 要約を作成できることを示す.
テキストの検索と要約は,互いに深い関係にあり,要約技術はテキスト検索に 少なくとも次の2点で応用できる.・言い替えを使用した要約
本稿では,1 のノイズを減らし精度をあげるという要約の役割に注目し,異 なるテキスト抄録生成モデル(lead, 単語の重要度に基づくモデル, 語彙的連 鎖の重要度に基づくモデル,leadと連鎖を組み合わせモデル)を実装し,検索 実験により,抄録を行なわない全文での結果もあわせた比較を行った. 本稿の実験では,全文の場合がもっとも良く,要約によりノイズを減らす効果 よりも,必要な情報を削る影響が強く出る結果となった.要約を検索に利用す る場合に有効な元テキストの長さや種類,また要約の長さなど,更に調査が必 要であるという課題が残る.
- 要約で得られた元テキストの重要部分のみを用いたインデキシングにより, あまり重要でない単語によるノイズを減らし,検索の精度を向上させる.
- 検索結果に対し要約を表示することで,利用者の検索支援に役立てる
なお,ここでいう抄録とは,重要文を抽出することによって作成した要約のこ とを言う,
・決定木を用いた重要文の選択本研究では言い替えにより要約を生成する手法を提案する.要約の手法 は過去に幾つか提案されているが,それらの方法ではキーワード,要約的表 現などの表層的な情報を利用した抄録の方法が主である。しかし,物語文を 対象とした要約システムにおいては,ストーリーを損なうことなくまとめる ことが重要であり,重要箇所を抽出する手法は適さない.そこでエピソード を言い替える事により物語文を要約する手法を提案する.
言い替えのためにはEDR電子化辞書の日本語単語辞書の語釈文と概念辞書 を使用する.語釈文からは時間経過による動作を抽出したテンプレートを作 成する.概念辞書は前後の動作が概念的に似ている場合にまとめて言い替え を行なうのに使用する.
(発表論文)
テキスト自動要約研究のこれまで多くのものは,テキスト中の文を1つの単 位とし,それらに何らかの情報を基に重要度を付与し,その重要度で順位付 け,重要な文を選択し,それらを寄せ集めることで,要約を生成する.要約 生成の際に利用するテキスト中の情報について,これまで数多くの物が提案 されてきた.一方,これらの種々の情報を組み合わせて重要度の評価を行う 場合,その組み合わせ方が問題となる.本研究では種々の情報を組み合わせ る際,決定木学習を行う.予め,訓練用のテキストデータを用意し,C4.5を 用いて決定木を獲得し,重要文抽出を行う.本研究の特色は,その決定木学 習方法にある.訓練データの要約率が低い場合,そのままC4.5を適用すると, 重要文は非重要文と比べて圧倒的に数が少ないためノイズとみなされ,従っ て,十分な抽出精度が得られない.これについて,本研究ではTLDTという手 法を用い,決定木学習を2段階に分けて行うことで,重要文抽出の精度向上 を試みる.