Web page of Summarization in Okumura-Lab

テキスト自動要約研究の概要

last modified 2005.4.1

奥村研究室では，テキスト自動要約について様々な角度から研究を進めている．

論文間の参照情報を考慮した学術論文要約システムの開発

動的要約の生成

抄録を利用した情報検索

言い替えを使用した要約

決定木を用いた重要文選択

書き換えによる抄録の読みやすさの向上

・論文間の参照情報を考慮した学術論文要約システムの開発

本研究では，データベースから関連する論文を自動的に収集し，人間が特定分野のサーベイ論文を作成する作業を支援するシステムを示す．本研究では，サーベイ論文作成支援の際，論文の参照情報に着目する．論文の参照情報とは，論文中でその論文と参照先論文との関係について記述されている箇所(参照箇所)から得られる情報のことで，参照先論文の重要点や，参照元と参照先論文間の相違点を明示する有用な情報が得られる．サーベイ論文作成には2つの処理(1)特定分野の論文の収集(2)論文間の相違点の検出が必要であると考えられる．本研究では参照情報を利用することでこれらの処理が部分的に実現可能であることを示す．
(発表論文) (ツール)
・動的要約の生成

一般にテキストの主題は複数あり得る．また，テキストを書き手が1つの主題で書いたとしても，読み手によって主題と受け取るものは様々である可能性があり，個々の文の重要度は読み手の観点によって変わってくるであろうと考えられる．これに関して，近年，要約の利用される状況でユーザの要求に適合した要約を動的に作成する必要があるという考え方に基づいた研究が行われつつある．
本研究では，動的要約生成研究に関して，基礎的な調査を行っている．この調査とは，被験者が重要文抽出を行う際に，予め観点を与えられている場合と与えられていない場合とで，抽出される重要文にどのような違いがあるのかを調べる心理実験である．調査の結果，被験者に予め観点を与える場合と与えない場合とでは，抽出される重要文のうちの40%程度が異なることがわかった．
動的な要約の利用に最も適した分野の1つとして，情報検索があげられる．一般に情報検索では，検索結果として，検索要求に一致するテキストのリストと各テキストの要約が提示される．この要約の目的は，利用者が自分の要求に合うテキストを実際にテキスト全体を読まずに判断できるようにすることである．この目的で要約が利用される場合，一般的な要約よりも，利用者が入力した検索要求に即した要約の方が良いと考えられる．このタイプの要約は `query-biased summary'(検索要求を考慮した要約)と呼ばれる．
本研究では，このquery-biased summaryを検索要求と一致するテキスト中の語彙的連鎖に基づいて作成する手法について述べる．語彙的連鎖とは，テキスト中で意味的つながり(語彙的結束性)を持つ語の連続のことをいう．各連鎖がテキスト中の話題のまとまった一部分であると考えられる．このような語彙的連鎖の情報を利用することで，従来の手法よりも読み易く，一貫性の高い要約が作成できる．本稿では提案手法の有効性を確かめるため，情報検索タスクに基づく評価方法を採用し，他の手法で作成された要約との比較を行なう．実験では人間の被験者達によって，実際の情報検索タスクにおけるテキストの検索要求への適合性判定を行なう．結果から語彙的連鎖に基づく要約手法が，情報検索タスクに適した良い要約を作成できることを示す．
(発表論文)
・抄録を利用した情報検索

テキストの検索と要約は，互いに深い関係にあり，要約技術はテキスト検索に少なくとも次の2点で応用できる．

要約で得られた元テキストの重要部分のみを用いたインデキシングにより，あまり重要でない単語によるノイズを減らし，検索の精度を向上させる．

検索結果に対し要約を表示することで，利用者の検索支援に役立てる

本稿では，1 のノイズを減らし精度をあげるという要約の役割に注目し，異なるテキスト抄録生成モデル(lead, 単語の重要度に基づくモデル, 語彙的連鎖の重要度に基づくモデル,leadと連鎖を組み合わせモデル)を実装し，検索実験により，抄録を行なわない全文での結果もあわせた比較を行った．本稿の実験では，全文の場合がもっとも良く，要約によりノイズを減らす効果よりも，必要な情報を削る影響が強く出る結果となった．要約を検索に利用する場合に有効な元テキストの長さや種類，また要約の長さなど，更に調査が必要であるという課題が残る．
なお，ここでいう抄録とは，重要文を抽出することによって作成した要約のことを言う，
(発表論文)
・言い替えを使用した要約

本研究では言い替えにより要約を生成する手法を提案する．要約の手法は過去に幾つか提案されているが，それらの方法ではキーワード，要約的表現などの表層的な情報を利用した抄録の方法が主である。しかし，物語文を対象とした要約システムにおいては，ストーリーを損なうことなくまとめることが重要であり，重要箇所を抽出する手法は適さない．そこでエピソードを言い替える事により物語文を要約する手法を提案する．

言い替えのためにはEDR電子化辞書の日本語単語辞書の語釈文と概念辞書を使用する．語釈文からは時間経過による動作を抽出したテンプレートを作成する．概念辞書は前後の動作が概念的に似ている場合にまとめて言い替えを行なうのに使用する．
(発表論文)
・決定木を用いた重要文の選択

テキスト自動要約研究のこれまで多くのものは，テキスト中の文を1つの単位とし，それらに何らかの情報を基に重要度を付与し，その重要度で順位付け，重要な文を選択し，それらを寄せ集めることで，要約を生成する．要約生成の際に利用するテキスト中の情報について，これまで数多くの物が提案されてきた．一方，これらの種々の情報を組み合わせて重要度の評価を行う場合，その組み合わせ方が問題となる．本研究では種々の情報を組み合わせる際，決定木学習を行う．予め，訓練用のテキストデータを用意し，C4.5を用いて決定木を獲得し，重要文抽出を行う．本研究の特色は，その決定木学習方法にある．訓練データの要約率が低い場合，そのままC4.5を適用すると，重要文は非重要文と比べて圧倒的に数が少ないためノイズとみなされ，従って，十分な抽出精度が得られない．これについて，本研究ではTLDTという手法を用い，決定木学習を2段階に分けて行うことで，重要文抽出の精度向上を試みる．

・書き換えによる抜粋の読みやすさの向上

自動抜粋作成において，テキスト中から重要な文を抽出して並べただけでは読みやすさに欠ける，という問題点が指摘されているが，それに関する取り組みはこれまでほとんどなされていない．読みやすい要約を作成するには，まず，抜粋の読みやすさ向上のためにどのような処理が必要となるかを明らかにし，それらの処理を計算機上で実現する必要である．本研究では，抜粋の読みやすさ(読みにくさ)に関して心理実験により調査した．その結果，抜粋の読みにくさには大きく5種類の要因があることがわかった．また，このうちのいくつかを書き換え(revision)により解消する手法を提案した．