[Japanese|English]
テキスト自動要約
テキスト自動要約の研究は,40年以上も前から行われている伝統のある研究分 野で,これまでは,1つのテキストから1つの要約を作成する単一テキスト要約 が中心的な研究課題でした.しかし,近年では,複数のテキストから1つの要約 を作成するという,よりチャレンジングなテーマに関心が移りつつあるようです. われわれも複数テキスト要約の研究に取り組んでいます. 単一テキスト要約では,テキストから重要な個所をどうやって見つけるかという のが重要な課題ですが,複数テキスト要約では,さらにこの他にも様々な点につ いて考える必要がありそうです.
例1
- 太郎は,朝,学校に向かっていた.
- 途中,獰猛そうな犬に出くわしたので,遠まわりした.
- そうしたら,学校に遅刻した.
例2
- 太郎は,そろばん教室に通っている.
- 今日,いつもの道が工事中だったので,遠まわりした.
- そうしたら,そろばん教室に遅刻した.
例えば,上の2つのテキストから,単一テキスト要約の技術を使ってそれぞれ以 下のような要約が得られたと考えます.
これら2文をならべただけでは,「太郎は」や「遅刻した」が重複していて,要 約としては冗長な感じがします.人間が要約を作成すれば,
- 太郎は学校に遅刻した. (例1)
- 太郎はそろばん教室に遅刻した. (例2)
とするか,
- 太郎は学校に遅刻した. (例1)
- そろばん教室にも遅刻した.(例1)
とでも書きそうです.このように複数テキスト要約では,個々のテキストの重要 点ばかりでなく,テキスト間の類似点(ここでは「太郎は」や「遅刻した」) や 相違点(「学校」と「そろばん教室」)についても考慮する必要があります. また,要約の対象となるテキスト集合の中に,2.1や2.2でに挙げた例文の他に, 以下のようなテキストがある場合について考えてみます.
- 太郎は学校とそろばん教室に遅刻した. (例1+例2)
例3
- 今日,学校から太郎の家に電話がありました.
- 「おたくのお子さんは最近遅刻が多すぎます」と,お母さんは先生からお叱りを受けました.
- 同じような電話が,そろばん教室の先生からもありました.
- お母さんはまいってます.
2.1と2.2の例文と,このテキストの記述をすべて組み合わせて1つの要約を作る という要約方法もありますが,このテキストには2.1と2.2の内容が含まれている ので,このテキストそのものを要約として出力するという考え方もあります.新 聞記事における,社説等のまとめ記事や,学術論文におけるサーベイ(レビュー) 論文等がこのようなテキストに相当します. このような方法で複数テキスト要約を行うメリットとして以下のような理由が挙 げられます.
複数のテキストから部分テキスト(文や段落など)を寄せ集めて並べただけで は, 文書としてつながりが悪いため,別途つながりを良くする処理が必要と なる. これに対し,テキスト集合から要約を見つける方法では,要約そのも のは1人 の人間が書いたものであるため,改めてつながりを良くする処理を 行う必要が ない. 複数のテキストをまとめて要約を作成するには,どのような観点でまとめる か についても考える必要があるが,テキスト集合から要約を見つける方法で は, 要約を書いた著者の観点が複数テキストをまとめる上での観点になって いる.