[Back][Next]
要約機能付き市販ソフト(2)
last modified Jul 08 1999
2.基本的な重要文抽出手法
重要文抽出の手順を簡単にまとめると次のようになります.
- テキスト中の各文を抽出の単位とする.
- 何らかの情報を基にして,各文の重要度を計算する.
- 2で計算した重要度により各文を順位付けする.
- 3の重要度が上位の文から順に,要約する割合に応じて選択する.
市販ソフトの要約機能は,基本的に上記の手続きで要約を作成しています.ただし,
手続きの2番目にある「何らかの情報」としては,様々な情報が単独でも,組み合
わせても使用可能です.また,各情報をどのように重要文計算に利用するかという
点も色々考えることができます.実際にこれらの点は各ソフトごとに異なります.
ここでは,重要度計算に用いられる代表的な情報を順にあげながら,それぞれどの
ように使用されるかを含めて説明します.
重要文抽出に関するより詳しい説明は
テキスト自動要約に関する研究動向(文献1)
を参照して下さい.
- 単語の重要度を情報とする
一般にテキスト中には重要な単語とそうでない単語があると考えられます.
例えば,頻繁に出現する単語(主に名詞)は,そのテキストの主題を示す重
要な単語だと考えられます.逆にほとんど出現しない単語はそれほど重要
ではないと思われます.このような各単語の重要度は,文の重要度計算に
利用できます.まず個々の単語の重要度を計算し,重要な単語を多く含む
文ほど重要であると考えて文の重要度を計算します.一番単純な計算方法
としては,ある単語のテキストでの出現頻度(term frequency,tf)をその
単語の重要度として,ある文に含まれる各単語の重要度を足し合わせてそ
の文の重要度とするものが考えられます.また,データベースのように,
テキスト集合が考えられる場合には,ある単語が出現するテキスト数
(document frequency, df)も考慮して,その単語の重要度を計算する方法
(tf.idf法)も使用されます.
- タイトルを情報とする
おおざっぱに言ってテキストにタイトルや見出しなどがある場合,それは
本文の簡単な要約になっていると考えることができます.そこで,タイト
ルや見出しの重要度をあげて,要約に含まれるようにするとか,タイトル
や見出しにある単語の重要度を高くして,文の重要度計算を行なうなどの
方法が利用されます.
- 文のテキスト中での位置を情報とする
テキストにはそのジャンルによって,ある程度規則的な構造があると考え
られます.例えば,新聞記事では一般に見出し,小見出し,本文という順
番で1つの記事が書かれています.こうした構造も重要文抽出に利用でき
ます.
新聞記事を要約する場合には,記事の先頭の方にある文の重要度をあげる
方法が有効だと言われています.これは,記事では先頭の部分で事件や事
故などの概略が述べれることが多いためであり,構造を利用した抽出が行
なえるためです.また,英語のテキストなどでは一般的にテキスト中の各
段落の先頭にある文は比較的重要であると考えて重要度をあげるという方
法も用いられます.
- 手がかり表現を情報とする
例えば「このテキストでは....について述べる」の
ように,テキスト中の重要個所を示す表現というものがいくつか存在しま
す.このような手がかり表現を探し,その文の重要度をあげるという方法
が用いられます.また,逆にその文が重要でないことを示すような手がか
り表現を探し,重要度を下げるために用いることもできます.
- 文間,単語間のつながりを情報とする
意味的に関連のある単語どうしが互いに出現する文と文は,つながり強い
と考えられます.この関係をすべての文と文について計算することにより,
多くの文とつながりのある文の重要度をあげる方法が用いられています.
- 文と文の類似性を情報とする
ある文(例えばタイトル)が非常に重要だと仮定すると,その重要な文に類
似した文はやはり重要であると考えることができます.また,どの文が重
要であるかわからない場合にも,テキスト中の各文と文の類似度を計算し
ていくと,いくつかの類似した文の集合を考えることができます.この中
で多くの文を含むような集合が重要な文の集合と考えて文の重要度計算に
利用することができます.
- 文間の関係を解析したテキスト構造を情報とする
要約とは別に自然言語処理の分野では,文のタイプや文の先頭にある接続
表現,照応表現などからテキストを構造化する研究が行なわれています.
このような研究から得られたテキスト構造を文の重要度計算に利用するこ
ともできます.
以上,ここでは重要度計算に利用される7種類の情報について簡単に説明しました.
実際に市販ソフトの要約作成は,この7種類のどれかを単独で,あるいはいくつか
を組み合わせて用いることにより実現されています.
3節では,いくつかの代表的な市販ソフトの要約
手法について説明します.
[Back][Next]