北陸先端科学技術大学院大学
自然言語処理学講座
望月 源
last modified Jul 08 1999
その代表的なものはワープロソフトです.あなたが普段お使いのワープロソフトの マニュアルやオンラインヘルプを探してみて下さい.「テキストの要約」というよ うな項目が見つかるのではないでしょうか? もしなければ,そのソフトはちょっと時代遅れかもしれません;-)
ワープロソフト以外では,最近活発になってきたテキストデータベースソフトや, 翻訳ソフトにも要約機能付きのものがあります.それから,売りもの(有料)ではな い場合も多いですが,WWWの検索エンジン(サイト)にも検索結果に各ページの内容 を短く紹介した文がついていると思います.あれも要約です.
ではこれらの市販ソフトでは,どのような方法で要約を作成しているのでしょうか?
基本的にどのソフトも内部で使われている技術は「企業秘密」ですから完全には明
かになっていません.しかし,各ソフトによって作成された要約を見る限り,重要
文抽出あるいは重要個所抽出と呼ばれる手法を使って実現されているものと推測さ
れます(以下,重要文抽出で統一します).この重要文抽出という手法では,テキス
ト中の文や単語を単位として考え,それぞれの重要度を計算します.要約の作成は,
指定された要約率に合わせて重要度の高い順にテキスト中の文や単語(あるいは文
節など)を取り出すことで作成されます.この重要度の計算方法は,いろいろ考え
られており,各ソフト毎に違うものと予想されます(実際にいくつかのソフトを使
用して同じテキストの要約を作成すると,だいたいは違う要約が作成されます).
このページでは,まず,2節で基本的な重要文抽出の手法に
ついて説明します.そして,
続く3節では,実際に市販されているソフトを
ワープロソフト,データベースソフト,翻訳ソフト,その他という4つに分類し,
それぞれの代表的な製品をあげ,わかる範囲でその製品で使用される要約手法の説
明を試みます.
ただし,記事中には各ソフトの出力結果と,筆者の知識,経験から想像した部分が
含まれる点を御了承下さい.