TSC 第3回ミーティング議事録
難波 英嗣
日時:2001年6月25日
場所:国立情報学研究所 16階 セミナー室
参加者一覧(19名):
(敬称略,順不同)
東京工業大 奥村
追手門学院大 福島
立命館大 福本
東大 加藤
CRL 村田, 内山
京大 清田
NII 神門, 栗山, 江口
NTT 佐々木
富士通研 落谷, 仲尾
富士ゼロックス 岡
沖電気 池野
横浜国大 森
ATR 山本
リコー 亀田
日本学術振興会 難波
======================================================================
1. 使用データ: 毎日新聞記事 98, 99年版
2. 課題および評価方法:
* 課題A: single(単一テキスト要約)
tsc1の課題のうち, A-2を継続. テキストから要約率20, 40%で要約を
作成. システムの出力は重要文抽出でも重要個所抽出でもかまわない
が, 評価はどちらも同じ方法(主観評価)で行なう.
tsc1 課題A-2からの変更点
- 要約作成者間のゆれが大きいと考えられるので, 要約は3人により
作成してもらう.
- 評価方法として, tsc1のA-2で行なった主観評価を継続するととも
に, 新たな評価の指標として, 「システムの要約に対する修正の度
合」を別途導入. 内容, 可読性に関して, システムの要約を人間(3
人)に添削してもらう. 添削は, 挿入, 削除, 置換の3つの操作のみ
で行なう. その度合(作業個所と挿入/削除/置換した文字数)を指標
とする.
* 課題B: multi(複数記事を対象にした要約)
単なる報道記事とその続報記事の集合だけでなく, いくつかの種類の
テキストセットを対象. また, セット中のテキスト数も, 少数(2-3),
中くらい(5-7), 比較的多い(10-)場合を対象.
複数記事要約でも,同様に各セットに対する正解要約は, 3人に作成し
てもらう. セットを作成する際に用いた情報(クエリ等)もシステムへ
の入力として与える.
評価方法としては, 単一テキストの場合と同様, 可読性, 内容に関す
る主観評価とともに, 添削に基づく指標を用いる.
3: 議論
* 課題A(評価方法について)
- 添削による評価には, いくつかの方法が考えられる.
・3つの添削のうち, システムの要約に最も近いもの(添削個所の少な
いもの)から, システムの評価値を計算する.
・3人の添削の平均値を, システムの評価値とする.
・3人の添削者の間で一致する個所は重要と考え, 多くの被験者が一致
する個所からシステムの評価値を計算する.
- 要約の品質が極端に違うと, 被験者の添削の仕方も変わってくるのでは.
そこそこ出来の良い要約であれば丹念に修正を加えるが, 要約の出来が
あまり良くないと, 添削が大雑把になる可能性もある.
- システムの要約の書き換え(添削)は, 最小の編集ですませるのか, それ
とも評価者があらかじめ要約を作って, それに近づけるように書き換え
るのか?前者だとすれば, 人手で作成した要約がたくさん出来る.
- 人が添削した要約の要約間の比較を行なうのか?
この結果の妥当性については分析・検討の予定.
- 校正者の読解力を見る必要はあるか?
* 課題B
(評価方法について)
- 要約の長さについて, どのくらいが適当か?
評価者側からすると, どのくらいの長さのものまで安定して評価できるか?
実際にデータを見てみないと何とも言えない.
dryrunをやった後で調整せざるを得ないが, ある程度安定した評価が
得られることを目指したい.
10記事の要約として, 例えば40%の要約率で4記事分の長さの要約を出
力されても, 読むのが大変.
ユーザの立場からすると, 長さとしてはせいぜい一記事分+α程度が
限界では.
また, システムの要約を評価する被験者にとっても, あまりに長い要
約は避けた方がよさそうである. 評価の時に困らない程度の要約文字
数の制限.
DUC(Document Understanding Conference)の場合は, 50, 100, 200,
400語の4種類の固定長の要約を設定.
DUCの場合の要約作成法は, まず, 記事毎に要約を作成し, さらにそれ
らを集めたものを要約する, という手順で行なっている.
(実験セットについて)
- 実験に用いる記事セットはどのようなものか?
(例)
・ 続報記事
・ あるトピックに関する記事(過去何年間かに起きた船の事故)
・ ある商品を評価する複数の記事
・ 意見(社説)と事実(報道記事)が交じった記事集合
・ ある人物に関する記事集合
記事集合はある程度までは自動的に集めるが, 最終的には人手を入れ
て, トピックと関係のない記事は除外する.
また, 課題は記事集合だけでなく, どのような意図で集められた記事
集合であるのかも示す.
- そもそも, 複数記事の要約を作成するのに, 様々な意図(観点)が存在し
うる.
・ 要約作成の意図をどの程度明確にできるのか,
・ 「意図」にはどのようなものが存在しうるのか,
・ 意図がどの程度固定しうるものなのか,
・ システムが意図した要約をどの程度まで正しく評価できるのか,
を検討する必要がある.
* エントリに関して
- (課題Bについて)セットの種類毎にエントリできるようにする.
- 大学あるいは海外からの参加者を対象に, もし毎日新聞記事のライセン
スを持っていなくても, 参加できるよう配慮する予定. ある一定の期間
だけ毎日新聞記事を利用できるようにする.
* NTCIRタスク間の交流について
NTCIR3では, サブタスクとしてTSCやQACの他に, 中国語の新聞記事を対象
にしたIRや特許検索も行なう予定. タスク間の交流ができれば, 研究とし
ての幅が広がり有意義であると考えられる. タスク間の交流として, 例え
ば以下のものが考えられる.
- 日本と海外の新聞
NTCIR 4では新聞記事検索をタスクの一つとして行なう予定であるが,
その際, TSCと同じ年の新聞を使うことにより, タスク間の交流をは
かりたい(例えばCLIR & Translingual Summarization).
- 特許と新聞
NTCIR 4では特許検索もタスクの一つとして行う予定である.
例えば, 新聞に何らかの商品の情報が掲載されると, それに関する特
許を収集しまとめる, といったことも考えられる.
- TSCとQAC
例えば, TSCとQACで以下のような問題を設定した場合,
TSC: ある人物に関する複数記事からの要約
QAC: ある人物をQueryとした場合のAnswer
要約を評価する際, QA式の評価を取り入れることが可能になる.
例えば, ある薬品の説明に関する要約を作成する場合, 薬品のどのよう
な特徴が要約に含まれてなければならないか, あるいは記事のどの個所
がアンサーになっているのかがわかれば, その個所が要約に含まれてい
るかどうかで, 要約の評価が可能になる.
* その他
- 今回, tsc1における課題A-1(重要文抽出)を行なわないのはなぜか?
データセットを一度作ってしまえば, システムのパフォーマンスは
再現率と精度で評価できる. わざわざ主催者側でデータを集めて評
価をする必要はないのではないか. また, 技術的な発展としては
A-2(重要個所抽出)の方に向かっている. なお, tsc1のデータは現在
180記事分の要約データを公開している.
- tsc1の分析結果については以下の文献を参照されたい.
難波 英嗣, 奥村 学, ``第2回NTCIR ワークショップ 自動要約タス
ク(TSC)の結果および評価法の分析'', 情報処理学会 自然言語処理
研究会 & 電子情報通信学会 言語理解とコミュニケーション研究会,
2001.7.
(http://www.lr.pi.titech.ac.jp/~nanba/study/ieice2001.ps.gz)
4. 日程(案):
2001.7 CFP
9 dryrun課題公表, 結果提出
10〜11 評価,評価公表
12〜2002.1 分析
2002.2 round table
4 formal run課題公表, 結果提出
5〜6 評価 評価公表
7〜8 分析
9 round table
10 Workshop