TSC3 タスク定義

タスク: 複数文書要約
クエリに適合する文書集合から, 指定された長さ(2種類)の要約を作成するタ
スク. 

この課題は, 基本的にはtsc2の課題Bの継続と考えられます. 

与えるもの: 
文書集合, 
文書集合を得るのに用いたクエリ, 
文書集合中の主要な情報に関する質問集合, 
要約の長さ(2種類)

返してもらうもの: 
要約(2種類)
#その際, 上のどの情報を使うか, 他の情報を使うかは任意. アンケートで使っ
#た情報を書いて頂きます. 

サブタスク(オプショナルタスク): 文書集合からの抜粋作成
クエリに適合する文書集合から, クエリに適合する文を抽出し, 冗長な(重複
する)情報を除去するタスク. 
cf. TREC Novelty Trackのrelevant or new sentence抽出

与えるもの: 
上述のものに加え, 抽出する文数(2種類)

返してもらうもの: 
以下で述べる評価1の評価結果自体

複数文書要約システムには少なくとも, 

(1) 重要文抽出技術, 
(2) (抽出した)文間の類似性(冗長性)を測る技術, 
(3) 冗長性を除去した重要文をさらに文短縮する技術, 

の3つの構成素が必要と考えられますが, このサブタスクで(1), (2)の要素技
術の評価を行ないたいと考えています. 

評価: 

1. 要約作成時に抜粋を作成するシステムでは, recall, precision, f-score
   計算ツールで各自抜粋を, 人間の抜粋との一致度で評価(上述のサブタスク
   に対する評価). 

人間が選択した重要文データを公開し, scorerを配布しますので, 期限までに
評価結果を提出して下さい. こちらでベースラインのデータなどを付加して全
体集計をします.

recall, precisionは, 人間の重要文データとの一致度を元にした尺度ですが,
通常のrecall, precisionおよび「重複を考慮したrecall, precision」の2種
類の尺度を用います. 

2. 要約の内的評価

a. 内容評価
  評価者が自分の作成した要約とシステム要約との間で文対応付けを行い,そ
  のスコア(対応度合い)に基づき要約を評価する.ただし,評価者が作成した
  要約に含まれる文には重要度のランクが付与されているのでそれも考慮して
  最終的な評価値を決定する.

b. 可読性: Quality Questionsに基づく主観評価
cf. DUC2002

予算的に可能なら, 

c. (Quality Questionsに基づく)添削: TSC2の評価を継続. 

3. 外的評価
作成した要約が質問集合に対する回答パッセージを含む度合をscorerで各自評
価. 

質問集合に対して人間が抽出した回答パッセージを公開し, scorerを配布しま
すので, 評価結果を期限までに提出して下さい. こちらでベースラインのデー
タなどを付加して全体集計をします.

SUMMAC Q\& Aタスクのscorerを使えれば使いたいと考えています. 

日程(案): 
#dryrunは今回は実施しません. 

formal run
  課題配布: 2003.11.17
  結果提出〆切: 2003.11.24
  評価結果返却: 2004.2.1
  (評価1,3)の評価結果提出: 2004.2.1

成果報告
  報告書〆切: 2004.3.19
  成果報告会: 2004.5

TSC3の特徴:
複数テキスト要約の要素技術の評価(オプショナルなサブタスク)
multi-genreな文書集合(複数の新聞社の新聞記事, 新聞記事とweb pages)
自動評価(offline evaluation)法の採用(評価1, 3)