Formal runにおける評価に関する補足説明

Formal runにおける評価に関する補足説明 (Last updated on Feb. 06, 2001)

各課題の評価方法はすでにtask descriptionに記述してありますが，Formal run の評価方法に関して，以下の補足があります．基本的にdryrunの時とほぼ同様の評価方法を採っています．

課題A-1(ベースラインシステムの手法)

Formal run 課題A-1では，leadとTF basedのシステムをTSCで用意し，ベースラインシステムとしました．各手法について簡単に説明します．

lead :
本文の先頭から要約率(文)として指定された文数だけ出力する．
TF based:
本文の各文ごとに内容語のTFの和を計算し，このスコアの高い文を要約率(文) として指定された文数だけ選択する．選択した文を元の文の出現順に戻して出力する．

内容語として，その品詞が名詞，動詞，形容詞，未定義語の単語を使用する．

課題A-2(Content basedな評価)

人間の作成した要約およびシステムの作成した要約をともに，Jumanで形態素解析し，内容語のみを抽出する．そして，人間の作成した正解要約の単語頻度ベクトルとシステムの要約の単語頻度ベクトルの間の距離を計算し，どの程度内容が単語ベースで類似しているかという値を求める．

<条件>

JUMAN 3.61 を使用する．
内容語として，その品詞が名詞，動詞，形容詞，未定義語の単語を使用する．
ベクトルの要素は，各内容語の tf*idf値とする．
dfの計算には，課題と同じ年の毎日新聞CD-ROM('94 or '98)の全記事を同じく形態素解析した結果を用いる．
距離尺度にはコサイン距離を用いる．

なお，タスクA-2において，人間の作成する要約は，

人間が自由作成した要約
人間が重要個所抽出により作成した要約

の2種類があり，Formal runでは，content-basedな評価を両方に対して行なった．

課題A-2(主観評価)

人間の作成した重要個所抽出要約
人間の自由作成要約
1システムが提出した結果
TF basedのベースラインシステムの結果

の4種類の要約を用意します．同時に元テキストも用意しておきます．

要約評価者(1名)に元テキストと各要約結果を読んでもらいます．そして，「テキストとして読みやすいかどうか」の観点と，「元テキストの重要な内容を不足なく記述しているかどうか」の観点の2点から要約を評価をしてもらいます．評価は，読みやすいものから，1, 2, 3, 4となり，同様に内容の点で見て良いものから，1, 2, 3, 4となります．つまり，評価値が低いほうが良いことになります．

課題A-2(ベースラインシステムの手法)

dryrun 課題A-2では，leadとTF basedのシステムをTSCで用意し，ベースラインシステムとしました．各手法について簡単に説明します．

lead :
本文の先頭から要約率(文字数)として指定された文字数だけ出力する．
TF based:
本文の各文ごとに内容語のTFの和を計算し，このスコアの高い文を要約率(文字数) として指定された文字数を超えるまで選択する．選択した文を元の文の出現順に戻して出力し，最後の文で指定文字数を超える分を削除する．

内容語として，その品詞が名詞，動詞，形容詞，未定義語の単語を使用する．

課題B

人間の被験者(アルバイトの学生36名)に，検索要求とその検索結果としてテキストの要約を提示する．
被験者は各要約を読むことによって，そのテキストが検索要求に合っているかどうか(適合性)の判断を行う．

評価基準：

タスクに要した時間 (TIME)

50テキストを処理するのにかかった時間

タスクをどの程度うまく行なえたかを示す指標再現率(recall), 精度(precision), F値(F-Measure)を用いる．

      
   Recall  =   被験者が正しく適合と判断したテキスト数/
	       実際に適合するテキストの総数
   Precision=  被験者が正しく適合と判断したテキスト数/
               被験者が適合と判断したテキストの総数
   F-Measure= 2*Recall*Precision / (Recall+Precision)

要約の長さ(LENGTH)

1テキスト(要約)あたりの平均文字数

実験データ
TOPIC数 = 12
TOPICあたり，50テキスト (計600テキスト)
被験者36名を3人1組の12グループに分けて評価
- 1人の被験者は1つのTOPICを1度だけ評価
- 1人の被験者は1つのシステムを1度だけ評価
- 同じ(TOPIC-システム)の組み合わせは1グループにだけ評価される
- できるだけ，各システムと各クエリを評価する順番にかたよりが起きないように組み合わせを作成する
- なお，被験者に提示される36テキストの表示順はランダム
各テキストは，TOPICに対する適合性が，A,B,Cの3段階で評価されています．このうち A判定だけを正解とした場合(Answer Level A) と，B判定も正解とした場合(Answer Level B)の2種類を結果として提示しました．

また，今回の実験データは，IREX IRテストコレクションのトピック (http://www.csl.sony.co.jp/person/sekine/IREX/)を利用し，毎日新聞 CD-ROMデータ'98を対象に，検索の適合性判定実験を行ない，TSCが新たに作成しました．

評価結果はいずれも，3人の被験者の結果の平均です．

課題B(ベースラインシステムの手法)

dryrun 課題Bでは，leadとTF basedのシステムをTSCで用意し，ベースラインシステムとしました．各手法について簡単に説明します．

lead :
本文の先頭から要約率(文)として指定した文数だけ出力する．今回の要約率は文を単位として20%とした．
TF based:
本文の各文ごとに内容語のTFの和を計算し，このスコアの高い文を要約率(文) として指定した文数だけ選択する．選択した文を元の文の出現順に戻して出力する．今回の要約率は文を単位として20%とした．

内容語として，その品詞が名詞，動詞，形容詞，未定義語の単語を使用する．
Full text:
今回は，フルテキストには，記事の見出しを先頭に付けて被験者に提示しました．

課題B正解データの作成

正解データは，IREXの判定基準に沿って作成した．判定ツールもIREXのツールを使用した．

各課題の内容語を検索要求とし，標準的tf.idf型の検索エンジンで検索．
各課題ごとにランク上位300記事を選択．
IREXの判定基準に沿って，2人の学生判定者が判定．
IREXの判定基準に沿って，最終判定者が最終判定．
AまたはB判定となった記事で，同じ内容の記事(大阪版と東京版)を調べ一方を除外．
各課題ごとに以下の手続きで50記事を選択．

1．上位50記事を選択し，A判定の割合を調べる．
2．Aの割合が20%以上であれば終了． Aの割合が20%未満である場合，もう10記事を選択する．
3．2の10記事内のA判定の記事と，既に選んだ50記事内のA以外で下位の記事を入れかえる．
4．2の手続きに戻る．