各課題の評価方法はすでにtask descriptionに記述してありますが,Formal run の評価方法に関して,以下の補足があります.基本的にdryrunの時とほぼ同様の 評価方法を採っています.
Formal run 課題A-1では,leadとTF basedのシステムをTSCで用意し, ベースラインシステムとしました.各手法について簡単に説明します.
本文の先頭から要約率(文)として指定された文数だけ出力する.
本文の各文ごとに内容語のTFの和を計算し,このスコアの高い文を要約率(文) として指定された文数だけ選択する. 選択した文を元の文の出現順に戻して出力する.
内容語として,その品詞が名詞,動詞,形容詞,未定義語の単語を使用する.
人間の作成した要約およびシステムの作成した要約をともに,Jumanで 形態素解析し,内容語のみを抽出する.そして,人間の作成した正解 要約の単語頻度ベクトルとシステムの要約の単語頻度ベクトルの間の距離 を計算し,どの程度内容が単語ベースで類似しているかという値を求める.
<条件>
なお,タスクA-2において,人間の作成する要約は,
要約評価者(1名)に元テキストと各要約結果を読んでもらいます.そして, 「テキストとして読みやすいかどうか」の観点と,「元テキストの重要な内容 を不足なく記述しているかどうか」の観点の2点から要約を評価をしてもらい ます.評価は,読みやすいものから,1, 2, 3, 4となり,同様に内容の点で見 て良いものから,1, 2, 3, 4となります.つまり,評価値が低いほうが良いこ とになります.
dryrun 課題A-2では,leadとTF basedのシステムをTSCで用意し, ベースラインシステムとしました.各手法について簡単に説明します.
本文の先頭から要約率(文字数)として指定された文字数だけ出力する.
本文の各文ごとに内容語のTFの和を計算し,このスコアの高い文を要約率(文字数) として指定された文字数を超えるまで選択する. 選択した文を元の文の出現順に戻して出力し,最後の文で指定文字数を超える分を 削除する.
内容語として,その品詞が名詞,動詞,形容詞,未定義語の単語を使用する.
Recall = 被験者が正しく適合と判断したテキスト数/ 実際に適合するテキストの総数 Precision= 被験者が正しく適合と判断したテキスト数/ 被験者が適合と判断したテキストの総数 F-Measure= 2*Recall*Precision / (Recall+Precision)
TOPIC数 = 12
TOPICあたり,50テキスト (計600テキスト)
被験者36名を3人1組の12グループに分けて評価
また,今回の実験データは,IREX IRテストコレクションのトピック (http://www.csl.sony.co.jp/person/sekine/IREX/)を利用し,毎日新聞 CD-ROMデータ'98を対象に,検索の適合性判定実験を行ない,TSCが新たに 作成しました.
評価結果はいずれも,3人の被験者の結果の平均です.
dryrun 課題Bでは,leadとTF basedのシステムをTSCで用意し, ベースラインシステムとしました.各手法について簡単に説明します.
本文の先頭から要約率(文)として指定した文数だけ出力する. 今回の要約率は文を単位として20%とした.
本文の各文ごとに内容語のTFの和を計算し,このスコアの高い文を要約率(文) として指定した文数だけ選択する. 選択した文を元の文の出現順に戻して出力する. 今回の要約率は文を単位として20%とした.
内容語として,その品詞が名詞,動詞,形容詞,未定義語の単語を使用する.
今回は,フルテキストには,記事の見出しを先頭に付けて被験者に提示しました.
正解データは,IREXの判定基準に沿って作成した. 判定ツールもIREXのツールを使用した.