各課題の評価方法はすでにtask descriptionに記述してありますが,9月に実 施しましたdryrunの評価方法に関しては,以下のような補足があります.また, formal runでも,dryrunとほぼ同様の評価方法を採る予定です.
dryrun 課題A-1では,leadとTF basedのシステムをTSCで用意し, ベースラインシステムとしました.各手法について簡単に説明します.
本文の先頭から要約率(文)として指定された文数だけ出力する.
本文の各文ごとに内容語のTFの和を計算し,このスコアの高い文を要約率(文) として指定された文数だけ選択する. 選択した文を元の文の出現順に戻して出力する.
内容語として,その品詞が名詞,動詞,形容詞,未定義語の単語を使用する.
人間の作成した要約およびシステムの作成した要約をともに,Jumanで 形態素解析し,内容語のみを抽出する.そして,人間の作成した正解 要約の単語頻度ベクトルとシステムの要約の単語頻度ベクトルの間の距離 を計算し,どの程度内容が単語ベースで類似しているかという値を求める.
<条件>
なお,タスクA-2において,人間の作成する要約は,
formal runでは1,2両方との比較を行なう予定です.
要約評価者(1名)に元テキストと各要約結果を読んでもらいます.そして, 「テキストとして読みやすいかどうか」の観点と,「元テキストの重要な内容 を不足なく記述しているかどうか」の観点の2点から要約を評価をしてもらい ます.評価は,読みやすいものから,1, 2, 3, 4となり,同様に内容の点で見 て良いものから,1, 2, 3, 4となります.つまり,評価値が低いほうが良いこ とになります.
dryrun 課題A-2では,leadとTF basedのシステムをTSCで用意し, ベースラインシステムとしました.各手法について簡単に説明します.
本文の先頭から要約率(文字数)として指定された文字数だけ出力する.
本文の各文ごとに内容語のTFの和を計算し,このスコアの高い文を要約率(文字数) として指定された文字数を超えるまで選択する. 選択した文を元の文の出現順に戻して出力し,最後の文で指定文字数を超える分を 削除する.
内容語として,その品詞が名詞,動詞,形容詞,未定義語の単語を使用する.
Recall = 被験者が正しく適合と判断したテキスト数/ 実際に適合するテキストの総数 Precision= 被験者が正しく適合と判断したテキスト数/ 被験者が適合と判断したテキストの総数 F-Measures= 2*Recall*Precision / (Recall+Precision)
TOPIC数 = 10
TOPICあたり,30テキスト (計300テキスト)
被験者30名を3人1組の10グループに分けて評価
また,今回の実験データは,IREX IRテストコレクションを利用しました (http://www.csl.sony.co.jp/person/sekine/IREX/).
評価結果はいずれも,3人の被験者の結果の平均です.
dryrun 課題Bでは,leadとTF basedのシステムをTSCで用意し, ベースラインシステムとしました.各手法について簡単に説明します.
本文の先頭から要約率(文)として指定した文数だけ出力する. 今回の要約率は文を単位として20%とした.
本文の各文ごとに内容語のTFの和を計算し,このスコアの高い文を要約率(文) として指定した文数だけ選択する. 選択した文を元の文の出現順に戻して出力する. 今回の要約率は文を単位として20%とした.
内容語として,その品詞が名詞,動詞,形容詞,未定義語の単語を使用する.