dryrunにおける評価に関する補足説明
(Last updated on Nov. 16, 2000)

各課題の評価方法はすでにtask descriptionに記述してありますが,9月に実 施しましたdryrunの評価方法に関しては,以下のような補足があります.また, formal runでも,dryrunとほぼ同様の評価方法を採る予定です.

課題A-1(ベースラインシステムの手法)

dryrun 課題A-1では,leadとTF basedのシステムをTSCで用意し, ベースラインシステムとしました.各手法について簡単に説明します.

課題A-2(Content basedな評価)

人間の作成した要約およびシステムの作成した要約をともに,Jumanで 形態素解析し,内容語のみを抽出する.そして,人間の作成した正解 要約の単語頻度ベクトルとシステムの要約の単語頻度ベクトルの間の距離 を計算し,どの程度内容が単語ベースで類似しているかという値を求める.

<条件>

なお,タスクA-2において,人間の作成する要約は,

  1. 人間が自由作成した要約
  2. 人間が重要個所抽出により作成した要約
の2種類がありますが,今回dryrunで行なったcontent-basedな評価は,後者と の比較に基づいています.

formal runでは1,2両方との比較を行なう予定です.

課題A-2(主観評価)

の4種類の要約を用意します.同時に元テキストも用意しておきます.

要約評価者(1名)に元テキストと各要約結果を読んでもらいます.そして, 「テキストとして読みやすいかどうか」の観点と,「元テキストの重要な内容 を不足なく記述しているかどうか」の観点の2点から要約を評価をしてもらい ます.評価は,読みやすいものから,1, 2, 3, 4となり,同様に内容の点で見 て良いものから,1, 2, 3, 4となります.つまり,評価値が低いほうが良いこ とになります.

課題A-2(ベースラインシステムの手法)

dryrun 課題A-2では,leadとTF basedのシステムをTSCで用意し, ベースラインシステムとしました.各手法について簡単に説明します.

課題B

課題B(ベースラインシステムの手法)

dryrun 課題Bでは,leadとTF basedのシステムをTSCで用意し, ベースラインシステムとしました.各手法について簡単に説明します.