Formal runにおける評価に関する補足説明
(Last updated on Feb. 06, 2001)

各課題の評価方法はすでにtask descriptionに記述してありますが,Formal run の評価方法に関して,以下の補足があります.基本的にdryrunの時とほぼ同様の 評価方法を採っています.

課題A-1(ベースラインシステムの手法)

Formal run 課題A-1では,leadとTF basedのシステムをTSCで用意し, ベースラインシステムとしました.各手法について簡単に説明します.

課題A-2(Content basedな評価)

人間の作成した要約およびシステムの作成した要約をともに,Jumanで 形態素解析し,内容語のみを抽出する.そして,人間の作成した正解 要約の単語頻度ベクトルとシステムの要約の単語頻度ベクトルの間の距離 を計算し,どの程度内容が単語ベースで類似しているかという値を求める.

<条件>

なお,タスクA-2において,人間の作成する要約は,

  1. 人間が自由作成した要約
  2. 人間が重要個所抽出により作成した要約
の2種類があり,Formal runでは,content-basedな評価を両方に対して行なった.

課題A-2(主観評価)

の4種類の要約を用意します.同時に元テキストも用意しておきます.

要約評価者(1名)に元テキストと各要約結果を読んでもらいます.そして, 「テキストとして読みやすいかどうか」の観点と,「元テキストの重要な内容 を不足なく記述しているかどうか」の観点の2点から要約を評価をしてもらい ます.評価は,読みやすいものから,1, 2, 3, 4となり,同様に内容の点で見 て良いものから,1, 2, 3, 4となります.つまり,評価値が低いほうが良いこ とになります.

課題A-2(ベースラインシステムの手法)

dryrun 課題A-2では,leadとTF basedのシステムをTSCで用意し, ベースラインシステムとしました.各手法について簡単に説明します.

課題B

課題B(ベースラインシステムの手法)

dryrun 課題Bでは,leadとTF basedのシステムをTSCで用意し, ベースラインシステムとしました.各手法について簡単に説明します.

課題B正解データの作成

正解データは,IREXの判定基準に沿って作成した. 判定ツールもIREXのツールを使用した.

  1. 各課題の内容語を検索要求とし,標準的tf.idf型の検索エンジンで検索.
  2. 各課題ごとにランク上位300記事を選択.
  3. IREXの判定基準に沿って,2人の学生判定者が判定.
  4. IREXの判定基準に沿って,最終判定者が最終判定.
  5. AまたはB判定となった記事で,同じ内容の記事(大阪版と東京版)を調べ一方を 除外.
  6. 各課題ごとに以下の手続きで50記事を選択.
  7. 1.上位50記事を選択し,A判定の割合を調べる.
  8. 2.Aの割合が20%以上であれば終了. Aの割合が20%未満である場合,もう10記事を選択する.
  9. 3.2の10記事内のA判定の記事と,既に選んだ50記事内のA以外で下位の記 事を入れかえる.
  10. 4.2の手続きに戻る.