TSC 第3回ミーティング議事録
TSC2 formal run, round table ミーティング議事録


                                              2002.8.14
                                              難波 英嗣


日時:2002年8月6日
場所:国立情報学研究所 14階  セミナー室
参加者一覧(15名):
(敬称略,順不同)

東京工業大       奥村,難波
追手門学院大     福島
横浜国大         森
豊橋技科大       増山,吉田,酒井
ATR              山本
CRL              野畑
NTT              平尾
NEC              石川
東大             松村,岡崎
立命館大         福本
NII              神門



※ 主観(順位付け)評価の補足説明

   主観評価では,システム要約を評価者20名に割り振って評価してもらった.

   各評価者は30記事分を評価.ただし,その中は10システム分がシャッフル
   されている.


1. 今回の評価結果や評価方法に関する感想

 1.1 主観評価について

   ある参加団体は,重要文抽出と不要文節落としの2種類の要約システムによ
   る結果を提出.2システム間で18個が同じ要約であったにもかかわらず,評
   価値が0.25程度ずれていた.→主観評価がうまくいっていないのでは.

   内容と読みやすさの相関を調べると,割に高い相関があることがわかった.
   評価者は内容と読みやすさがごちゃごちゃになって評価しているのではな
   いか.

   順位の平均値をとることにどの程度の意味があるのか.平均値は順位の上
   下関係(相対的)だけが意味があって,順位の絶対値に意味があるわけでは
   ない.従って,システムとベースラインとの比較は問題ないが,順位の平
   均値で他のシステムと比較するのは意味があるのか.
   
      →平均値をとるには絶対評価を持ち込む必要がある.しかし,どうやっ
        て絶対評価を行うのか.基準の設定が難しい.

 1.2 DUC2002における評価方法と比べて...

   DUC2002の評価方法:

      * 内容の評価
           要約作成者自身がシステム要約,Lead手法による要約,他の人間
           が作成した要約の内容評価を行う.

           ユニットレベルでの評価方法.ユニットとはおおよそclauseに相
           当する.システム要約と人手作成要約をユニットレベルで比較し,
           システムがどの程度人手作成要約のユニットをうまく抽出できて
           いるかで評価する.システム要約は,プログラムを用いて自動的
           にユニットに分割される.

	   システム要約と人手作成要約間のユニットのアラインメントは対
	   応する/しない でとっているが,対応の度合に応じて細かく分け
	   た方が良さそう.

      * 読みやすさの評価
           12個の評価基準を設定     
             (例)
                `a' や `the' の使い間違いは何個あるか.
                先行詞のない照応は何個あるか.

           結果を見れば,システム要約のどこが悪いのか,すぐにわかる.

 1.3 要約作成者の質と種類の問題

   評価者は,今回は要約筆記者.添削では,文末表現を削るといったような
   要約筆記ならではの添削が少なくなかった.そういう要約もありうるが,
   他の評価者による評価も考えられるのでは.

      →要約作成者の作成(あるいは添削)した要約と,参加者が求めていた要
        約との間のずれ

   しかし,新聞記者ならば今回の要約作成や評価に適しているとは必ずしも
   いいきれない.記者によっては,こう書くべきだ,といった独自の基準で
   書くことがあるため,かなり独特な要約が作成されることもある.

      →人によるばらつき


2. 今後について

 2.1 評価方法の提案

   * 人手作成要約とシステム要約間のアラインメントに基づく評価 (平尾さん)

      (DUC2002の評価の問題点)
      DUC2002における内容評価の問題点は,人手作成要約とシステム要約間
      でアラインメントをとる際,ユニット同士は一対一で対応し,かつ,ど
      のユニットも同等に扱われていた.しかし,実際には,多対多のアライ
      ンメントも考えられる.また,各ユニットの持つ重要度は,ユニット毎
      に異なると考える方が自然である.

      (提案手法)

      あらかじめ,人手作成要約中の文は,重要度順にランクを付けておく.

             rank | Human     Sys
             -----+--------------
                1 |   a1     s1
                2 |   a2     s2
                3 |   a3     s3
                4 |   a4     s4

      人手作成要約(Human)とシステム要約(Sys)間で,文レベルで多対多のア
      ラインメントをとる.

               a1       -- s1 と s2
               a2       -- none
               none     -- s3
               a3 と a4 -- s4

      さらに,各対応関係に対する評価値x も同時に与える.

               (a1,s1:s2) = xi 
               (a2, None) = xj
               (None, s3) = xk
               (a3:a4, s4)= xl

      評価値は意味的に等価であれば1を,対応する文がなければ(上の例にお
      けるxjとxk)0を与える.また,対応の度合に応じて0〜1の値を与える.


      この場合,RecallとPrecisionは以下の式で計算される.

                    xi + xj + xl
          Recall = --------------
                     1  + 1  + 1  ← a1 + a2 + (a3:a4)


                    xi + xk + xl
       Precision = --------------
                     1  + 1  + 1 ← (s1:s2) + s3 + s4

       となる.ただし,多対多を許すアラインメントなので,文の数がその
       まま,Recall,Precision の分母とはならない点には注意をする必要
       がある.

      また,例えば a1, a2, a3, a4 の文の重要度(一種のユーティリティの
      ようなもの.[Radev, 2000][難波,2002]を参照)をλ1, λ2, λ3, λ4 
      とする.この時,Humanに含まれる情報をどの程度カバーしているかは,
      上記の例の場合,以下の式で計算される.

                       λ1*xi+λ2*xj+(λ3+λ4)*xl           
              Recall = --------------------------
                           λ1+λ2+(λ3+λ4)  ← a1 + a2 + (a3:a4)


      (※) 多対多を許すと比較の単位が文ではなくなり,比較のユニットを
           どうするか,という点で難しいのではないか.



   * モジュール毎の評価

   多くのシステムは,おそらく重要文抽出を行っているのではないかと思わ
   れる.そこで,重要文抽出の段階での評価はできないか.その際,テキス
   ト間での重複はあらかじめとっておく必要がある.

   複数文書の重要文データがあれば,それだけでも評価は可能.重要文デー
   タの必要性.タスクとしてはそれほど面白みがないかもしれないが,評価
   の再現性という点では意味があるのでは.

   時間情報の標準化も複数文書要約の要素技術の一つであると考えられる.
   このように要素技術を評価することも重要なのでは.




 2.2 タスクの設定

   ソースとして毎日新聞以外の新聞社のものも使えないか.ある新聞社の複
   数記事は,記事間で案外冗長性が少ない(続報記事の場合,おそらく前の記
   事を読んでいることを前提に記事が書かれているため).複数新聞社の記事
   を使った方が,記事間の重複個所が多い.

   話し言葉.講演の要約 →このようなデータの方が要約筆記者向き.

   ある質問の答えを見つけるような要約(descriptionタイプの答えを求める
   QA).WhyやHowみたいな質問に答えるシステム.

     TRECでは今年から Novelty トラックが始まっている.最終的にはexact
     に答えが決まらないようなタスクに対応するためにはじまったトラック.
     一種の,descriptionタイプの答えを求めるQAのようなもの.

  QAベースの評価の場合,評価尺度も変わってくる可能性がある.システム
    の出力を見て答えがわかれば良い.


   タスクベースの要約:例えば,要約を使ってIRを行う.IRの精度で評価.

   タスクベースでの評価は,評価の上で読み易さのファクターが消える.

   読みやすさを要求するようなタスクも必要.

   内容に関する評価は,ある程度蓄積できれば自分で評価することも可能.
   しかし,読みやすさに関しては,人間が評価せざるを得ない(自動的に評価
   するのは難しい).その意味で,今後もTSCのようなワークショップで評価
   していただけるとありがたい.

   タスクを決めると,そのタスクに特化した要約というのも考えられるので,
   タスクベースの課題も面白い.



   時期は未定だが,TSC-3のタスク検討会をやりたい.


3. 連絡事項

   ・NTCIR関連

       8/20    : 原稿締め切り
       10/8-10 : ワークショップ
       12/1    : 最終版原稿の締め切り

       ワークショップでの発表 ポスター発表は全員.口頭発表はNTCIRオー
       ガナイザが話し合って,タスク毎に参加者の中から2〜3件程度発表を
       行ってもらう.


   ・その他

        11/29  : IEICE「情報アクセスのためのテキスト処理」
                 小特集号(英文論文誌D)論文募集締め切り
        2003年 : 言語理解とコミュニケーション関係のシンポジウムが企画
                 されている.日本語での発表.於 鈴鹿


[参考文献]

Radev, D.R., Jing, H., and Budzikowska, M.
``Centroid-base Summarization of Multiple Documents: Sentence Extr
action, Utility-based Evaluation, and User Studies,''
Proceedings of the ANLP/NAACL2000 Workshop on Automatic Summarization, 
pp.21--29, 2000.

難波 英嗣, 奥村 学, 
``要約の内的(intrinsic)な評価法に関するいくつかの考察
-- 第2 回NTCIRワークショップ 自動要約タスク(TSC)を基に --,''
自然言語処理, Vol.9, No.3, pp.129--146, 2002.