TSC 第3回ミーティング議事録
                                                          難波 英嗣
日時:2001年6月25日
場所:国立情報学研究所 16階 セミナー室
参加者一覧(19名):
(敬称略,順不同)

東京工業大     奥村
追手門学院大   福島
立命館大       福本
東大           加藤
CRL            村田, 内山
京大           清田
NII            神門, 栗山, 江口
NTT            佐々木
富士通研       落谷, 仲尾
富士ゼロックス 岡
沖電気         池野
横浜国大       森
ATR            山本
リコー         亀田
日本学術振興会 難波

======================================================================

1. 使用データ: 毎日新聞記事 98, 99年版

2. 課題および評価方法:

   * 課題A: single(単一テキスト要約)

       tsc1の課題のうち, A-2を継続. テキストから要約率20, 40%で要約を
       作成. システムの出力は重要文抽出でも重要個所抽出でもかまわない
       が, 評価はどちらも同じ方法(主観評価)で行なう.

       tsc1 課題A-2からの変更点

        - 要約作成者間のゆれが大きいと考えられるので, 要約は3人により
          作成してもらう. 

        - 評価方法として, tsc1のA-2で行なった主観評価を継続するととも
          に, 新たな評価の指標として, 「システムの要約に対する修正の度
          合」を別途導入. 内容, 可読性に関して, システムの要約を人間(3 
          人)に添削してもらう. 添削は, 挿入, 削除, 置換の3つの操作のみ
          で行なう. その度合(作業個所と挿入/削除/置換した文字数)を指標
          とする.

   * 課題B: multi(複数記事を対象にした要約)

       単なる報道記事とその続報記事の集合だけでなく, いくつかの種類の
       テキストセットを対象. また, セット中のテキスト数も, 少数(2-3), 
       中くらい(5-7), 比較的多い(10-)場合を対象.

       複数記事要約でも,同様に各セットに対する正解要約は, 3人に作成し
       てもらう. セットを作成する際に用いた情報(クエリ等)もシステムへ
       の入力として与える.

       評価方法としては, 単一テキストの場合と同様, 可読性, 内容に関す
       る主観評価とともに, 添削に基づく指標を用いる.


3: 議論

  * 課題A(評価方法について)

    - 添削による評価には, いくつかの方法が考えられる. 

        ・3つの添削のうち, システムの要約に最も近いもの(添削個所の少な
          いもの)から, システムの評価値を計算する.
        ・3人の添削の平均値を, システムの評価値とする.
        ・3人の添削者の間で一致する個所は重要と考え, 多くの被験者が一致
          する個所からシステムの評価値を計算する.

    - 要約の品質が極端に違うと, 被験者の添削の仕方も変わってくるのでは. 
      そこそこ出来の良い要約であれば丹念に修正を加えるが, 要約の出来が
      あまり良くないと, 添削が大雑把になる可能性もある.

    - システムの要約の書き換え(添削)は, 最小の編集ですませるのか, それ
      とも評価者があらかじめ要約を作って, それに近づけるように書き換え
      るのか?前者だとすれば, 人手で作成した要約がたくさん出来る.

    - 人が添削した要約の要約間の比較を行なうのか?

        この結果の妥当性については分析・検討の予定.

    - 校正者の読解力を見る必要はあるか?      
      
  * 課題B

   (評価方法について)

    - 要約の長さについて, どのくらいが適当か?
      評価者側からすると, どのくらいの長さのものまで安定して評価できるか?

       実際にデータを見てみないと何とも言えない. 
       dryrunをやった後で調整せざるを得ないが, ある程度安定した評価が
       得られることを目指したい.

       10記事の要約として, 例えば40%の要約率で4記事分の長さの要約を出
       力されても, 読むのが大変.
 
       ユーザの立場からすると, 長さとしてはせいぜい一記事分+α程度が
       限界では.

       また, システムの要約を評価する被験者にとっても, あまりに長い要
       約は避けた方がよさそうである. 評価の時に困らない程度の要約文字
       数の制限.

       DUC(Document Understanding Conference)の場合は, 50, 100, 200,
       400語の4種類の固定長の要約を設定.

       DUCの場合の要約作成法は, まず, 記事毎に要約を作成し, さらにそれ
       らを集めたものを要約する, という手順で行なっている.

   (実験セットについて)

    - 実験に用いる記事セットはどのようなものか?

       (例)
       ・ 続報記事
       ・ あるトピックに関する記事(過去何年間かに起きた船の事故)
       ・ ある商品を評価する複数の記事
       ・ 意見(社説)と事実(報道記事)が交じった記事集合
       ・ ある人物に関する記事集合

        記事集合はある程度までは自動的に集めるが, 最終的には人手を入れ
        て, トピックと関係のない記事は除外する.

        また, 課題は記事集合だけでなく, どのような意図で集められた記事
        集合であるのかも示す.

    - そもそも, 複数記事の要約を作成するのに, 様々な意図(観点)が存在し
      うる. 

        ・ 要約作成の意図をどの程度明確にできるのか, 
        ・ 「意図」にはどのようなものが存在しうるのか, 
        ・ 意図がどの程度固定しうるものなのか, 
        ・ システムが意図した要約をどの程度まで正しく評価できるのか,

      を検討する必要がある.

  * エントリに関して

    - (課題Bについて)セットの種類毎にエントリできるようにする.

    - 大学あるいは海外からの参加者を対象に, もし毎日新聞記事のライセン
      スを持っていなくても, 参加できるよう配慮する予定. ある一定の期間
      だけ毎日新聞記事を利用できるようにする.

  * NTCIRタスク間の交流について

    NTCIR3では, サブタスクとしてTSCやQACの他に, 中国語の新聞記事を対象
    にしたIRや特許検索も行なう予定. タスク間の交流ができれば, 研究とし
    ての幅が広がり有意義であると考えられる. タスク間の交流として, 例え
    ば以下のものが考えられる.

    - 日本と海外の新聞

      NTCIR 4では新聞記事検索をタスクの一つとして行なう予定であるが, 
      その際, TSCと同じ年の新聞を使うことにより, タスク間の交流をは
      かりたい(例えばCLIR & Translingual Summarization).

    - 特許と新聞

      NTCIR 4では特許検索もタスクの一つとして行う予定である. 
      例えば, 新聞に何らかの商品の情報が掲載されると, それに関する特
      許を収集しまとめる, といったことも考えられる.

    - TSCとQAC

      例えば, TSCとQACで以下のような問題を設定した場合, 

         TSC: ある人物に関する複数記事からの要約
         QAC: ある人物をQueryとした場合のAnswer

      要約を評価する際, QA式の評価を取り入れることが可能になる.

      例えば, ある薬品の説明に関する要約を作成する場合, 薬品のどのよう
      な特徴が要約に含まれてなければならないか, あるいは記事のどの個所
      がアンサーになっているのかがわかれば, その個所が要約に含まれてい
      るかどうかで, 要約の評価が可能になる.

  * その他

     - 今回, tsc1における課題A-1(重要文抽出)を行なわないのはなぜか?

         データセットを一度作ってしまえば, システムのパフォーマンスは
         再現率と精度で評価できる. わざわざ主催者側でデータを集めて評
         価をする必要はないのではないか. また, 技術的な発展としては
         A-2(重要個所抽出)の方に向かっている. なお, tsc1のデータは現在
         180記事分の要約データを公開している.

     - tsc1の分析結果については以下の文献を参照されたい.

          難波 英嗣, 奥村 学, ``第2回NTCIR ワークショップ 自動要約タス
          ク(TSC)の結果および評価法の分析'', 情報処理学会 自然言語処理
          研究会 & 電子情報通信学会 言語理解とコミュニケーション研究会, 
          2001.7.
          (http://www.lr.pi.titech.ac.jp/~nanba/study/ieice2001.ps.gz)


4. 日程(案):

2001.7          CFP
     9          dryrun課題公表, 結果提出
     10〜11     評価,評価公表
     12〜2002.1 分析
2002.2          round table
     4          formal run課題公表, 結果提出
     5〜6       評価 評価公表
     7〜8       分析
     9          round table
     10         Workshop