TSC CFP

TSC TASK DESCRIPTION [English] [TSC Home]

ＮＴＣＩＲ－３　自動要約タスク(automatic text summarization task)/ TSC 2 : Text Summarization Challenge 2
(Last updated on Oct. 17, 2001.): ver.20011017

以下にTSC2の内容を説明します．ただし，本ページの内容は最終版ではなく，今後必要に応じて更新される場合があります．更新を行う場合，ページ上で行い，案内をしますので，ご了承下さい．

１）課題

参加システムは次の2つのタイプの課題の1つあるいは複数に参加することができます．後述するように，参加システムにはメイルでどの課題に参加するかを今後問い合わせますので，御回答下さい．

課題 A.: single

単一の新聞記事を要約対象とする．課題 A.では，要約対象となるテキストと，作成する要約率(要約の長さ)が与えられるので，参加者は，それを元に要約を作成し提出する．1つのテキストに対する要約率は複数与えられる．

要約はplain textで作成し提出する．要約率は，文字数を元にした，原文との割合とし，対象テキストごとに要約の上限となる文字数が与えられる．要約率をチェックするプログラムにより，提出物が規定の要約率(文字数)を越えた場合は，提出された要約の先頭から規定文字数のみを取り出し評価対象とする．なお，改行コードは1文字に数えない．また，提出物は，要約部分がplain textであることをチェックするプログラム(表示用のタグ等を取り除くフィルタ)にかけた後評価を行なう．
この課題は，TSC1の課題A-2の継続である．

課題 B. : multi

複数の新聞記事を要約対象とする．いくつかの種類のテキスト集合を対象とし，それらのテキスト集合の要約を作成する．この際，テキスト集合を用意するのに用いた情報(クエリ等)および要約の長さも合わせてシステムに与える．なお，テキスト集合に対する要約の長さは複数与えられる．

要約はplain textで作成し提出する．要約の長さは，対象テキスト集合ごとに，要約の上限となる文字数が与えられる．要約率をチェックするプログラムにより，提出物が規定の要約率(文字数)を越えた場合は，提出された要約の先頭から規定文字数のみを取り出し評価対象とする．なお，改行コードは1文字に数えない．また，提出物は，要約部分がplain textであることをチェックするプログラム(表示用のタグ等を取り除くフィルタ)にかけた後評価を行なう．

２）各課題における要約の評価方法

評価方法は，課題A, Bともに共通で，内的(intrinsic)な評価のみ．課題A, Bともに，別途作成する人間の要約データを用いた評価を行なう．ちなみに，厳密な評価と必ずしも言えるものではない．だが，人間の自由作成要約および，人間が重要個所を抽出した要約との間の比較を以下のように行ない，その結果を参加者にフィードバックするとともに，ワークショップで公表する． (人間による重要個所抽出要約を用いるのは課題Aのみ)

評価法1: 主観評価

人間の評価者(3人)に，原文および，人間の要約(自由作成要約，重要個所抽出要約)，システムの要約，ベースラインシステムの要約の4つを提示し，原文の重要な内容をどの程度要約がカバーしているか，要約の読み易さの2つの評価基準で，要約を順序付けてもらう．
評価法1は，TSC1の課題A-2ですでに用いている評価法である．

評価法2: 「システムの要約に対する修正の度合」

原文を読んでもらった上で，内容，可読性に関して，システムの要約を評価者 (3人)に添削してもらい，その度合を指標とする．添削は，挿入，削除，置換の3つの操作のみで行なう．添削の度合としては，添削の個所数および，添削の文字数を示す．

３）各課題でのシステムの入出力フォーマット

３－１）両課題共通

３－１－１) 対象テキストのフォーマット

TSC1と同じ．TSC1の情報を参照．

３－２）課題 A.

上述したように，この課題はTSC1の課題A-2である．TSC1の課題A-2に関する情報を参照．

３－３）課題 B.

３－３－１） TSCから各参加者に配布するデータおよびそのフォーマット

TSCは，課題B の各参加者に「参加者固有のID」と，以下の形式のデータを配布する．

==BNF==

file           	:= topic*

topic          	:= <TOPIC>topic-contents</TOPIC>

topic-contents 	:= topic-id keywords description ir-result sum-length*

topic-id       	:= <TOPIC-ID>number</TOPIC-ID>
	{検索要求のＩＤ番号}

keywords    	:= <KEYWORDS>keyword*</KEYWORDS>
	{検索要求となるキーワードのリスト}

keyword    	:= <KEYWORD>EUC string</KEYWORD>

description    	:= <DESCRIPTION>EUC-string</DESCRIPTION>
	{検索要求の簡潔な表現}

ir-result	:=<IR-RESULT>doc-id*</IR-RESULT>

doc-id		:=<DOCNO>number</DOCNO>
	{検索結果としてのテキストのID，課題Bの要約対象テキスト}

sum-length      :=<SUMLENGTH-C>number</SUMLENGTH-C>
        {要約の文字数，改行コードは文字数としてカウントしない}

例：
	<TOPIC>
	<TOPIC-ID>0001</TOPIC-ID>
	<KEYWORDS>
	<KEYWORD>自動</KEYWORD>
	<KEYWORD>要約</KEYWORD>
        </KEYWORDS>
	<DESCRIPTION>自動要約研究の新しい試み</DESCRIPTION>
	<IR-RESULT>
	<DOCNO>980101002</DOCNO>
	<DOCNO>950101008</DOCNO>
	...
	</IR-RESULT>
        <SUMLENGTH-C>150</SUMLENGTH-C>
        <SUMLENGTH-C>300</SUMLENGTH-C>
	</TOPIC>

３－３－２）参加者からTSCに提出する結果のフォーマット

参加者は以下のフォーマットで結果を提出する．

==BNF==

file            :=system-id topic*

system-id       :=<SYSTEM-ID>number</SYSTEM-ID>
        {TSCが配布した，参加者固有のID}

topic           :=<TOPIC>topic-id sum-result*</TOPIC>

topic-id       	:=<TOPIC-ID>number</TOPIC-ID>

sum-result      :=<SUM-RESULT>sum-length sum-text</SUM-RESULT>

sum-length      :=<SUMLENGTH-C>number</SUMLENGTH-C>

sum-text        :=<SUMTEXT>EUC string</SUMTEXT>
        {TSCが指定した文字数以内のplainな要約テキスト}

例：
	<SYSTEM-ID>02010001</SYSTEM-ID>	
	<TOPIC>
	<TOPIC-ID>0001</TOPIC-ID>
	<SUM-RESULT>
        <SUMLENGTH-C>150</SUMLENGTH-C>
        <SUMTEXT>ＴＳＣという，テキスト自動要約の新しい試みが始まり，現在
        参加者を募っている．ＴＳＣが開催されることにより，日本におけるテキ
        スト自動要約技術の一層の発展が期待されている．</SUMTEXT>
	</SUM-RESULT>
	<SUM-RESULT>
	...
	</SUM-RESULT>
	</TOPIC>

４）新聞記事データ

使用する毎日新聞記事データは98, 99年のものとします．参加者は各自データを入手して下さい．

５）日程(案)

      2001年10月中旬 dryrun課題公表，結果提出
      2001年11, 12月 評価，評価公表
      2002年1月      分析
      2002年2月      round table
      2002年4月      formal run課題公表，結果提出
      2002年5-6月    評価，評価公表
      2002年7月      分析
      2002年8月      round table
      2002年10月     Workshop

     なお，NTCIRの参加申し込み受け付けは9月末までですが，tscでは，2002
     年2月末まで参加申し込みを随時受け付けます．dryrunに参加していなく
     ても， formal runのみの参加も受け付けます．

NTCIRの事務手続き，新聞記事データの配布が遅延しているため，dryrunの日程は以下のように変更します．これに伴い，2002年の日程も変更になる可能性があります．御了解下さい．

Dryrun:
      11月15-20日   参加システムへ課題の問い合わせ
      11月26日      課題の提示
      11月30日      結果提出期限
      2002年
      1月           評価結果の通知

オーガナイザ(アルファベット順):

福島孝博(追手門学院大学文学部)
難波英嗣(日本学術振興会特別研究員)
奥村学(東京工業大学精密工学研究所)

連絡先: TSC実行委員会(tsc-adm@lr.pi.titech.ac.jp)

１） 課題

課題 A.: single

課題 B. : multi

２） 各課題における要約の評価方法

３） 各課題でのシステムの入出力フォーマット

３－１） 両課題共通