TSC TASK DESCRIPTION
[English] [TSC Home]
NTCIR−3 自動要約タスク(automatic text summarization task)/ TSC 2 : Text Summarization Challenge 2
(Last updated on Oct. 17, 2001.): ver.20011017

以下にTSC2の内容を説明します. ただし,本ページの内容は最終版ではなく,今後必要に応じて 更新される場合があります.更新を行う場合,ページ上で 行い,案内をしますので,ご了承下さい.


1) 課題

参加システムは次の2つのタイプの課題の1つあるいは複数に参加することがで きます.後述するように,参加システムにはメイルでどの課題に参加するかを 今後問い合わせますので,御回答下さい.

課題 A.: single

単一の新聞記事を要約対象とする. 課題 A.では,要約対象となるテキストと,作成する要約率(要約の長さ)が与えら れるので,参加者は,それを元に要約を作成し提出する.1つのテキストに対する 要約率は複数与えられる.

要約はplain textで作成し提出する. 要約率は,文字数を元にした,原文との割合とし,対象テキストごとに 要約の上限となる文字数が与えられる.要約率をチェックするプログラムにより, 提出物が規定の要約率(文字数)を越えた場合は,提出された要約の先頭から規定文 字数のみを取り出し評価対象とする.なお,改行コードは1文字に数えない. また,提出物は,要約部分がplain textであることをチェックするプログラム(表 示用のタグ等を取り除くフィルタ)にかけた後評価を行なう.
この課題は,
TSC1の課題A-2の 継続である.

課題 B. : multi

複数の新聞記事を要約対象とする.いくつかの種類 のテキスト集合を対象とし, それらのテキスト集 合の要約を作成する.この際,テキスト集合を用意 するのに用いた情報(クエリ等)および要約の長さ も合わせてシステムに与える.なお,テキスト集合に対する要約の長さは複数 与えられる.

要約はplain textで作成し提出する. 要約の長さは,対象テキスト集合ごとに,要約の上限となる文字数が与えられ る.要約率をチェックするプログラムにより, 提出物が規定の要約率(文字数)を越えた場合は,提出された要約の先頭から規定文 字数のみを取り出し評価対象とする.なお,改行コードは1文字に数えない. また,提出物は,要約部分がplain textであることをチェックするプログラム(表 示用のタグ等を取り除くフィルタ)にかけた後評価を行なう.

2) 各課題における要約の評価方法

評価方法は,課題A, Bともに共通で,内的(intrinsic)な評価のみ. 課題A, Bともに,別途作成する人間の要約データを用いた評価を行なう. ちなみに,厳密な評価と必ずしも言えるものではない.だが,人間の自由作成要約お よび,人間が重要個所を抽出した要約との間の比較を以下のように行ない,そ の結果を参加者にフィードバックするとともに,ワークショップで公表する. (人間による重要個所抽出要約を用いるのは課題Aのみ)

3) 各課題でのシステムの入出力フォーマット

3−1) 両課題共通

3−1−1) 対象テキストのフォーマット

TSC1と同じ.
TSC1の情報を参照.

3−2) 課題 A.


上述したように,この課題はTSC1の課題A-2である.TSC1の課題A-2に関する情報 を参照.

3−3)課題 B.

3−3−1) TSCから各参加者に配布するデータおよびそのフォーマット

TSCは,課題B の各参加者に「参加者固有のID」と,以下の形式のデータを配布する.

==BNF==

file           	:= topic*

topic          	:= <TOPIC>topic-contents</TOPIC>

topic-contents 	:= topic-id keywords description ir-result sum-length*

topic-id       	:= <TOPIC-ID>number</TOPIC-ID>
	{検索要求のID番号}

keywords    	:= <KEYWORDS>keyword*</KEYWORDS>
	{検索要求となるキーワードのリスト}

keyword    	:= <KEYWORD>EUC string</KEYWORD>

description    	:= <DESCRIPTION>EUC-string</DESCRIPTION>
	{検索要求の簡潔な表現}

ir-result	:=<IR-RESULT>doc-id*</IR-RESULT>

doc-id		:=<DOCNO>number</DOCNO>
	{検索結果としてのテキストのID,課題Bの要約対象テキスト}

sum-length      :=<SUMLENGTH-C>number</SUMLENGTH-C>
        {要約の文字数,改行コードは文字数としてカウントしない}

例:
	<TOPIC>
	<TOPIC-ID>0001</TOPIC-ID>
	<KEYWORDS>
	<KEYWORD>自動</KEYWORD>
	<KEYWORD>要約</KEYWORD>
        </KEYWORDS>
	<DESCRIPTION>自動要約研究の新しい試み</DESCRIPTION>
	<IR-RESULT>
	<DOCNO>980101002</DOCNO>
	<DOCNO>950101008</DOCNO>
	...
	</IR-RESULT>
        <SUMLENGTH-C>150</SUMLENGTH-C>
        <SUMLENGTH-C>300</SUMLENGTH-C>
	</TOPIC>

3−3−2) 参加者からTSCに提出する結果のフォーマット

参加者は以下のフォーマットで結果を提出する.

==BNF==

file            :=system-id topic*

system-id       :=<SYSTEM-ID>number</SYSTEM-ID>
        {TSCが配布した,参加者固有のID}

topic           :=<TOPIC>topic-id sum-result*</TOPIC>

topic-id       	:=<TOPIC-ID>number</TOPIC-ID>

sum-result      :=<SUM-RESULT>sum-length sum-text</SUM-RESULT>

sum-length      :=<SUMLENGTH-C>number</SUMLENGTH-C>

sum-text        :=<SUMTEXT>EUC string</SUMTEXT>
        {TSCが指定した文字数以内のplainな要約テキスト}

例:
	<SYSTEM-ID>02010001</SYSTEM-ID>	
	<TOPIC>
	<TOPIC-ID>0001</TOPIC-ID>
	<SUM-RESULT>
        <SUMLENGTH-C>150</SUMLENGTH-C>
        <SUMTEXT>TSCという,テキスト自動要約の新しい試みが始まり,現在
        参加者を募っている.TSCが開催されることにより,日本におけるテキ
        スト自動要約技術の一層の発展が期待されている.</SUMTEXT>
	</SUM-RESULT>
	<SUM-RESULT>
	...
	</SUM-RESULT>
	</TOPIC>

4) 新聞記事データ

使用する毎日新聞記事データは98, 99年のものとします.参加者は各自データ を入手して下さい.

5) 日程(案)

      2001年10月中旬 dryrun課題公表,結果提出
      2001年11, 12月 評価,評価公表
      2002年1月      分析
      2002年2月      round table
      2002年4月      formal run課題公表,結果提出
      2002年5-6月    評価,評価公表
      2002年7月      分析
      2002年8月      round table
      2002年10月     Workshop

     なお,NTCIRの参加申し込み受け付けは9月末までですが,tscでは,2002
     年2月末まで参加申し込みを随時受け付けます.dryrunに参加していなく
     ても, formal runのみの参加も受け付けます.

NTCIRの事務手続き,新聞記事データの配布が遅延しているため,dryrunの日 程は以下のように変更します.これに伴い,2002年の日程も変更になる可能性 があります.御了解下さい.

Dryrun:
      11月15-20日   参加システムへ課題の問い合わせ
      11月26日      課題の提示
      11月30日      結果提出期限
      2002年
      1月           評価結果の通知

オーガナイザ(アルファベット順):
福島孝博(追手門学院大学 文学部)
難波英嗣(日本学術振興会 特別研究員)
奥村 学(東京工業大学 精密工学研究所)
連絡先: TSC実行委員会(tsc-adm@lr.pi.titech.ac.jp)