TSC TASK DESCRIPTION
[English] [TSC Home]
NTCIR−2 自動要約タスク(automatic text summarization task)/ TSC:Text Summarization Challenge
(Last updated on Oct. 23, 2000.): ver.20001023
(Last updated on Aug. 30, 2000.): ver.20000830

ver.20000830からの変更点:3−3−4,3−4−4をの注意事項に補足を追加
Formal run のスケジュールを変更
ver.20000727からの変更点:フォーマットに関するBNF記述で, <DOCNO>number</DOCNO>のnumberは,「数字8桁」ではなく「数字9桁」 の間違いであるため訂正した.

以下に NTCIR-2で行われる自動要約タスクの内容を説明します。 但し、本ホームページの内容は、最終版ではなく、今後必要に応じて 更新される場合があります。更新が行われる場合は、ホームページ上で 行い、案内をしますので、ご了承下さい。
1) 参加システムに対して提示する課題の内容
2) 各課題において,要約をどのように評価するかという評価 方法
3) 各課題でのシステムの入出力フォーマット
4) 今回のタスクにおいて用いる新聞データの詳細
5) dryrunを含む日程の詳細


1) 課題

参加システムは次の3つのタイプの課題の1つあるいは複数に参加することがで きます.後述するように,参加システムにはメイルでどの課題に参加するかを 今後問い合わせますので,御回答下さい.

課題 A.

課題 A.では,要約対象となるテキストと,作成する要約率(要約の長さ)が与えら れるので,参加者は,それを元に要約を作成し提出する.1つのテキストに対する 要約率は複数与えられる.課題 A.は,A-1.[重要文抽出型要約]と,A-2.[人間の自 由作成要約と比較可能な要約]の2つのタイプに分けて行なう.

 課題 A-1. [重要文抽出型要約]

テキスト中の文に要約率分だけ印をつけたものを提出する.
この場合,要約率は,文数を元にした,原文との割合とし,対象テキストごとに要 約として選択できる文数の上限が与えられる.要約率をチェックするプログラムに より,提出物が規定の要約率(文数)を越えている場合は,提出された要約の先頭か ら規定文数のみを評価対象とする.
対象テキストにおける1文の範囲は,3)で示すTSCが配布するタグ付けツールに よって変換したデータ中の,で囲まれた文字列とする.

 課題 A-2. [人間の自由作成要約と比較可能な要約]

要約をplain textで作成し提出する.
この場合,要約率は,文字数を元にした,原文との割合とし,対象テキストごとに 要約の上限となる文字数が与えられる.要約率をチェックするプログラムにより, 提出物が規定の要約率(文字数)を越えた場合は,提出された要約の先頭から規定文 字数のみを取り出し評価対象とする.なお,改行コードは1文字に数えない.
また,提出物は,要約部分がplain textであることをチェックするプログラム(表 示用のタグ等を取り除くフィルタ)にかけた後評価を行なう.

なお,要約部分がplain textであり,指定文字数以内に納まっていれば,どのよう な要約でも構わないため,課題A-1と同じシステムの出力からタグを取 り除いて,plain textにすれば,課題A-2にも参加できる.

課題 B. [IRタスク用要約]

提示した検索要求と,その検索結果としてのテキストを元に,要約を作成 し提出する.要約の長さは自由とするが,要約はplain textで提出する. 提出物は,plain textであることをチェックするプログラム(表示用の タグ等を取り除くフィルタ)にかけた後評価を行なう.
なお,要約は,各テキストに対して1つずつ作成し,複数テキストに対する要 約を作成するのではない.また,検索結果のテキストは検索要求に適合してい るものばかりではなく,適合しないものも含まれている.

2) 各課題における要約の評価方法

*
dryrunにおける評価に関する補足説明 があります.あわせて御覧下さい.

・intrinsicな評価

課題A では,別途作成する人間の要約データを用いた評価を行なう.
課題 A-1.の提出結果は,重要文抽出に基づいて作成された要約が想定されるため, 人間が選択した重要文との間の一致度を元に評価を行なう.評価尺度としては,以 下の3つを用いる.

再現率 = システムが選んだ文の内で正解の文の数/ 人間が選んだ正解の文の総数
精度 = システムが選んだ文の内で正解の文の数/ システムが選んだ文の総数
F値 = 2 * 再現率 * 精度/(再現率+精度)
これらの値を要約率ごとに求めた後,平均したものを最終的な結果とする.

A-2タイプの提出結果は,単に重要文抽出しただけではない要約が想定される. そのため,厳密な評価は行なわないが,人間の自由作成要約お よび,人間が重要個所を抽出した要約との間の比較を以下のように行ない,そ の結果を参加者にフィードバックするとともに,ワークショップで公表する.

A-2-1.

人間の作成した要約およびシステムの作成した要約をともに, Jumanで形態素解析し,内容語のみを抽出する.そして,人間の作成した正解要約 の単語頻度ベクトルとシステムの要約の単語頻度ベクトルの間の距離を計算し,ど の程度内容が単語ベースで類似しているかという値を求める.手法の詳細は,

@inproceedings{donaway:00:a,
  author = "Donaway, R.L., Drummey, K.W. and Mather, L.A.",
  title = "A Comparision of Rankings Produced by Summarization
  Evaluation Measures",
  pages = "69--78",
  booktitle = "Proc. of the ANLP/NAACL2000 Workshop on Automatic Summarization",
  year = 2000
}
を参照.

A-2-2.

ある程度要約という作業に熟練している方々に,原文および,人間 の要約,システムの要約を提示し,原文の重要な内容をどの程度要約がカバーして いるか,要約の読み易さの2つの評価基準で,要約を順序付けてもらう.

・extrinsicな評価

B. 情報検索タスクに基づく評価を行なう.人間の被験者(アルバイトの学生 に依頼する)に,検索要求とその検索結果としてテキストの要約を提示する.被 験者は各要約を読むことによって,そのテキストが検索要求に合っているかど うか(適合性)の判断を行う.原則的にSUMMACと同じ方法で評価を行なう.評価 基準としては,タスクに要した時間および,タスクをどの程度うまく行なえた かを示す指標として,再現率, 精度, F値を用いる.

再現率 =   被験者が正しく適合と判断したテキスト数/ 実際に適合するテキストの総数
精度  =   被験者が正しく適合と判断したテキスト数/ 被験者が適合と判断したテキストの総数
F値 = 2 * 再現率 * 精度/(再現率+精度)

評価は,原文を読んで検索要求に適合していると判断できるテキストにおいて, 要約を読んでも適合していると判断でき,また,原文を読んで適合していない と判断できるテキストにおいて,要約を読んでも適合していないと判断できる 状況を目標とした評価となっている.

手法の詳細は, http://www.itl.nist.gov/div894/894.02/related_projects/tipster_summac/index.html を参照.

3) 各課題でのシステムの入出力フォーマット

3−1) 全課題共通

3−1−1) 対象テキストのフォーマット

各参加者は,IREX提供のmai2sgml.plを用いて,対象テキストを変換したIREX IRタ スク用のデータを用いる.変換後のデータに付与されている情報は,参加者の自由 意志によって,どのようにも使用可能である.ただし,変換前のオリジナルのデー タにのみ含まれているキーワード等の情報は使用してはいけない.

また,TSCは新たにmai2sgml.plの出力を拡張するtscsgml.plを提供するので, 「重要文抽出型要約」(課題A-1)の参加者は,上記mai2sgml.plの出力に, tscsgml.plを適用したデータを用いる.それ以外の課題の参加者のtscsgml.plの使 用は自由意志とする.

(実際にどこの情報を使用したかは、アンケートにおいて表明していただく)

tscsgml.plの変換後のデータフォーマットは,IREXのIRタスク用データのフォーマッ ト(mai2sgml.plの出力)に加え,同フォーマット中のタグ内に以下のTSC用の タグを追加したものとする.

<PARAGRAPH></PARAGRAPH> ... 段落
<SENTENCE></SENTENCE>   ... 文
==BNF===

file		:=doc*

doc		:=<DOC>doc-contents</DOC>

doc-contents	:=doc-id section ae words headline text*

doc-id		:=<DOCNO>number</DOCNO>
	{数字9桁(記事間でユニーク)}

section		:=<SECTION>space information</SECTION>
	{紙面情報2byte文字 ex.「1面」}
	
ae		:=<AE>有|無</AE>
	{写真、図の有無}

words		:=<WORDS>number</WORDS>
	{文字数}

headline	:=<HEADLINE>EUC string</HEADLINE>
	{見出し}

text		:=<TEXT>paragraph*</TEXT>

paragraph	:=<PARAGRAPH>sentece*</PARAGRAPH>
	{段落}

sentence	:=<SENTENCE>EUC string</SENTENCE>
	{文を定義するタグ.このタグで囲まれた部分を1文と数える}

3−1−2) 新聞記事データのバグ

今回使用する毎日新聞記事データの95年8月23,24日のデータではID番号が重複し ている部分がある.今回の評価にはこの部分を含めない.また,98年分については 本試験までには調査を終了し,バグが発見された場合はその部分を含めない.

3−2) 課題 A-1 [重要文抽出型要約]

3−2−1) 対象テキストのフォーマット

対象テキストのフォーマットは,3−1−1)で記述したとおり,mai2sgml.plの 出力に,tscsgml.plを適用し変換したデータとする.

3−2−2) TSCから各参加者に配布するデータおよびそのフォーマット

TSCは,課題A-1の各参加者に「参加者固有のID」と以下の形式のデータを配布する.

==BNF==

file		:=doc* 

doc		:=<DOC>doc-contents</DOC>

doc-contents	:=doc-id number-of-sens*

doc-id		:=<DOCNO>number</DOCNO>
	{要約対象となるテキストのID}

num-of-sens	:=<SUMLENGTH-S>number</SUMLENGTH-S>
	{要約として選択する文の数}

例:
	<DOC>
	<DOCNO>98010102</DOCNO>
	<SUMLENGTH-S>10</SUMLENGTH-S>
	<SUMLENGTH-S>15</SUMLENGTH-S>
	....
	</DOC>
	<DOC>
	<DOCNO>95010202</DOCNO>
	<SUMLENGTH-S>13</SUMLENGTH-S>
	<SUMLENGTH-S>19</SUMLENGTH-S>
	..
	</DOC>
	...

3−2−3) 参加者からTSCに提出する結果のフォーマット

参加者は以下のフォーマットで結果を提出する.

==BNF==

file		:=system-id sum-result*

system-id	:=<SYSTEM-ID>number</SYSTEM-ID>
	{TSCが配布した,参加者固有のID}

sum-result	:=<SUM-RESULT>doc-id num-of-sens sum-sentence*</SUM-RESULT>

doc-id		:=<DOCNO>number</DOCNO>

num-of-sens	:=<SUMLENGTH-S>number</SUMLENGTH-S>

sum-sentence	:=<SENTENCE>EUC string</SENTENCE>
	{TSCが配布するツールによってタグ付けされた文をそのまま出力}

例:
	<SYSTEM-ID>01010001</SYSTEM-ID>	
	<SUM-RESULT>
	<DOCNO>980101002</DOCNO>
	<SUMLENGTH-S>10</SUMLENGTH-S>
	<SENTENCE>TSCという,テキスト自動要約の新しい試みが始まった.</SENTECNE>
	<SENTENCE>TSCでは,現在参加者を募っている.</SENTECNE>
	...
	</SUM-RESULT>
	<SUM-RESULT>
	<DOCNO>980101002</DOCNO>
	<SUMLENGTH-S>13</SUMLENGTH-S>
	..

3−2−4) 注意事項:

このタスクにおける文の単位は,TSCが提供するタグ付けツールtscsgml.plによっ て,得られるで囲まれた範囲を1文とする.これ以外の単位 を参加者が独自に使用した場合,正しく評価されないので注意されたし.

3−3) 課題 A-2. [人間の自由作成要約と比較可能な要約]

3−3−1) 対象テキストのフォーマット

対象テキストのフォーマットは,3−1−1)で記述したとおり,mai2sgml.plに よって変換したデータとする.また,mai2sgml.plの出力をtscsgml.plによって拡 張したデータを使用することも可能である.

3−3−2) TSCから各参加者に配布するデータおよびそのフォーマット

TSCは,課題A-2の各参加者に「参加者固有のID」と,以下の形式のデータを配布する.

==BNF==

file		:=doc* 

doc		:=<DOC>doc-contents</DOC>

doc-contents	:=doc-id sum-length*

doc-id		:=<DOCNO>number</DOCNO>
	{要約対象となるテキストのID}

sum-length	:=<SUMLENGTH-C>number</SUMLENGTH-C>
	{要約として選択する文字数,改行コードは文字数としてカウントしない}


例:
	<DOC>
	<DOCNO>980101002</DOCNO>
	<SUMLENGTH-C>150</SUMLENGTH-C>
	<SUMLENGTH-C>300</SUMLENGTH-C>
	....
	</DOC>
	<DOC>
	<DOCNO>950102002</DOCNO>
	<SUMLENGTH-C>120</SUMLENGTH-C>
	<SUMLENGTH-C>230</SUMLENGTH-C>
	...
	</DOC>

3−3−3) 参加者からTSCに提出する結果のフォーマット

参加者は以下のフォーマットで結果を提出する.

==BNF==

file		:=system-id sum-result*

system-id	:=<SYSTEM-ID>number</SYSTEM-ID>
	{TSCが配布した,参加者固有のID}

sum-result	:=<SUM-RESULT>doc-id sum-length sum-text</SUM-RESULT>

doc-id		:=<DOCNO>number</DOCNO>

sum-length	:=<SUMLENGTH-C>number</SUMLENGTH-C>

sum-text	:=<SUMTEXT>EUC string</SUMTEXT>
	{TSCが指定した文字数以内のplainな要約テキスト}


例:
	<SYSTEM-ID>01020001</SYSTEM-ID>	
	<SUM-RESULT>
	<DOCNO>98010102</DOCNO>
	<SUMLENGTH-C>150</SUMLENGTH-C>
	<SUMTEXT>TSCという,テキスト自動要約の新しい試みが始まり,現在
	参加者を募っている.TSCが開催されることにより,日本におけるテキ
	スト自動要約技術の一層の発展が期待されている.</SUMTEXT>
	</SUM-RESULT>
	<SUM-RESULT>
	<DOCNO>980101002</DOCNO>
	<SUMLENGTH-C>300</SUMLENGTH-C>
	...

3−3−4) 注意事項:

TSCが指定した要約率(文字数)を越える場合は,先頭から要約率分のテキストだけ を評価対象とする.

<SUMTEXT>タグ内の要約はplain textでなければならない.従って以下のようなタ グ付けは行なってはならない.

<SUMTEXT><FONT COLOR=AA0022>TSC</FONT>という ... </SUMTEXT>

TSCでは,提出結果に対し,タグを取り除くツールによる処理を行ない. 上記のようなタグは排除した上で評価を行なう.

この課題で提出する要約では,要約部分がplain textであり,要約文字数が守られ ていれば良いので,課題A-1の参加者は,<SENTENCE></SENTENCE>タグを取り除き, 要約率(文字数)を調整することによって,課題A-2にも参加できる.

*補足
ただし,空白,改行および「…」などの記号は使用しても良い. この内,改行は文字数にカウントしないが,その他は文字としてカウントする.

3−4)課題 B. [IRタスク用要約]

3−4−1) 対象テキストのフォーマット

対象テキストのフォーマットは,3−1−1)で記述したとおり,mai2sgml.plに よって変換したデータとする.また,mai2sgml.plの出力をtscsgml.plによって拡 張したデータを使用することも可能である.

3−4−2) TSCから各参加者に配布するデータおよびそのフォーマット

TSCは,課題B の各参加者に「参加者固有のID」と,以下の形式のデータを配布する.

==BNF==

file           	:= topic*

topic          	:= <TOPIC>topic-contents</TOPIC>

topic-contents 	:= topic-id description narrative ir-result

topic-id       	:= <TOPIC-ID>number</TOPIC-ID>
	{検索要求のID番号}

description    	:= <DESCRIPTION>EUC string</DESCRIPTION>
	{検索要求の簡潔な表現}

narrative      	:= <NARRATIVE>EUC-string</NARRATIVE>
	{詳細な検索要求の記述}

ir-result	:=<IR-RESULT>doc-id*</IR-RESULT>

doc-id		:=<DOCNO>number</DOCNO>
	{検索結果としてのテキストのID,課題bの要約対象テキスト}


例:
	<TOPIC>
	<TOPIC-ID>0001</TOPIC-ID>
	<DESCRIPTION>自動要約研究の新しい試み</DESCRIPTION>
	<NARRATIVE>記事には,テキスト自動要約研究の新しい試みについて述べ
	られており,..............(略)</NARRATIVE>
	<IR-RESULT>
	<DOCNO>980101002</DOCNO>
	<DOCNO>950101008</DOCNO>
	...
	</IR-RESULT>
	</TOPIC>

3−4−3) 参加者からTSCに提出する結果のフォーマット

参加者は以下のフォーマットで結果を提出する.

==BNF==

file		:=system-id topic*

system-id	:=<SYSTEM-ID>number</SYSTEM-ID>
	{TSCが配布した,参加者固有のID}

topic		:=<TOPIC>topic-id sum-result*</TOPIC>

topic-id       	:= <TOPIC-ID>number</TOPIC-ID>

sum-result	:=<SUM-RESULT>doc-id sum-text</SUM-RESULT>

doc-id		:=<DOCNO>number</DOCNO>

sum-text	:=<SUMTEXT>EUC string</SUMTEXT>
	{plainな要約テキスト}

例:
	<SYSTEM-ID>02010001</SYSTEM-ID>	
	<TOPIC>
	<TOPIC-ID>0001</TOPIC-ID>
	<SUM-RESULT>
	<DOCNO>980101002</DOCNO>
	<SUMTEXT>TSCという,テキスト自動要約の新しい試みが始まった.現在
	参加者を募っている.TSCが開催されることにより,日本におけるテキ
	スト自動要約技術の一層の発展が期待されている.</SUMTEXT>
	</SUM-RESULT>
	<SUM-RESULT>
	<DOCNO>950101008</DOCNO>
	...
	</SUM-RESULT>
	</TOPIC>

3−4−4) 注意事項:

<SUMTEXT>タグ内の要約はplain textでなければならない.従って以下のようなタ グ付けは行なってはならない.

<SUMTEXT><FONT COLOR=AA0022>TSC</FONT>という ... </SUMTEXT>

TSCでは,提出結果に対し,タグを取り除くツールによる処理を行ない. 上記のようなタグは排除した上で評価を行なう.

課題 B.ではTSCは要約率を指定しない.

*補足
ただし,空白,改行および「…」などの記号は使用しても良い.

4) 新聞記事データ

使用する毎日新聞記事データは94, 95, 98年のものとします.参加者は各自新 聞社と覚書を交わし,データを入手して下さい. なお,dryrunでは94, 95年のみを使用します.

5) 日程

Dryrun:
8月20-25日	参加システムへ課題の問い合わせ
9月 4日		課題の提示
9月 8日		結果提出期限
9月30日		評価結果の通知

Formal Run:
11月09-15日	参加システムへ課題の問い合わせ
11月27日	課題の提示
12月01日	結果提出期限(日本時間23時59分)
12月27日	評価結果の通知


(担当:タスクの座長: 奥村学 (oku@pi.titech.ac.jp) または、福島孝博 fukusima@res.otemon.ac.jp )
complain, advice to tsc-request@recall.jaist.ac.jp