TSC CFP

TSC TASK DESCRIPTION [English][TSC Home]

ＮＴＣＩＲ－２　自動要約タスク(automatic text summarization task)/ TSC:Text Summarization Challenge
(Last updated on July 23, 2000.): ver.20000723

以下に NTCIR-2で行われる自動要約タスクの内容を説明します。但し、本ホームページの内容は、最終版ではなく、今後必要に応じて更新される場合があります。更新が行われる場合は、ホームページ上で行い、案内をしますので、ご了承下さい。
１）参加システムに対して提示する課題の内容
２）各課題において，要約をどのように評価するかという評価方法
 ３）各課題でのシステムの入出力フォーマット
 ４）今回のタスクにおいて用いる新聞データの詳細
 ５） dryrunを含む日程の詳細

１）課題

参加システムは次の3つのタイプの課題の1つあるいは複数に参加することができます．後述するように，参加システムにはメイルでどの課題に参加するかを今後問い合わせますので，御回答下さい．

課題 a.

課題 a.では，要約対象となるテキストと，作成する要約率(要約の長さ)が与えられるので，参加者は，それを元に要約を作成し提出する．1つのテキストに対する要約率は複数与えられる．課題 a.は，a-1.[重要文抽出型要約]と，a-2.[人間の自由作成要約と比較可能な要約]の2つのタイプに分けて行なう．

　課題 a-1. [重要文抽出型要約]

テキスト中の文に要約率分だけ印をつけたものを提出する．
この場合，要約率は，文数を元にした，原文との割合とし，対象テキストごとに要約として選択できる文数の上限が与えられる．要約率をチェックするプログラムにより，提出物が規定の要約率(文数)を越えている場合は，提出された要約の先頭から規定文数のみを評価対象とする．
対象テキストにおける１文の範囲は，３）で示すTSCが配布するタグ付けツールによって変換したデータ中の，で囲まれた文字列とする．

　課題 a-2. [人間の自由作成要約と比較可能な要約]

要約をplain textで作成し提出する．
この場合，要約率は，文字数を元にした，原文との割合とし，対象テキストごとに要約の上限となる文字数が与えられる．要約率をチェックするプログラムにより，提出物が規定の要約率(文字数)を越えた場合は，提出された要約の先頭から規定文字数のみを取り出し評価対象とする．なお，改行コードは1文字に数えない．
また，提出物は，要約部分がplain textであることをチェックするプログラム(表示用のタグ等を取り除くフィルタ)にかけた後評価を行なう．

なお，要約部分がplain textであり，指定文字数以内に納まっていれば，どのような要約でも構わないため，課題a-1と同じシステムの出力からタグを取り除いて，plain textにすれば，課題a-2にも参加できる．

課題 b. [IRタスク用要約]

提示した検索要求と，その検索結果としてのテキストを元に，要約を作成し提出する．要約の長さは自由とするが，要約はplain textで提出する．提出物は，plain textであることをチェックするプログラム(表示用のタグ等を取り除くフィルタ)にかけた後評価を行なう．
なお，要約は，各テキストに対して1つずつ作成し，複数テキストに対する要約を作成するのではない．また，検索結果のテキストは検索要求に適合しているものばかりではなく，適合しないものも含まれている．

２）各課題における要約の評価方法

・intrinsicな評価

課題aでは，別途作成する人間の要約データを用いた評価を行なう．
課題 a-1．の提出結果は，重要文抽出に基づいて作成された要約が想定されるため，人間が選択した重要文との間の一致度を元に評価を行なう．評価尺度としては，以下の3つを用いる．

再現率 = システムが選んだ文の内で正解の文の数/ 人間が選んだ正解の文の総数
精度 = システムが選んだ文の内で正解の文の数/ システムが選んだ文の総数
F値 = 2 * 再現率 * 精度/(再現率+精度)
これらの値を要約率ごとに求めた後，平均したものを最終的な結果とする．

a-2タイプの提出結果は，単に重要文抽出しただけではない要約が想定される．そのため，厳密な評価は行なわないが，人間の自由作成要約および，人間が重要個所を抽出した要約との間の比較を以下のように行ない，その結果を参加者にフィードバックするとともに，ワークショップで公表する．

a-2-1.

人間の作成した要約およびシステムの作成した要約をともに， Jumanで形態素解析し，内容語のみを抽出する．そして，人間の作成した正解要約の単語頻度ベクトルとシステムの要約の単語頻度ベクトルの間の距離を計算し，どの程度内容が単語ベースで類似しているかという値を求める．手法の詳細は，

@inproceedings{donaway:00:a,
  author = "Donaway, R.L., Drummey, K.W. and Mather, L.A.",
  title = "A Comparision of Rankings Produced by Summarization
  Evaluation Measures",
  pages = "69--78",
  booktitle = "Proc. of the ANLP/NAACL2000 Workshop on Automatic Summarization",
  year = 2000
}

を参照．

a-2-2.

ある程度要約という作業に熟練している方々に，原文および，人間の要約，システムの要約を提示し，原文の重要な内容をどの程度要約がカバーしているか，要約の読み易さの2つの評価基準で，要約を順序付けてもらう．

・extrinsicな評価

b. 情報検索タスクに基づく評価を行なう．人間の被験者(アルバイトの学生に依頼する)に，検索要求とその検索結果としてテキストの要約を提示する．被験者は各要約を読むことによって，そのテキストが検索要求に合っているかどうか(適合性)の判断を行う．原則的にSUMMACと同じ方法で評価を行なう．評価基準としては，タスクに要した時間および，タスクをどの程度うまく行なえたかを示す指標として，再現率, 精度, F値を用いる．

再現率 = 　　被験者が正しく適合と判断したテキスト数/ 実際に適合するテキストの総数
精度　= 　　被験者が正しく適合と判断したテキスト数/ 被験者が適合と判断したテキストの総数
F値 = 2 * 再現率 * 精度/（再現率+精度）

評価は，原文を読んで検索要求に適合していると判断できるテキストにおいて，要約を読んでも適合していると判断でき，また，原文を読んで適合していないと判断できるテキストにおいて，要約を読んでも適合していないと判断できる状況を目標とした評価となっている．

手法の詳細は， http://www.itl.nist.gov/div894/894.02/related_projects/tipster_summac/index.html を参照．

３）各課題でのシステムの入出力フォーマット

３－１）全課題共通

３－１－１) 対象テキストのフォーマット

各参加者は，IREX提供のmai2sgml.plを用いて，対象テキストを変換したIREX IRタスク用のデータを用いる．変換後のデータに付与されている情報は，参加者の自由意志によって，どのようにも使用可能である．ただし，変換前のオリジナルのデータにのみ含まれているキーワード等の情報は使用してはいけない．

また，TSCは新たにmai2sgml.plの出力を拡張するtscsgml.plを提供するので，「重要文抽出型要約」(課題a-1)の参加者は，上記mai2sgml.plの出力に， tscsgml.plを適用したデータを用いる．それ以外の課題の参加者のtscsgml.plの使用は自由意志とする．

(実際にどこの情報を使用したかは、アンケートにおいて表明していただく)

tscsgml.plの変換後のデータフォーマットは，IREXのIRタスク用データのフォーマット(mai2sgml.plの出力)に加え，同フォーマット中のタグ内に以下のTSC用のタグを追加したものとする．

<PARAGRAPH></PARAGRAPH> ... 段落
<SENTENCE></SENTENCE>   ... 文

==BNF===

file		:=doc*

doc		:=<DOC>doc-contents</DOC>

doc-contents	:=doc-id section ae words headline text*

doc-id		:=<DOCNO>number</DOCNO>
	{数字8桁(記事間でユニーク)}

section		:=<SECTION>space information</SECTION>
	{紙面情報2byte文字 ex.「１面」}
	
ae		:=<AE>有|無</AE>
	{写真、図の有無}

words		:=<WORDS>number</WORDS>
	{文字数}

headline	:=<HEADLINE>EUC string</HEADLINE>
	{見出し}

text		:=<TEXT>paragraph*</TEXT>

paragraph	:=<PARAGRAPH>sentece*</PARAGRAPH>
	{段落}

sentence	:=<SENTENCE>EUC string</SENTENCE>
	{文を定義するタグ．このタグで囲まれた部分を1文と数える}

３－１－２）新聞記事データのバグ

今回使用する毎日新聞記事データの95年8月23，24日のデータではID番号が重複している部分がある．今回の評価にはこの部分を含めない．また，98年分については本試験までには調査を終了し，バグが発見された場合はその部分を含めない．

３－２）課題 a-1 [重要文抽出型要約]

３－２－１）対象テキストのフォーマット

対象テキストのフォーマットは，３－１－１）で記述したとおり，mai2sgml.plの出力に，tscsgml.plを適用し変換したデータとする．

３－２－２） TSCから各参加者に配布するデータおよびそのフォーマット

TSCは，課題a-1の各参加者に「参加者固有のID」と以下の形式のデータを配布する．

==BNF==

file		:=doc* 

doc		:=<DOC>doc-contents</DOC>

doc-contents	:=doc-id number-of-sens*

doc-id		:=<DOCNO>number</DOCNO>
	{要約対象となるテキストのID}

num-of-sens	:=<SUMLENGTH-S>number</SUMLENGTH-S>
	{要約として選択する文の数}

例：
	<DOC>
	<DOCNO>98010102</DOCNO>
	<SUMLENGTH-S>10</SUMLENGTH-S>
	<SUMLENGTH-S>15</SUMLENGTH-S>
	....
	</DOC>
	<DOC>
	<DOCNO>95010202</DOCNO>
	<SUMLENGTH-S>13</SUMLENGTH-S>
	<SUMLENGTH-S>19</SUMLENGTH-S>
	..
	</DOC>
	...

３－２－３）参加者からTSCに提出する結果のフォーマット

参加者は以下のフォーマットで結果を提出する．

==BNF==

file		:=system-id sum-result*

system-id	:=<SYSTEM-ID>number</SYSTEM-ID>
	{TSCが配布した，参加者固有のID}

sum-result	:=<SUM-RESULT>doc-id num-of-sens sum-sentence*</SUM-RESULT>

doc-id		:=<DOCNO>number</DOCNO>

num-of-sens	:=<SUMLENGTH-S>number</SUMLENGTH-S>

sum-sentence	:=<SENTENCE>EUC string</SENTENCE>
	{TSCが配布するツールによってタグ付けされた文をそのまま出力}

例：
	<SYSTEM-ID>01010001</SYSTEM-ID>	
	<SUM-RESULT>
	<DOCNO>98010102</DOCNO>
	<SUMLENGTH-S>10</SUMLENGTH-S>
	<SENTENCE>ＴＳＣという，テキスト自動要約の新しい試みが始まった．</SENTECNE>
	<SENTENCE>ＴＳＣでは，現在参加者を募っている．</SENTECNE>
	...
	</SUM-RESULT>
	<SUM-RESULT>
	<DOCNO>98010102</DOCNO>
	<SUMLENGTH-S>13</SUMLENGTH-S>
	..

３－２－４）注意事項：

このタスクにおける文の単位は，TSCが提供するタグ付けツールtscsgml.plによって，得られるで囲まれた範囲を1文とする．これ以外の単位を参加者が独自に使用した場合，正しく評価されないので注意されたし．

３－３）課題 a-2. [人間の自由作成要約と比較可能な要約]

３－３－１）対象テキストのフォーマット

対象テキストのフォーマットは，３－１－１）で記述したとおり，mai2sgml.plによって変換したデータとする．また，mai2sgml.plの出力をtscsgml.plによって拡張したデータを使用することも可能である．

３－３－２） TSCから各参加者に配布するデータおよびそのフォーマット

TSCは，課題a-2の各参加者に「参加者固有のID」と，以下の形式のデータを配布する．

==BNF==

file		:=doc* 

doc		:=<DOC>doc-contents</DOC>

doc-contents	:=doc-id sum-length*

doc-id		:=<DOCNO>number</DOCNO>
	{要約対象となるテキストのID}

sum-length	:=<SUMLENGTH-C>number</SUMLENGTH-C>
	{要約として選択する文字数，改行コードは文字数としてカウントしない}


例：
	<DOC>
	<DOCNO>98010102</DOCNO>
	<SUMLENGTH-C>150</SUMLENGTH-C>
	<SUMLENGTH-C>300</SUMLENGTH-C>
	....
	</DOC>
	<DOC>
	<DOCNO>95010202</DOCNO>
	<SUMLENGTH-C>120</SUMLENGTH-C>
	<SUMLENGTH-C>230</SUMLENGTH-C>
	...
	</DOC>

３－３－３）参加者からTSCに提出する結果のフォーマット

参加者は以下のフォーマットで結果を提出する．

==BNF==

file		:=system-id sum-result*

system-id	:=<SYSTEM-ID>number</SYSTEM-ID>
	{TSCが配布した，参加者固有のID}

sum-result	:=<SUM-RESULT>doc-id sum-length sum-text</SUM-RESULT>

doc-id		:=<DOCNO>number</DOCNO>

sum-length	:=<SUMLENGTH-C>number</SUMLENGTH-C>

sum-text	:=<SUMTEXT>EUC string</SUMTEXT>
	{TSCが指定した文字数以内のplainな要約テキスト}


例：
	<SYSTEM-ID>01020001</SYSTEM-ID>	
	<SUM-RESULT>
	<DOCNO>98010102</DOCNO>
	<SUMLENGTH-C>150</SUMLENGTH-C>
	<SUMTEXT>ＴＳＣという，テキスト自動要約の新しい試みが始まり，現在
	参加者を募っている．ＴＳＣが開催されることにより，日本におけるテキ
	スト自動要約技術の一層の発展が期待されている．</SUMTEXT>
	</SUM-RESULT>
	<SUM-RESULT>
	<DOCNO>98010102</DOCNO>
	<SUMLENGTH-C>300</SUMLENGTH-C>
	...

３－３－４）注意事項：

TSCが指定した要約率(文字数)を越える場合は，先頭から要約率分のテキストだけを評価対象とする．

<SUMTEXT>タグ内の要約はplain textでなければならない．従って以下のようなタグ付けは行なってはならない．

<SUMTEXT><FONT COLOR=AA0022>ＴＳＣ</FONT>という ... </SUMTEXT>

TSCでは，提出結果に対し，タグを取り除くツールによる処理を行ない．上記のようなタグは排除した上で評価を行なう．

この課題で提出する要約では，要約部分がplain textであり，要約文字数が守られていれば良いので，課題a-1の参加者は，<SENTENCE></SENTENCE>タグを取り除き，要約率(文字数)を調整することによって，課題a-2にも参加できる．

３－４）課題 b. [IRタスク用要約]

３－４－１）対象テキストのフォーマット

３－４－２） TSCから各参加者に配布するデータおよびそのフォーマット

TSCは，課題b の各参加者に「参加者固有のID」と，以下の形式のデータを配布する．

==BNF==

file           	:= topic*

topic          	:= <TOPIC>topic-contents</TOPIC>

topic-contents 	:= topic-id description narrative ir-result

topic-id       	:= <TOPIC-ID>number</TOPIC-ID>
	{検索要求のＩＤ番号}

description    	:= <DESCRIPTION>EUC string</DESCRIPTION>
	{検索要求の簡潔な表現}

narrative      	:= <NARRATIVE>EUC-string</NARRATIVE>
	{詳細な検索要求の記述}

ir-result	:=<IR-RESULT>doc-id*</IR-RESULT>

doc-id		:=<DOCNO>number</DOCNO>
	{検索結果としてのテキストのID，課題bの要約対象テキスト}


例：
	<TOPIC>
	<TOPIC-ID>0001</TOPIC-ID>
	<DESCRIPTION>自動要約研究の新しい試み</DESCRIPTION>
	<NARRATIVE>記事には，テキスト自動要約研究の新しい試みについて述べ
	られており，．．．．．．．．．．．．．．(略)</NARRATIVE>
	<IR-RESULT>
	<DOCNO>98010102</DOCNO>
	<DOCNO>95010108</DOCNO>
	...
	</IR-RESULT>
	</TOPIC>

３－４－３）参加者からTSCに提出する結果のフォーマット

参加者は以下のフォーマットで結果を提出する．

==BNF==

file		:=system-id topic*

system-id	:=<SYSTEM-ID>number</SYSTEM-ID>
	{TSCが配布した，参加者固有のID}

topic		:=<TOPIC>topic-id sum-result*</TOPIC>

topic-id       	:= <TOPIC-ID>number</TOPIC-ID>

sum-result	:=<SUM-RESULT>doc-id sum-text</SUM-RESULT>

doc-id		:=<DOCNO>number</DOCNO>

sum-text	:=<SUMTEXT>EUC string</SUMTEXT>
	{plainな要約テキスト}

例：
	<SYSTEM-ID>02010001</SYSTEM-ID>	
	<TOPIC>
	<TOPIC-ID>0001</TOPIC-ID>
	<SUM-RESULT>
	<DOCNO>98010102</DOCNO>
	<SUMTEXT>ＴＳＣという，テキスト自動要約の新しい試みが始まった．現在
	参加者を募っている．ＴＳＣが開催されることにより，日本におけるテキ
	スト自動要約技術の一層の発展が期待されている．</SUMTEXT>
	</SUM-RESULT>
	<SUM-RESULT>
	<DOCNO>95010108</DOCNO>
	...
	</SUM-RESULT>
	</TOPIC>

３－４－４）注意事項：

<SUMTEXT>タグ内の要約はplain textでなければならない．従って以下のようなタグ付けは行なってはならない．

<SUMTEXT><FONT COLOR=AA0022>ＴＳＣ</FONT>という ... </SUMTEXT>

TSCでは，提出結果に対し，タグを取り除くツールによる処理を行ない．上記のようなタグは排除した上で評価を行なう．

課題 b.ではTSCは要約率を指定しない．

４）新聞記事データ

使用する毎日新聞記事データは94, 95, 98年のものとします．参加者は各自新聞社と覚書を交わし，データを入手して下さい．なお，dryrunでは94, 95年のみを使用します．

５）日程

Dryrun:
8月20-25日	参加システムへ課題の問い合わせ
8月31日		課題の提示
9月 4日		結果提出期限
9月30日		評価結果の通知

Evaluation:
11月1-6日	参加システムへ課題の問い合わせ
11月15日	課題の提示
11月19日	結果提出期限(日本時間23時59分)
12月15日	評価結果の通知

（担当：タスクの座長：奥村学 (oku@pi.titech.ac.jp) または、福島孝博 fukusima@res.otemon.ac.jp )

complain, advice to tsc-request@recall.jaist.ac.jp

１） 課題

課題 a.

課題 a-1. [重要文抽出型要約]

課題 a-2. [人間の自由作成要約と比較可能な要約]

課題 b. [IRタスク用要約]

２） 各課題における要約の評価方法

・intrinsicな評価

a-2-1.

a-2-2.

・extrinsicな評価

３） 各課題でのシステムの入出力フォーマット

３－１） 全課題共通

３－１－１) 対象テキストのフォーマット

３－１－２） 新聞記事データのバグ

３－２） 課題 a-1 [重要文抽出型要約]

３－２－１） 対象テキストのフォーマット

３－２－２） TSCから各参加者に配布するデータおよびそのフォーマット

３－２－３） 参加者からTSCに提出する結果のフォーマット

３－２－４） 注意事項：

３－３） 課題 a-2. [人間の自由作成要約と比較可能な要約]

３－３－１） 対象テキストのフォーマット

３－３－２） TSCから各参加者に配布するデータおよびそのフォーマット

３－３－３） 参加者からTSCに提出する結果のフォーマット

３－３－４） 注意事項：

３－４）課題 b. [IRタスク用要約]

３－４－１） 対象テキストのフォーマット

３－４－２） TSCから各参加者に配布するデータおよびそのフォーマット

３－４－３） 参加者からTSCに提出する結果のフォーマット

３－４－４） 注意事項：

４） 新聞記事データ

５） 日程

１）課題

　課題 a-1. [重要文抽出型要約]

　課題 a-2. [人間の自由作成要約と比較可能な要約]

２）各課題における要約の評価方法

３）各課題でのシステムの入出力フォーマット

３－１）全課題共通

３－１－２）新聞記事データのバグ

３－２）課題 a-1 [重要文抽出型要約]

３－２－１）対象テキストのフォーマット

３－２－３）参加者からTSCに提出する結果のフォーマット

３－２－４）注意事項：

３－３）課題 a-2. [人間の自由作成要約と比較可能な要約]

３－３－１）対象テキストのフォーマット

３－３－３）参加者からTSCに提出する結果のフォーマット

３－３－４）注意事項：

３－４－１）対象テキストのフォーマット

３－４－３）参加者からTSCに提出する結果のフォーマット

３－４－４）注意事項：

４）新聞記事データ

５）日程