輪講

松田さんの輪講です。

Ioannis P. Klapaftis and Suresh Manandhar
Word Sense Induction & Disambiguation Using Hierarchical Random Graphs
(EMNLP 2010)
http://www.aclweb.org/anthology/D/D10/D10-1073.pdf

Abstract:

Graph-based methods have gained attention in many areas of Natural Language Processing (NLP) including Word Sense Disambiguation (WSD), text summarization, keyword extraction and others.

Most of the work in these areas formulate their problem in a graph-based setting and apply unsupervised graph clustering to obtain a set of clusters.

Recent studies suggest that graphs often exhibit a hierarchical structure that goes beyond simple flat clustering.

This paper presents an unsupervised method for inferring the hierarchical grouping of the senses of a polysemous word.

The inferred hierarchical structures are applied to the problem of word sense disambiguation, where we show that our method performs significantly better than traditional graph-based methods and agglomerative clustering yielding improvements over state-of-the-art WSD systems based on sense induction.

------
語義曖昧性解消 をグラフを用いて解くという論文です。
グラフベースの語義曖昧性解消は多くの研究があるのですが、この論文において特徴的なのは、一度共起関係を用いてグラフ(コンテキスト間の共起グラフ)を作ったあとで、そのグラフを元に別なグラフ (Hierarchical Random Graphという二分木)を作り、その上で曖昧性の解消を行うという点です。

語義曖昧性解消において広く用いられているフラットなクラスタリングではキャプチャーすることが難しい語義に存在する階層関係を用いるために、フラットなグラフを階層構造を表現した木に落とす、というのが主なポイントになっています。

木の構造を推定する際の組み合わせ爆発に対処するために、MCMC(マルコフ連鎖モンテカルロ法)を用いていますが、MCMCを使った他の研究とくらべると比較的分かりやすい使い方になっていますので、あまり身構えずに聞いてください。

研究室HPを改訂しました