Hiroya's homepage

いわゆる風評被害と呼ばれる現象が, インターネットの普及で新たな性質を帯びてきている. これまでは, 噂は個人から個人へと伝わるものであり, そこでは噂を聞く人の真偽判断や信頼性判断が防波堤となり, あまりに無根拠な噂は現状と比較すると広まりにくかった. しかしインターネットでは, 電子掲示版あるいは電子メールという形で, 誰でも安価に噂を流すことが可能であり, しかも瞬時に何百万人という人の目に触れる状態を作ることができる. 例えば, 「○○会社の ○○というパソコンは壊れ安い」という電子掲示版への書き込みは, そのパソコンの売上げを左右しかねない. 企業だけでなく, 「○○大学の○○研究室は雰囲気が悪い」などという大学機関への風評や, 個人への攻撃も, その威力は増すばかりである. 逆に, 「○○というパソコンは使い易い」など, 消費者の生の意見が書かれた書き込みも多くあり, これらは例えば自分がパソコンを購入しようとしているときに役に立つ. どちらも, 真偽はさておき, 人の意見・感情が表現されたものであるといえる.

本研究室では，テキストにおけるこのような人の意見・感情を抽出し，分類する研究を行っている．インターネットのような巨大なデータに対応するために，統計学習によるアプローチを採っている．

それぞれの研究をもう少し細かく説明していこう。

テキストにおける感情を扱う際の第一ステップとしては、単語の感情極性分類（各単語が良い意味か悪い意味かを判定）がある。我々はこの問題に対し、統計物理的アプローチを提案している。まず、辞書、シソーラス（類義語辞典）、コーパスデータを用いて、極性が同じになりやすい単語ペアを抽出する。そしてそれらのペアを連結することにより巨大な語彙ネットワークを構築する。例えば、「良い」と「良好」が類義語関係にあるので、この二単語を結ぶなどの作業を行う。ここで、単語の感情極性を電子スピンの方向とみなし、語彙ネットワークをスピン系とみなして、語彙ネットワークの状態（各スピンがどの方向を向いているか）を計算する。この計算結果を見ることにより、単語の感情極性がわかるのである。（SIGNL-166, NLP2005, ACL2005）

次に単語から一つレベルを上げて、句の感情極性を考える。つまり、「ノートパソコンが厚い」はネガティブ（悪い意味）だが、「ステーキが厚い」はポジティブ（良い意味）であることを判定したい。我々は、この問題に対し、隠れ変数モデルと呼ばれる、単語のクラスタ（似た単語のグループ）を自動的に発見するような枠組を用いることを提案している。これにより、例えば、厚いことがポジティブであるような名詞が集まったクラスタを自動的に発見することができ、それにより正確な分類が可能になる。（SIGNL-168）
また、感情表現や評価表現が現れやすい文脈を自動的に学習していくことにより、表現を分類する手法も提案している。これは、半教師付き学習として有名なEMアルゴリズムを利用することにより実現している。（NLP2005b）

また、さらに上のレベルとしては、文章の感情極性分類というタスクが考えられる。これに対しては、テキストマイニングを利用した手法を提案している。評価が書かれた文章をたくさん収集して、そこに頻出する表現をマイニングし、それらを文章の分類に利用することにより、より高精度な分類を可能にした。（PAKDD'05, FIT2004 F-006, graduate thesis）

これら以外に、進行中の研究としては、「評価対象、評価属性などの抽出」、「賛成・反対などの意見分類」などがあります。