いわゆる風評被害と呼ばれる現象が, インターネットの普及で新たな性質を帯び
てきている. これまでは, 噂は個人から個人へと伝わるものであり, そこでは噂
を聞く人の真偽判断や信頼性判断が防波堤となり, あまりに無根拠な噂は現状と
比較すると広まりにくかった. しかしインターネットでは, 電子掲示版あるいは
電子メールという形で, 誰でも安価に噂を流すことが可能であり, しかも瞬時に
何百万人という人の目に触れる状態を作ることができる. 例えば, 「○○会社の
○○というパソコンは壊れ安い」という電子掲示版への書き込みは, そのパソコ
ンの売上げを左右しかねない. 企業だけでなく, 「○○大学の○○研究室は雰囲
気が悪い」などという大学機関への風評や, 個人への攻撃も, その威力は増すば
かりである. 逆に, 「○○というパソコンは使い易い」など, 消費者の生の意見
が書かれた書き込みも多くあり, これらは例えば自分がパソコンを購入しようと
しているときに役に立つ. どちらも, 真偽はさておき, 人の意見・感情が表現さ
れたものであるといえる.
本研究室では,テキストにおけるこのような人の意見・感情を抽出し,分類する研究を行っている.インターネットのような巨大なデータに対応するために,統計学習によるアプローチを採っている.
それぞれの研究をもう少し細かく説明していこう。
テキストにおける感情を扱う際の第一ステップとしては、単語の感情極性分類
(各単語が良い意味か悪い意味かを判定)がある。我々はこの問題に対し、統計
物理的アプローチを提案している。まず、辞書、シソーラス(類義語辞典)、コー
パスデータを用いて、極性が同じになりやすい単語ペアを抽出する。そしてそれ
らのペアを連結することにより巨大な語彙ネットワークを構築する。例えば、「良い」と「良好」が類義語関係にあるので、この二単語を結ぶなどの作業を行う。ここで、単語の感情極性を電子スピンの方向とみなし、語彙ネットワークをスピン系とみなして、語彙ネットワークの状態(各スピンがどの方向を向いているか)を計算する。この計算結果を見ることにより、単語の感情極性がわかるのである。(SIGNL-166, NLP2005, ACL2005)
次に単語から一つレベルを上げて、句の感情極性を考える。つまり、「ノートパ
ソコンが厚い」はネガティブ(悪い意味)だが、「ステーキが厚い」はポジティ
ブ(良い意味)であることを判定したい。我々は、この問題に対し、隠れ変数モ
デルと呼ばれる、単語のクラスタ(似た単語のグループ)を自動的に発見するよ
うな枠組を用いることを提案している。これにより、例えば、厚いことがポジティ
ブであるような名詞が集まったクラスタを自動的に発見することができ、それに
より正確な分類が可能になる。(SIGNL-168)
また、感情表現や評価表現が現れやすい文脈を自動的に学習していくことにより、
表現を分類する手法も提案している。これは、半教師付き学習として有名なEMア
ルゴリズムを利用することにより実現している。(NLP2005b)
また、さらに上のレベルとしては、文章の感情極性分類というタスクが考えられる。これに対しては、テキストマイニングを利用した手法を提案している。評価が書かれた文章をたくさん収集して、そこに頻出する表現をマイニングし、それらを文章の分類に利用することにより、より高精度な分類を可能にした。(PAKDD'05, FIT2004 F-006, graduate thesis)
これら以外に、進行中の研究としては、「評価対象、評価属性などの抽出」、「賛成・反対などの意見分類」などがあります。