Natural Language Processing

自然言語処理

 自然言語とは通常我々がコミュニケーションで用いる言語のことで,日本語,英語,韓国語などがこれにあたります.自然言語処理研究とは,このような自然言語をデータとして様々さ処理を施して得られた結果を統計的に分析することで,様々な法則性や有用な事実を発見していく研究です.自然言語のデータをコーパスと呼びますが,通常,コーパスは膨大なデータ量になるため,処理には様々な工夫やアイデアを必要とします.
 本研究室で取り組んでいる自然言語処理研究の一部を紹介します.

1.新聞コーパスによる未来予測研究

(図1:未来予測研究の例)
コーパスによる未来予測研究の例

 新聞には現在の一番新しい事象内容が記事として掲載されています.これらの記事内の各単語の出現頻度や,執筆者の語調を統計的に分析することで,特定の産業や分野に関しての近未来が予測可能となるかもしれないという考えで本研究に取り組んでいます.たとえば,自動車産業関連を扱っている記事を収集し,各記事の中で今後の景気の変動に関する表現を,好景気の示唆,不景気の示唆に自動分類し,それらの数の総計を比較することで近未来の自動車産業の景気予測を行いました.その結果,非常に良好な予測結果を実現しています.本研究室では予測対象の拡大や,予測結果の精度の向上を目的としています.

2.テキストからの自動比喩表現抽出

(図2:自動比喩表現抽出の例)
自動比喩表現抽出の例

 雑誌や小説などの文章では非常に多くの比喩技法が使用されてます.比喩とはあるものを別の何かを用いて説明することですが,イメージを他者にわかりやすく伝えられる非常に有用な手段として日常生活のなかでも多く利用されています.文章中から比喩表現を的確に抽出し系統化することで,説明文の換言,翻訳技術,イメージによる検索など様々な利用手段が考えられます.簡単な比喩の例では,?のような,?のように,?のごとき等の比喩表現によるものがありますが,中には"学校は天国だ","アイツは鬼だ"等,一見比喩と見分けのつきにくいものも多く存在します.本研究室では様々なコーパス(新聞,小説,講演)に対して,その中の比喩表現を正しく抽出する研究を行っています.

3.リハビリテーションツール開発

(図3:スクリーニング検査の例)
スクリーニング検査の例

 長期間の入院や脳機能障害をもつ患者の症状や回復度のふるい分け目的の検査をスクリーニング検査といいます.スクリーニング検査には日本中のほとんどの病院でミニメンタルステート検査(MMSE)や長谷川式簡易知能評価スケール(HDS-R)が利用されています.これらの検査の共通項目に,3単語再生と単語逆読があります.これらの検査で用いられる単語は,共通に知られていて,同じ属性をもたないもの等々の規制があるため,療法士が独自に設定できるものではありません.その反面,検査内容が毎回同じものになるため,検査結果の信頼性に問題があることも指摘されています.本研究室では自然言語処理技術を用いて適切な単語を自動生成するためのツール開発を行っています.

4.メディア記事を利用した評価システム

 ホテル,飲食点,教育機関などのもサービス機関は,新聞,雑誌,メール,ツイッターなどのメディアを通して,それらの評価記事が溢れています.これらの評価記事を好評,不評記事に自動分類し,統計処理を行うことで,利用者の満足度を推定することができ,対象のサービス機関のランク付けも可能となります.また,この評価情報を利用することで,他者との差別化やそれ自身の欠点の改善も可能になります.本研究室ではメディア記事を利用して,サービス機関のランク付けと改善点の指摘を実現する処理システムの開発を行っています.