テキストデータや観測データからの情報の抽出とその活用に関する研究

大量のテキストデータや観測データ(数値データ)から,そこに内在する知識の抽出したり情報を組織化したりする研究を行っています.主に以下に挙げる2つのテーマについて研究を進めていますが,これらだけに限らず,統計的な分類・判別,自己組織化などの手法を用いた,いわゆるテキストマイニング,データマイニングに関する研究も行っております.

【キーワード】機械学習,情報組織化,統計モデル,Deep Learning,テキストマイニング,データマイニング



  1. 学術論文の高度な検索支援に関する研究
  2. 自身の研究の新規性を確認するための論文調査を考えればわかるように,学術論文の検索では,多くの場合,情報要求(調べたい事柄)に関係する論文を網羅的に求める必要があります.検索語による検索だけで,これを実現するのは困難です.なぜなら,限定的な検索語を用いれば,不要な論文は少なくなるものの,本来収集すべき論文が漏れてしまいます.一方,一般的な検索語を用いると,漏れは少なくなるものの,多くの不要な論文を含む膨大な結果に対して情報要求に関連するか否かを判断するのに多大な労力がかかります.
    本テーマでは,以下のような技術を用いて,情報要求に関連する論文を網羅的に求めるための検索支援手法について研究します.
    • トピックモデルと呼ばれるベイズ化した単語の混合分布に基づく文書集合の生成モデルを利用した単語のソフトクラスタリング,アブストラクトのクラスタリング,アブストラクトのランキング.
    • 統計的言語モデルによる背景や課題,手法といったアブストラクトにおける文の役割の推定.
    • Deep Learning に基づく文や文章の類似度の推定..


  3. 嗅覚情報処理に関する研究
  4. 哺乳類では,匂い物質の物理・化学的性質が嗅覚受容体細胞でセンシングされ,その信号が嗅球と呼ばれる脳組織のニューロン群に伝わり,さらに高次の嗅覚野へと情報が伝わり,匂いを識別していると考えられています.しかし,物質の物理・化学的性質のうち何をセンシングしているのかが十分に解明されていません.また,嗅球上のどの領域のニューロン群の発火がどの物理・化学的性質に対応するかも十分には解明されていません.
    本テーマでは,色々な物質を嗅がせたときのラットの嗅球上のニューロン群の活性パターンを撮影した右図のような画像(約500画像)と,その物質の物理・化学的な性質(分子サイズ,双極子モーメント等の数値属性,および,ベンゼン環を持つか否か,-COOH を持つか否かなどの分子の部分構造に関する情報)を用いて,統計的な手法により,嗅球上のどの領域のニューロン群に繋がる受容体細胞がどのような物理化学的な性質をセンシングしているのかの解明を試みています.

 

ページの先頭へ↑