株式会社つうけんアドバンスシステムズ / 研究開発
自然言語解析
[概要] オペレーションセンターに蓄積されたテキストデータ (ナレッジ情報)を扱った自然言語解析を行っております。内容としては、新システムにおけるナレッジ情報へのアクセスに対する検索性能向上を目指した研究開発です。 具体的な取り組み内容としては、MeCabやJumanなどを用いて形態素解析したテキストデータを特徴量として文章分類を行う際に、どのような機械学習技術が適切かを検証しました。機械学習ツールとしては、gensimやscikit-learnを用いました。 [研究体制] 社内に自然言語処理に関わる技術を知っているものが私だけなので、技術選定/プログラミング/検証 etc..全部一人で行っております。 [課題] そもそもの問題として、ナレッジ情報が整理されていないという問題があります。そのため、ナレッジ情報の探索が難しい現状です。そこで、機械学習を用いたクラスタリングを行うことで、ナレッジ情報を整理することにしました。 [課題に対するアプローチ] 文書情報のクラスタリングなので、LDAを使った教師なし学習による分類方法と、BoW(Bag of Words)、Doc2Vecで生成したベクトル情報を用いたk-means法による分類方法を今回は検証しました。 今回のナレッジ情報は、整理がされておりませんので、それぞれの文章の属性といったものもありませんので、教師データを作るのに非常に労力を要します。そこで、文章情報をベクトル化することで、そのベクトルを特徴量とした教師なし学習がコストが低いので、教師なし学習としてLDAによる手法と、k-means手法を選びました。 最初は、形態素情報として名詞や動詞だけを特徴量とするデータだけを用いましたが、上手く分類分けができませんでした。改善策として、形態素解析の部分でどのような形態素が抽出されているのかを確認しました。すると、固有名詞表現が上手く抽出できてない、数字列/記号といった特徴として意味を成さない形態素が抽出されていた、といった問題点がありました。また、Doc2Vecに関しては、文脈情報を特徴として学習するので、形態素解析において、名詞や動詞だけに限定するのは間違ったやり方であり、それぞれの形態素の順番も考慮する必要もあるので、それらを修正するというようなことも行いました。 [成果] 成果としては、実用的な結果は得られませんでした。しかし、社内としては自然言語解析は新しい領域への取り組みとなったので、教師なし学習や形態素解析といった新しい技術への知見を残すことができました。 また、今回のような問題設定の場合では、検索システムの導入により解決できる可能性があるので、そちらを最初に行うべきだったというアンチパターンについての知見を残すこともできました。