【目次】
Part 1
1. 『言葉って難しい』~言葉の処理を理解する為の前知識~ 2. そもそも言語処理タスクは、人間も間違えやすい 3. 難しい文も前提知識のある用語に置き換えてみると分かりやすくなる 4. 世間のAIに対する一般見解と最先端AI
Part 2
5. 自然言語処理とは? 6. 文書自動分類の主な活用場面 7. 機械学習の分類タスクは二種類ある(2クラス分類と多クラス分類) 8. AIで自動分類するときのコツ
Part 3
9. AIは、どのように文書を分類するのか _9.1 特徴的な単語を抽出するとは?~林檎と言語の特徴について~ _9.2 分類したい文書をアルゴリズムで推定 10. 平成の自然言語処理、令和の自然言語処理 11. 創造性の領域とデータセットの壁 12. AIと人類最後の砦。ビジネスで上手く活用できないAIについて
Part 4
13. アマチュアがプロ並みのスキルを持つ社会で 14.『表現のこだわり≒ブランディング』とAI、自然言語処理 15. おわりに。この仕事の難しさと楽しさについて
1.『言葉って難しい』~言葉の処理を理解する為の前知識~
『言葉は難しい。』
言葉はどんなに気をつけて発しても曖昧さが残り、こちらの意図していない解釈をいくらでもされるものです。言葉の曖昧な表現には、「アップル(りんご)」と「アップル(GAFAの一角企業)」のような同音同義語もありますが、それ以外にも曖昧さが残るケースはたくさん存在します。
――先日も、こんな出来事がありました。
社員による熱いプレゼンも終わり、場も温まった会議室。社長が活動報告会の総括で「各チームには、本当は言いたいことが沢山あるんだけど、、、」と仰いました。会場が氷点下に下がったと思ったのか、慌てて「伝えたいことが沢山あるんだけど」と訂正していました。その時は僕自身、気にも止めていなかったし他の人も誰も気にしてなかったと思うけど、この記事を書くにあたって、そんな些細な出来事をふと思い出しました。思い返してみると、確かに前者の「言いたいことが沢山あるんだけど、、、」は、なんとなくですが『指摘事項が沢山ある』というお説教的な尖ったニュアンスで伝わりやすい気がします。後者の「伝えたいことが沢山あるんだけど」の方が、『一緒に話をもっと共有したい』という丸みを帯びた印象で伝わりやすい気がします。
この記事を書いている僕のような会話で言語処理を適切に行使できていない人間(コミュ障)には、そんな高等な使い訳は到底できそうにありませんけど(笑)。このように言葉は曖昧で、その意見の中にネガティブかポジティブなものを含んでいるかを判別するにしても、単語だけでなく、その前後関係の文脈や会話を理解している必要があります。
では、会話の前後や文章の全体像さえ理解していれば、相手にこちらの意図が正しく伝わるかというとそうでもないんです。AIブランディングという大役を任されるにあたって、「AIチームにしか書けないような面白い記事を書いて欲しい」という要望がありました。
そこで「この記事を読んでくれる人はそれぐらい知っているだろ。いや、知っているべき。」という面持ちで書き初めてみた次第。草稿を見せると、「これでは読者が理解できないのではないのか」と社内で紛糾する事態になってしまったのです。
どうやら自分が認識していた以上に、理解してもらう為の壁は高くそびえていたようでした。
↑前提知識がないと超えられない壁
「まあ、知りたかったら普通、自分で調べるでしょ(ググれ。)」という不遜な気持も多少はあったかもしれません。しかし、このように「自分が知っていることは相手も知っていて当然」という思いが言動に現れてしまうと「根暗で無愛想な陰キャ、コミュ障」という印象を与えてしまいかねないですよね。そういう所が僕にあるのは置いといて、今後は誰から見ても非の打ち所のない懇切丁寧な説明を心掛けたいものです。改善するには自分と他人の知識レベルについて注意を払いつつ、状況に応じて用語なりを考慮して、高さ調節をした説明を試みる姿勢が大切です。
このように日常生活でさえ少し注意を向けるだけでも山のように多くの問題に直面する身近な言葉。
今回は、そんな『言葉』をテーマに今まさにブレイクスルーが起き初めているAIの言語処理について解説していきます。
2. そもそも言語処理タスクは、人間も間違えやすい
画像認識分野では技術革新が目覚ましいAI技術ですが、近年まで言語領域では思うような結果が出ていませんでした。
その理由の一つとして人でも判断を誤りやすいことが挙げられます。
例えば、こんな問題があります。
アミラーゼという酵素はグルコースがつながってできたデンプンを分解するが、同じグルコースからできていても、形が違うセルロースは分解できない。
この文脈において、あてはまる適当なものを次のうちから1つ選びなさい。 セルロースは( )と形が違う。 (1)デンプン (2)アミラーゼ (3)グルコース (4)酵素
この問題を東大ゼミで出したところ日本人大学院生は全員不正解で、正解したのが中国からの留学生だけだったらしいです。そこで色々調査したところ、読解力がない人が世の中に多いことが発覚して実は教科書に書かれている説明(言葉)そのものを子供は理解できていないのではないかと教育現場は騒然となったようなのです。
これを読んでいるあなたは、正解がわかりますか?
この問題に答える半数くらいが『グルコース』と解答するようですが正解は『デンプン』です。これは、読解力を図る為に作られたテスト問題なのですが調査によると正解を選ぶのは、10%程度らしいです。なぜ、こんなにも多くの人が間違えるのでしょうか。
3. 難しい文も前提知識のある用語に置き換えてみると分かりやすくなる
上記のアミラーゼ問題を難しくしている要因として主に二点が挙げられるかと考えます。
- 見慣れない化学用語が出てくる(前提知識がないと分かりにくい)
- 係り受け関係が複雑
そこで前提知識があるものに例えると理解しやすくなるのではないかと思い、用語だけを置き換えてみました。
ますい君というゲーム好きは、ゲームジャンルの一つであるパズルゲームは楽しめるが同じゲームでも、ジャンルが違う格闘ゲームは楽しめない。
この文脈において、あてはまる適当なものを次のうちから1つ選びなさい。 格闘ゲームは( )とジャンルが違う。 (1)ますい君 (2)パズルゲーム (3)ゲーム (4)ゲームジャンル
この文章ならグッと分かりやすい問題になったと思います。もちろん、アミラーゼ問題は読解力テストに作られた問題なので読解力があれば用語が分からなくても文脈構造から論理的に分かります。しかし、予備知識の有無でも難易度が変わってくるタスクなのだと分かったと思います。
↑世界一、パーソナルな図解
↑文法的に同じ構造
4. 世間のAIに対する一般見解と最先端AI
近年、AIに仕事を奪われるというような噂話をどこかで聞いた人が多いのではないかと思います。その手の話題に尾ひれには『AIは数学が超得意だけど、言語領域は苦手』というような文脈で語られます。なので『読解力を高めて人にしかできない仕事をしよう』とか『子供には読解力を鍛えさせよう』という内容のビジネス書が多く出版されています。
僕は、長年このコンピューターによる言語解析を専門に研究や仕事をしてきました。その立場から研究を見ていても概ねこの意見に同意でした。実際問題、画像分野などに比べるとAIの言語領域は今一歩、成果がでていないのが実情だったからです。言葉は、確率や統計などコンピューターが得意とする数値化が難しい分野です。
AIは言葉の処理が苦手というのは僕自身、身をもって感じていました。
AIが人と同じように言葉を理解できるようになる。これは数年前の有識者なら多くが、『それはSF作品の中での話?』と笑い飛ばしていたでしょう。しかし最近、先端研究や発表を見ていると、その今まで常識だったAIは言葉の理解が苦手という考えが覆りつつあるように感じます。
今までのAIは具体的に言語処理のどこが苦手で、最近のAIはどこが解決できるようになってきたのでしょうか。そして、そもそも人でも取り扱いが難しい感覚的な側面を持つ言葉をどのようにコンピューター上で処理しているのでしょうか。