こんにちは! エスタイルで記事のライティングを担当しているフリーランスの清水です。
今回は、昨今ChatGPTなどで注目を集めている、大規模言語モデル「LLM」についてご紹介します。
そもそもLLMとは、自然言語処理の分野で使用される人工知能モデルの一種。インターネットなどの膨大なテキストデータを学習し、言語のパターンや意味を捉えるテクノロジーで、最近ではLLMのモデルのひとつであるChatGPTが話題となり、一気に注目を集めています。
今回の記事では、エスタイルが気づいたLLMの魅力や活用事例、またそれを活用した新規事業とはどのようなものなのか、ご紹介したいと思います。
そもそもLLMとはなにか
LLMとは、「Large Language Model」の頭文字を取ったもの。大量のテキストデータを使ってトレーニングされた人工知能の一種で、テキスト分類・情報の抽出・感情分析・文章要約・文章生成・質問への応答といった、さまざまな自然言語処理タスクに適応できます。
話題のChatGPTでは「人間のような自然な会話ができる」と注目を集めましたが、そもそもLLMは、どのような過程を経て、現在のように「自然な会話ができる」ようになったのでしょうか。そこには、大きく分けて2つの手順があります。
学習手順① トークン化と数値化
まず、たとえば「みかんは丸いです」といったテキストデータをインプットしたとすると、これを「みかん/は/丸い/です/。」と文や単語ごとに、分割するトークン化という前処理を行います。
それを今度は、コンピュータが理解できるように、それぞれ区切ったものを数値化。たとえば、「みかん/は/丸い/です/。」は「0.6/8/4.5/2.8/1」といったかたちに。このようにすることで、文や単語のトークンが数値化され、コンピュータが理解できるような形式になります。
学習手順② Transformerによる学習
その後は「Transformer」というモデルに、その数値化されたトークンを学習させ、次に続く単語などを予測できる状態にします。「自然な会話ができる」と感じるのも、実際にはこれまで学習した結果から、AIが確率的に次に続きそうな言葉を判定して出しているに過ぎないんです。
このような学習を重ねることによって、トレーニングされたLLMは、さまざまな自然言語タスクに対応できるようになりました。
話題になっている大きな理由は…
過去のモデルとの違いは
ChatGPTが出てくる以前から、文章生成などができる人工知能は存在しました。それら過去のモデルとの違いは一体、どのようなものなのでしょうか。
特筆すべき点として挙げられるのは、LLMというひとつの枠の中で、さまざまなタスクに対応できるということ。
たとえばLLMが台頭する以前では、文章生成・要約・翻訳・文章生成とタスクごとにそれぞれのデータを引っ張ってきて、その一個のタスクに対して専用のモデルを作らなければいけなかったんです。
他方、LLMでは、Transformerというモデルに大量のテキストデータを読み込ませているので、一つの大枠の中でいろんなタスクに対応できる。さらに人間の話し言葉で指示を出せるようになったことから、一般の人でも簡単に使うことができるようになりました。
Siriなどとはどう違う?
また、「AIとの自然な会話」ということで考えると、Siriなどのバーチャルアシスタントも思い浮かびます。
ここで大きく違うのは、LLMの場合、あらかじめなにかのツールが登録されているわけではないということ。SiriであればGoogle検索を登録して「~を調べて」と言うと、その検索結果の中から答えを引っ張ってくる。正解を探しに行くかたちです。
一方でLLMは、より柔軟性があり、ツールは登録されてないけれど、いままで学習したデータの中から参照したり予想したりして「こういうことをやったらいいんじゃないですか」と提案してくれます。
数字1と数字1を入れると「2」と返ってくるといった、従来の仕様とは異なり、決まった答えがないぶん、より人間が考えた回答に近い感覚が得られるんです。
ChatGPTだけじゃない、LLMの多様なモデル
そのような点から、近年注目を集めているLLMですが、話題のChatGPTを筆頭にさまざまなモデルが存在しますので、こちらも紹介していきたいと思います。
ChatGPT
ここ最近では、耳にしない日はない「ChatGPT」。人工知能の研究開発機関であるOpenAIがリリースしAIチャットサービスで、2022年11月の公開後、革新的なサービスとして注目を集め、企業だけでなく一般の人にまで知れ渡るようになりました。
2023年3月には、従来のモデル(GPT-3、GPT3.5)に比べて高い能力を備えた「GPT-4」がリリースされ、有料プランにて利用が可能に。
GPT-4では、これまでテキスト対応のみだったところを、画像や図などと組み合わせて出力することができるようになるなど、より高度な推論や複雑な指示への対応が可能になっています。
Google「Bard」
「Bard」とは、Google が提供する生成AI。GPT-4同様、対話型のサービスで、質問に答えたり、クリエイティブな質問や命令を、音声やテキストで入力することができ、エッセイや小説、詩、コードなどを書いてもらうことも可能。2023年3月に米国と英国、2023年5月からは日本版がリリース。
Googleの検索サービスと連携しており、インターネット上の最新情報をふくむ回答を得ることができます。
Bing「AIチャット」
Microsoft社が開発した対話型のAIチャットツールであり、2023年2月にリリースされました。ユーザーからの質問に対して、AI技術を活用してさまざまな情報を収集、また抽出し、チャットで適切な回答を行うことが可能。
BingのAIチャットでは、会話のスタイルを選択することで、同じ質問への回答でも表現やニュアンスを変更できます。たとえば、クリエイティブな発想が欲しいときは「独創性」、正確で細かい回答を求めているときには「厳密」といった具合に、会話スタイルを設定することで、より期待に近い回答を引き出せるようになります。
エスタイルのLLM活用例
このようにLLMには、さまざまな活用例がある中、エスタイルではそれを、コンサルティング、ソリューション提案のサービスとして活かしています。
お客様の課題や困り事をお聞きして「それなら、LLMを活用して~ができるかもしれない」と提案する、というものです。
これまでもエスタイルでは、データサイエンスの領域の中で、お客様のさまざまな課題を解決してきましたが、そのツールとしてLLMが加わった、というかたちになります。
抱えている課題に関するお客様のデータにアクセスして、その環境の中で概念実証的に、利用したいLLMのモデルを準備したり、一度システムを作ってみたりする。それで効果が出た場合、実際に導入してみませんか、という流れになります。
たとえば保険会社さまの事例。コールセンターの対応で、オペーレーターの方が問い合わせを受けた際、Q&Aを検索したり、持っている知識で答えたりしなければいけない中で、とにかく膨大な知識が必要になります。
また、契約済みのお客様を相手にする際には、そのお客様がお話する内容に合わせて適切な資料を見つけ出さなければいけない場面もあり、そうなると過去の保険の内容についての知識も求められます。とにかくオペレーターの方の負担が重いという課題がありました。
そこにLLMを噛ませてシステムに学習させておくことで、問い合わせが来た際に、適切な内容で、すぐにお答えができる。そのようにして、負担を減らしていくことを狙っています。
そのための実証実験として、都内区役所のサイト上にある「よくある質門」などをデータとして集めて、オープンソースのLLMを用いてデータを外部に送信しないような検索ツールを作成しました。実際に出来たもので検索をかけてみたところ、精度の高い回答が得られています。
エスタイルだからこそ出来ること
そのような中で、エスタイルがLLMを活用した事業を行う強みとは、どのようなものでしょうか。その特徴としては、やはりメンバーに知識や知見があり、LLMを使ったシステムをしっかり作っていけるところです。
たとえば、ChatGPTは、結局OpenAIという企業が出しているものであるため、そのまま使うとなれば、データの接続や情報漏洩の問題など、いろいろ配慮すべき事項が出てきます。
一方で、国内でもいくつかの会社からオープンソースのモデルが出ていて、商業利用も可能だったりする中で、それを活用して事業にするにはやはり知識が求められる。
加えて会社ごとに、GCPやAWSなど、固有の環境があります。ですがエスタイルの場合、そういった制限がなく、フレキシブルな対応が可能。会社ごとにモデルを選択して、適切にシステムを構築することが出来るんです。
「こうすればうまくいく」というベストプラクティスが存在しないため、トライアンドエラーで色々な手法を取り入れたり考えたりしながら、事業を進めています。
LLMの課題と今後の可能性
最後に、LLMが抱えている主な課題、また将来の展望についてご紹介します。
課題①外部流出の問題
LLMを使う際に個人情報データや機密情報データをインプットすると、それを勝手に学習されてしまうという恐れがあります。
そのため企業によっては、社員がChatGPTなどのLLMツールを利用するのを禁止しているケースもあり、また国自体が、国民に使用を禁じている場合もあります。
個人レベルでは「便利」でも、企業で使うとなると、まだハードルが高い、という状態なのです。
課題②正確性の問題
そもそもLLMは、確率的に高いテキストを並べているだけなので、必ずしも正確な答えをアウトプットするとは限りません。
今後、精度が上がり続けていくとしても、再度は人の手でチェックをする、という点はやはり求められます。
今後の可能性は…
このほかにもたくさん課題がありますが、やはり人間の話し言葉で誰でも指示を出せるようになった点などは、LLMの魅力のひとつと言えるでしょう。社会にLLMの有効的な活用方法を広めていくことで、今後はいろんなものがどんどん効率化されていきます。
LLMには、人間の問いをいま以上に理解して、人生に寄り添ってくれるポテンシャルがあります。将来的には、映画などにあるような「これやっといて」と言ったら「分かりました」と、人間のように対応してくれるようになり、あらゆるツールのインターフェースとして、LLMの技術が使われるようになるのではないでしょうか。
エスタイルとしても、日々アップデートされていく情報をキャッチしながらトライアンドエラーを重ね、LLM活用事業を進めていきたいです。