厳密さが要求されるビジネス用途で正答率90%超を実現へ ストックマーク 1,000億パラメータ規模の独自LLM開発を開始 | ストックマーク株式会社
ストックマークが、NEDOの「ポスト5G情報通信システム基盤強化研究開発事業/ポスト5G情報通信システムの開発(助成)」に係る公募に採択されました。
https://stockmark.co.jp/news/20240202
ストックマークHR高橋です。
本日は、ニュース、論文、特許など世界中の膨大なビジネスデータを集めて、整理して、届けるOpendata UnitのサーバーサイドエンジニアSuzutakuさんにインタビューしました。
Stockmark LLMの生成AIの基盤となるデータセットの構築を担う、Unit内PdM不在の自律型組織、変化し続ける課題に向き合うなど、ストックマークの中でも特徴的なOpendata Unitの組織や課題、今後の展望などについてお伺いしております!
ストックマークの事業としては、ニュースや論文、特許などの情報を配信し、ユーザーに届け、新しい事業アイデアの創出を支援しています。すなわち「情報」を届けるサービスです。
情報はただ配信するだけでは価値にはなりません。役立てることができるユーザーに届けることではじめて価値が生まれます。
多様なユーザーのニーズに答えるためには、収集する情報の「量」が求められ、また正しく中身のある情報を届けるために「質」も求められます。
Opendata Unitはユーザーに届ける情報の「量」と「質」を高めるため、世の中にある膨大な情報を収集、整理・抽出する業務を担っています。
Opendata Unitはユーザーに届ける情報の「量」と「質」を高めるため、世の中にある膨大な情報を収集、整理・抽出する業務を担っています。
もう少し詳しく説明していきます。
「量」においては、先ず情報をユーザーに届けるためには、先ず情報をAseries上に取り込む必要があります。我々Opendata Unitは独自でクローラーを開発し、Web上にある世の中の膨大な情報を収集しています。
「質」においては、集めた情報から不要な情報をクレンジングし、価値がある情報を抽出・整理しています。我々は自然言語処理を利用することでユーザーに適した情報を判断して届けていますが、そのためには広告やパンくずリストなど、記事本文以外のノイズをいかに除去するかが重要になってきます。
Opendataで収集、整理した情報がプロダクトに適用され、記事の推薦やLLMの構築に繋がっていきます。プロダクトが届ける情報の起点となる役割です。
私自身、実はキャリアの初期にクローラー開発に携わったことがありました。「世の中に埋もれた情報を、役立てることができる人に届ける」ことが生む価値を当時から強く感じており、またそういう事業をやりたいと考えていた所、ストックマークが正に求めていた環境だと想い、転職しました
Opendata Unitについて3つの観点でお話していきます
これまでは情報の「量」と「質」、それぞれの業務に対し、メンバーを分けずに取り組んでいました。ですが、「量」と「質」の業務はそれぞれ性質が大きく異なります。
「量」の業務は短期的に多くの施策に携わる必要があり、「質」の業務は一つの施策に中長期的に向き合うことが求められます。
この性質の違いからくるスイッチングコストが高く、特に「質」の業務をすすめることが難しい状況にあったため、量を担う「Quantitiy Team」と質を担う「Quality Team」に分けることにしました。
チームを分けたことにより、各々のフォーカスポイントが定まり、「量」、「質」どちらの施策も進むようになりました。
OpendataはPdM不在の自律型組織です。プロダクト全体の方針を決めるPdMはいますが、実はOpendata Unit専任のPdMはいません。そのためOpendataの領域においては、企画から設計、実装まで担っていくことができます。Opendata内でディスカッションしている時もPdM同士で話しているような感覚になることが多いですね笑
クローラー開発は総合格闘技です。クローラー開発はバックエンドがメインというイメージがあるかと思いますが、Webサイトの情報を収集するためHTMLなどのフロントエンドの知見も求められます。インフラの知識も必要になるめ、フロントエンド、バックエンド、インフラと幅広い知識が求められます。
実際にOpendata Unitで現在所属しているメンバーを見ると、VOYAGE GROUPやrinna出身のエンジニアや起業経験者など多様な人材が集まっていますが、フルスタックな総合力の高い人材が多いのが特徴です。
ただ今後はコンテンツ抽出を機械学習で実践するMLエンジニアのようなプロフェッショナルな技術に尖った人材も採用していきたいと思っています。
また今まで色々な会社で働いてきましたが、特にストックマークは純粋に技術に向き合っている組織だと思います。全員技術が好きであり、事業/プロダクトを前に進めることに集中できる組織ですね。
前述の通り、Opendata Unitでは多くの知見が求められます。クローラー開発においてはバックエンドの領域は勿論、フロントエンドやインフラの知見も必要になるため、技術が総合的に身につく環境です。この規模でクローラの開発にここまで投資している会社は他にないと思います。
またPdMが不在であるので、プロダクトの企画から設計、実装までできるので携わる領域が多岐にわたっています。情報収集をする→分析をする→施策を回すというサイクルを自身で回すことができるポジションです。自身で変化を起こせるのがエンジニアとしての楽しさですね。
昨今生成AIがトレンドですが、我々は自社でLLMを構築し、先日オープンソースで公開しました。また現在は1000億パラメータのLLMを開発着手しております。
LLMを構築する会社だけでも希少ですが、大半はLLMを目的にデータを収集していく企業が多いと思います。ただ我々の場合、自社のLLMにおいてはOpendata Teamが整備してきたデータセットをもとにしています。
Opendataのこれまでの実績が積み重なっているため、日本語×製造業R&Dに特化した情報を独自に収集しており、LLMを構築しているのが我々の強みとなります。
自社独自のLLM構築に貢献し、我々のミッション「価値創造の仕組みを再発明する」を実現する組織だと思っています。
Opendataの向き合っている領域は常にアップデートされていきます。Quantity領域もQuality領域についても両方アップデートされ続ける中で進化が求められます。
Quantity Teamの所については、ユーザーが求める情報を理解し、適切に増やしていくということが求められます。ストックマークは製造業R&Dに価値提供をしていますが、一口に製造業R&Dのユーザーといっても業界や規模感、役割によって求める情報が異なります。ユーザーが増えれば求める情報も多様化していきます。多様なユーザー属性がある中でどういった情報を求めているのかを探求し続けなければいけません。ユーザーが「これが欲しい」と指定した情報だけではなく、ユーザーが真に求めている情報を届けるために多くの情報を集めてくることが求められます。
直近では、ユーザーの興味に合わせて集める情報を完全自動で拡張する形を作りたいと考えています。ユーザーの行動によって、集める対象を判断していくことでユーザーがプロダクトを育てていく体験を構築します。ユーザーの興味が多様化していけばプロダクトが進化するというサイクルを作っていきたいと思っています。
近い将来、記事、論文、特許以外の切り口でデータを収集し、企業の事業開発アイデアを創出する施策をOpendata Team発で企画していきたいと思っています。情報ソースを横断的に発見できるデータベースを構築することはチャレンジングであり、非常にわくわくしています。
Quality Teamについては、Web2Text、すなわちコンテンツ抽出に特化した機械学習モデルを作ることに挑戦しています。今までルールベースで行っていたことを機械学習モデルで実践していきます。前例のない領域のため、研究開発に近い所になります。
現在はニュースを起点として、技術情報の拡充を進めており、特許や論文も配信されるようになりました。今後は社内の文書も検索できるようにしていきます。情報の量が増えると同時にノイズも増えるため、情報の種類を問わず汎用的にコンテンツ抽出することが可能な機械学習モデルを構築していかないといけないと考えています。
Opendata Teamではチームメンバーを募集しています!
企業の事業開発アイデアを創出する総合データベースを構築することや、世の中に埋もれた情報を届けるということに関心がある方は、是非ご応募ください!