世界中の情報を収集し、機械学習の力で整理、抽出して届ける！LLMや社内文書など挑戦し続けるOpendata Unitのご紹介

ストックマークHR高橋です。

本日は、ニュース、論文、特許など世界中の膨大なビジネスデータを集めて、整理して、届けるOpendata UnitのサーバーサイドエンジニアSuzutakuさんにインタビューしました。

Stockmark LLMの生成AIの基盤となるデータセットの構築を担う、Unit内PdM不在の自律型組織、変化し続ける課題に向き合うなど、ストックマークの中でも特徴的なOpendata Unitの組織や課題、今後の展望などについてお伺いしております！

Opendata Unitのミッションユーザーが「欲しい情報」を届けるため、膨大な情報を収集、整理・抽出する

—先ずはOpendata Unitのミッションについて教えてください！

ストックマークの事業としては、ニュースや論文、特許などの情報を配信し、ユーザーに届け、新しい事業アイデアの創出を支援しています。すなわち「情報」を届けるサービスです。

情報はただ配信するだけでは価値にはなりません。役立てることができるユーザーに届けることではじめて価値が生まれます。

多様なユーザーのニーズに答えるためには、収集する情報の「量」が求められ、また正しく中身のある情報を届けるために「質」も求められます。

Opendata Unitはユーザーに届ける情報の「量」と「質」を高めるため、世の中にある膨大な情報を収集、整理・抽出する業務を担っています。

Opendata Unitはユーザーに届ける情報の「量」と「質」を高めるため、世の中にある膨大な情報を収集、整理・抽出する業務を担っています。

もう少し詳しく説明していきます。
「量」においては、先ず情報をユーザーに届けるためには、先ず情報をAseries上に取り込む必要があります。我々Opendata Unitは独自でクローラーを開発し、Web上にある世の中の膨大な情報を収集しています。

「質」においては、集めた情報から不要な情報をクレンジングし、価値がある情報を抽出・整理しています。我々は自然言語処理を利用することでユーザーに適した情報を判断して届けていますが、そのためには広告やパンくずリストなど、記事本文以外のノイズをいかに除去するかが重要になってきます。

Opendataで収集、整理した情報がプロダクトに適用され、記事の推薦やLLMの構築に繋がっていきます。プロダクトが届ける情報の起点となる役割です。

私自身、実はキャリアの初期にクローラー開発に携わったことがありました。「世の中に埋もれた情報を、役立てることができる人に届ける」ことが生む価値を当時から強く感じており、またそういう事業をやりたいと考えていた所、ストックマークが正に求めていた環境だと想い、転職しました

Opendata Unitの組織ーPdM不在の自律的な組織で、情報の「量」と「質」の双方を強化していく

—続けてOpendata Unitの組織ついて教えてください！

Opendata Unitについて3つの観点でお話していきます

1. 「量」と「質」の2つチームに分かれている

これまでは情報の「量」と「質」、それぞれの業務に対し、メンバーを分けずに取り組んでいました。ですが、「量」と「質」の業務はそれぞれ性質が大きく異なります。

「量」の業務は短期的に多くの施策に携わる必要があり、「質」の業務は一つの施策に中長期的に向き合うことが求められます。

この性質の違いからくるスイッチングコストが高く、特に「質」の業務をすすめることが難しい状況にあったため、量を担う「Quantitiy Team」と質を担う「Quality Team」に分けることにしました。

チームを分けたことにより、各々のフォーカスポイントが定まり、「量」、「質」どちらの施策も進むようになりました。

2. PdM不在の自律型組織

OpendataはPdM不在の自律型組織です。プロダクト全体の方針を決めるPdMはいますが、実はOpendata Unit専任のPdMはいません。そのためOpendataの領域においては、企画から設計、実装まで担っていくことができます。Opendata内でディスカッションしている時もPdM同士で話しているような感覚になることが多いですね笑

3. 純粋に技術に向き合っているフルスタックなエンジニアが多い

クローラー開発は総合格闘技です。クローラー開発はバックエンドがメインというイメージがあるかと思いますが、Webサイトの情報を収集するためHTMLなどのフロントエンドの知見も求められます。インフラの知識も必要になるめ、フロントエンド、バックエンド、インフラと幅広い知識が求められます。

実際にOpendata Unitで現在所属しているメンバーを見ると、VOYAGE GROUPやrinna出身のエンジニアや起業経験者など多様な人材が集まっていますが、フルスタックな総合力の高い人材が多いのが特徴です。

ただ今後はコンテンツ抽出を機械学習で実践するMLエンジニアのようなプロフェッショナルな技術に尖った人材も採用していきたいと思っています。

また今まで色々な会社で働いてきましたが、特にストックマークは純粋に技術に向き合っている組織だと思います。全員技術が好きであり、事業／プロダクトを前に進めることに集中できる組織ですね。

Opendata Unitで得られるキャリア

—Opendata Unitで得られるキャリアについて教えてください！

1. 技術の総合力が身につく

前述の通り、Opendata Unitでは多くの知見が求められます。クローラー開発においてはバックエンドの領域は勿論、フロントエンドやインフラの知見も必要になるため、技術が総合的に身につく環境です。この規模でクローラの開発にここまで投資している会社は他にないと思います。

またPdMが不在であるので、プロダクトの企画から設計、実装までできるので携わる領域が多岐にわたっています。情報収集をする→分析をする→施策を回すというサイクルを自身で回すことができるポジションです。自身で変化を起こせるのがエンジニアとしての楽しさですね。

2. LLMを構築するための基盤となるデータセットを作ることができる

昨今生成AIがトレンドですが、我々は自社でLLMを構築し、先日オープンソースで公開しました。また現在は1000億パラメータのLLMを開発着手しております。

厳密さが要求されるビジネス用途で正答率90％超を実現へ　ストックマーク 1,000億パラメータ規模の独自LLM開発を開始 | ストックマーク株式会社

ストックマークが、NEDOの「ポスト5G情報通信システム基盤強化研究開発事業／ポスト5G情報通信システムの開発（助成）」に係る公募に採択されました。

https://stockmark.co.jp/news/20240202

ストックマーク、ビジネスでも信頼できる130億パラメータLLMをオープンソースで公開 | ストックマーク株式会社

ストックマーク株式会社は、AWSジャパンの「AWS LLM 開発支援プログラム」を活用し、日本語単独としては最大規模になる130億パラメータのLLMを公開致しました。

https://stockmark.co.jp/news/20231027

LLMを構築する会社だけでも希少ですが、大半はLLMを目的にデータを収集していく企業が多いと思います。ただ我々の場合、自社のLLMにおいてはOpendata Teamが整備してきたデータセットをもとにしています。

Opendataのこれまでの実績が積み重なっているため、日本語×製造業R&Dに特化した情報を独自に収集しており、LLMを構築しているのが我々の強みとなります。

自社独自のLLM構築に貢献し、我々のミッション「価値創造の仕組みを再発明する」を実現する組織だと思っています。

Opendata Unitの展望：企業の事業開発アイデアを創出する総合データベースを作る

—Opendata Unitにて今後目指していることについて教えてください！

Opendataの向き合っている領域は常にアップデートされていきます。Quantity領域もQuality領域についても両方アップデートされ続ける中で進化が求められます。

1. Quantity：ユーザーが真に求めている情報を増やしていく

Quantity Teamの所については、ユーザーが求める情報を理解し、適切に増やしていくということが求められます。ストックマークは製造業R&Dに価値提供をしていますが、一口に製造業R&Dのユーザーといっても業界や規模感、役割によって求める情報が異なります。ユーザーが増えれば求める情報も多様化していきます。多様なユーザー属性がある中でどういった情報を求めているのかを探求し続けなければいけません。ユーザーが「これが欲しい」と指定した情報だけではなく、ユーザーが真に求めている情報を届けるために多くの情報を集めてくることが求められます。

直近では、ユーザーの興味に合わせて集める情報を完全自動で拡張する形を作りたいと考えています。ユーザーの行動によって、集める対象を判断していくことでユーザーがプロダクトを育てていく体験を構築します。ユーザーの興味が多様化していけばプロダクトが進化するというサイクルを作っていきたいと思っています。

近い将来、記事、論文、特許以外の切り口でデータを収集し、企業の事業開発アイデアを創出する施策をOpendata Team発で企画していきたいと思っています。情報ソースを横断的に発見できるデータベースを構築することはチャレンジングであり、非常にわくわくしています。

2. Quality：Web2Textの領域で新たな価値を作り出していく

Quality Teamについては、Web2Text、すなわちコンテンツ抽出に特化した機械学習モデルを作ることに挑戦しています。今までルールベースで行っていたことを機械学習モデルで実践していきます。前例のない領域のため、研究開発に近い所になります。

現在はニュースを起点として、技術情報の拡充を進めており、特許や論文も配信されるようになりました。今後は社内の文書も検索できるようにしていきます。情報の量が増えると同時にノイズも増えるため、情報の種類を問わず汎用的にコンテンツ抽出することが可能な機械学習モデルを構築していかないといけないと考えています。

最後に

Opendata Teamではチームメンバーを募集しています！
企業の事業開発アイデアを創出する総合データベースを構築することや、世の中に埋もれた情報を届けるということに関心がある方は、是非ご応募ください！

ストックマーク株式会社からお誘い

この話題に共感したら、メンバーと話してみませんか？

ストックマーク株式会社では一緒に働く仲間を募集しています

世界中の情報を収集し、機械学習の力で整理、抽出して届ける！LLMや社内文書など挑戦し続けるOpendata Unitのご紹介

高橋祐太

ストックマーク株式会社 / HR

開発機械学習 LLM

4 いいね！

ストックマーク株式会社

ストックマークが解決する社会課題は、日本の海外との競争力の低下です。国内GDPの20％を占める最大産業である『製造業を中心に国内エンタープライズ企業』は、イノベーションのジレンマを抱えています。イノベーションを作り出す最前線で働かれている、商品開発・技術開発・事業開発・R&Dの担当者は、イノベーションを生み出すために、自社の技術を活かす用途探索&技術分析、マートケット理解を進めるために市場調査を行われていますが、情報のスピードが速く膨大にある現代において、人間の力や、既存のツールでは、対応しきれない実態があります。弊社は、社内外にある世の中にある膨大なテキストデータを自然言語処理AIで解析し、次世代のアイデア創出ができる仕組みを、自社のSaasプラットフォームを通じて提供しています。是非、次世代のビジネスパーソンのプラットフォームを生み出し、人類にとってイノベーションの絶えない豊かな社会を実現していきましょう！ ▼サービス紹介ストックマークのサービスは、日英中の3.5万サイトもの膨大な情報網から、自然言語処理を活用して、ニュース/ IR / 特許 / 論文 / 社内資料を解析し、最適な形で情報をお届けし、次世代のイノベーション創出＆アイデア創出の仕組みを提供し、新しくビジネスチャンスを発掘する支援を行っております。 ▼Anews（エーニュース）情報収集SaaS 業務に直結する情報をAIとヒトのナレッジから、個人/チーム/組織単位で収集が可能組織全体の「暗黙知」を「形式知」に変えて、組織全体の情報感度を高め、事業アイディアの着想と組織内での発展を促します ▼Astrategy（エーストラテジー）市場分析SaaS AIが技術や事例/リスク＆チャンスなど該当情報の意味を理解した情報を、市場分析から将来予測が可能なデータにしご提供することで、様々な分析が可能 ▼お客様紹介日経225を中心とした日本の大手企業が利用パナソニック様、日立製作所様、味の素様、みずほ銀行様、帝人様、セブン銀行様、三菱商事様、サントリー様、JTB様、リクルートホールディングス様、リクルートキャリア様、ソフトバンク様など【関連資料】 ▼【超オススメ】いま注目のAI！自然言語処理の実社会活用と未来構想　〜アカデミック、ベンチャーキャピタル、海外動向、スタートアップから見た実態〜 https://youtu.be/YzSa9aUTk8o ▼CEO林インタビュー動画 https://youtu.be/nNAG1uByRbY ▼CTO有馬インタビュー動画 https://youtu.be/yFsB0GfwaFU ▼Technology Fast50 2022 Japan https://stockmark.co.jp/news/20230519 ▼Stockmark オープン社内報（Youtube） https://youtube.com/playlist?list=PLrZHMFQXt_asWdFjymZAIc1h6WrE4kKBa ▼coevo　当社運営のオウンドメディア https://stockmark.co.jp/coevo

フォロー

高橋祐太さんにいいねを伝えよう

高橋祐太さんや会社があなたに興味を持つかも

世界中の情報を収集し、機械学習の力で整理、抽出して届ける！LLMや社内文書など挑戦し続けるOpendata Unitのご紹介

Opendata Unitのミッション ユーザーが「欲しい情報」を届けるため、膨大な情報を収集、整理・抽出する

—先ずはOpendata Unitのミッションについて教えてください！

Opendata Unitの組織 ーPdM不在の自律的な組織で、情報の「量」と「質」の双方を強化していく

—続けてOpendata Unitの組織ついて教えてください！

1. 「量」と「質」の2つチームに分かれている

2. PdM不在の自律型組織

3. 純粋に技術に向き合っているフルスタックなエンジニアが多い

Opendata Unitで得られるキャリア

—Opendata Unitで得られるキャリアについて教えてください！

1. 技術の総合力が身につく

2. LLMを構築するための基盤となるデータセットを作ることができる

Opendata Unitの展望：企業の事業開発アイデアを創出する総合データベースを作る

—Opendata Unitにて今後目指していることについて教えてください！

1. Quantity：ユーザーが真に求めている情報を増やしていく

2. Quality：Web2Textの領域で新たな価値を作り出していく

最後に

ストックマーク株式会社

同じタグの記事

今週のランキング

Opendata Unitのミッションユーザーが「欲しい情報」を届けるため、膨大な情報を収集、整理・抽出する

Opendata Unitの組織ーPdM不在の自律的な組織で、情報の「量」と「質」の双方を強化していく