東京都

人力を排して汎用的にWeb情報を収集するシステムを作り、世界中の非構造情報を解析可能なデータにするMLOps

高橋祐太, 谷本龍一

HR, エンジニア

高橋祐太

ストックマーク株式会社 / HR

フォロー

谷本龍一

エンジニア

フォロー

on 2022/07/26

ストックマーク採用担当高橋です。

今回はストックマーク第一号社員として入社され、現在はオープンデータユニットの責任者を務めている谷本さんにお話をお伺いしました。

何をやっているのか？

――オープンデータユニットのミッションはなんでしょうか？

谷本：ストックマークは、世の中にある定例情報/非構造情報の中でも、ビジネスに関連するデータを活用して、ヒトとAIの力でナレッジを生み出し、イノベーション創出に直結させることを事業としています。

私が管掌しているオープンデータユニットは、お客様の意思決定に貢献できるデータをWebからクローリングしてくる「量」と、クローリングして集めたデータを加工して新しい示唆を届けられる状態にする「質」の両方を高いレベルで、提供し続けることが求められます。

――ストックマークのクローリングは何が違うのでしょうか？

谷本：実は、ストックマークのようにニュース記事を扱うサービスでも、自分達から情報を取りに行っている会社は少ないですし、特定の文章やカタログなどの統一フォーマットからデータを取るのではなく、あらゆる非構造情報からデータを取れるようにしていくシステムを作っているのはかなり稀有だと思います。

また、皆さんが使っている大手検索サービスでも、クローリングするサイトは、1万サイト前後ですが、ストックマークでは日英を対象とした世界中の3.5万サイトをクローリングしており、某大手ニュースサイトで扱っているメディア数の20倍ほどになっています。お客さまには製造業のお客様が多いのですが、製造業や製薬に特化したメディアをクローリングすることもできるようにしています。

――なるほど。そのようにメディアの量が増えると、どのような効果がお客様に提供できるのでしょうか？

谷本：お客様にとって「本当に必要な情報」を届けることができるようになります。

「本当に必要な情報」の定義として、多くのサービスではトラフィックが集まるもの＝つまりは多くの方が見ているものを提供されていると思いますが、私たちはそうは考えていません。

製造業の商品開発や技術開発を担っているお客様にとって「本当に必要な情報」とは、誰も見ていないけど一番嗜好性に合致する情報だと考えます。それを提供するためには、南米の事例でも、全く新しい技術情報でも検知をして情報を届けなくてはなりません。

そのためには、情報の量は必要不可欠です。現在はWeb上のニュースやブログを情報として提供していますが、これからは、中国語の対応、特許論文、優良調査レポート、SNS、社内資料など今までは異なる情報を扱えるデータにしていき、世界中の情報を扱いが可能なデータにしていきたいと考えています。

そして、3.5万サイトはまだまだ少ない。ストックマークがこれから実現することを考えれば、1人10万サイトを自動的にマネジメントできる状態を作らなくてはならないと考えていますので、実現に向けてより良いチームを作っていきたいと考えています。

MLOps組織の課題

――現在のクローリングチームの課題について教えてください。

谷本：１つ目は、データパイプラインを構築するスピードを上げていきたいという所です。

現在ニュース記事にフォーカスをしていますが、中国語の対応、特許論文、優良調査レポート、SNS、社内資料などに広げていきたいと考えています。

カテゴリーを増やした際に、実は汎用的に構築できるものは少ないです。そのためカテゴリーを増やすとデータのパイプラインをイチから考え直して再構築していく必要があります。そのためデータパイプラインを一気通貫で構築できる人材を迎え入れ、カテゴリーを広げて、プロダクト価値を高めていくことが求められています。

2つ目は、サイトをメンテナンスしなくても、クローリングをする際に、エラーが発生したら、自動で検知して、復旧する仕組みを作らなけばいけないということです。

例えば、ある会社のサイトをクローリングしていったら、配信0件になっていることがあります。ノイズが入ったり、欠損してしまったり原因は様々あり、その可能性は3.5万サイト全て起こりうる状態です。3.5万サイトを常にメンテナンスしていき、それを10万、20万と増やし、異なるデータのデータパイプラインを作っていく体制を、人の力でやるには限界があります。

そのため人の力ではなく、機械の力でクローリングのエラーを解消するシステムを構築しなければいけません。

MLOpsは、どんな人材を求めているのか

――現在求めている人物像について教えてください

谷本：まず共通しているのはアプリケーション開発もMLOpsもデータエンジニアリングも全て挑戦したいというモチベーションのある方を求めているということです。この中で最も重要なのはアプリケーションエンジニアリングのご経験ですね。

――ストックマークのMLOpsにおける魅力について教えてください！

谷本：MLOpsの魅力について3つのポイントでご説明します。

世の中にある膨大なオープンデータにおけるMLOpsに携わることができる

ストックマークでは日英を対象とした世界中の3.5万サイトをクローリングしており、某大手ニュースサイトで扱っているメディア数の20倍ほどになっています。世の中にある膨大なオープンデータを活用したMLOpsに携わることができるのが大きな魅力です。

2. ユーザーが継続的に使い続けるSaaSプロダクト開発に携わることができる

企業の研究開発に従事されている方はPoCとして検証がメインになってしまうことがあると思います。弊社の場合、実際に顧客が活用するプロダクトに携わることができるのが魅力です。実際のユーザーからの声も聞き、導入後も改善を続けていきます。SaaSという性質上、継続的に使われ続けるサービスに携わることができるのも魅力です。

3. 最先端の自然言語処理について学ぶことができる

リサーチャーのメンバーと共にデータパイプラインを構築していきます。リサーチャーの知見をお借りし、最先端のMLOｐｓに携わることができるのが魅力です。

――（ここだけの話ですが）面接では、どんな所を見ていますか？

谷本：一番重要視しているのは、「データパイプラインの構築を一気通貫で実施していくことに楽しんでやってくれる方」ですね。業務領域が広がっていくことは大変だと思いますが、そういった幅広さを楽しんでいただける方を求めています。自分のスキルの幅を広げていきたい方は是非カジュアル面談でお会いできると嬉しいです。

正直、検証も開発も50%以上は失敗します。決まったことをやるのではなく、不確実性の高い領域に挑戦しているため、失敗することは多いというのが実態です。しかし私は失敗を失敗だと捉えてはいません。先行事例がない領域をやっている以上上手くいかないは当たり前。詰将棋のように失敗を潰していき、成功への道筋を見出していくというのがストックマークのMLOpsです。新しい価値創造をするために、効果検証と実装をスピーディーにやっていきたい、そんなモチベーションの方にお会いしたいです。