こんにちは、元・システムエンジニア、現・人事の見並です。
最近は「昔はコードを書いていました」というのも憚られるくらいコーディングの感覚が薄れているので久しぶりにQiitaへ投稿してみました。
さて、本題に入りまして、今回はジーニーが早稲田大学と取り組んでいる産学連携に関して、対象研究室の学生から成果発表がありました。
元・システムエンジニアという名の下お邪魔してきましたので、頑張ってレポートをいたします。
冒頭の挨拶は、新卒入社1年目のエンジニア・堀田さん。ジーニー側のプロジェクト窓口として牽引し、今回の社内発表会も彼が企画をしてくれました。
CTR向上を目的としたオンライン広告のWEBページにおける配置位置の推定
本日の発表は2つ。まずはジーニーの広告配信をしたログを材料に研究をしていただいたテーマからです。
こちらはジーニーが広告配信をした際に取得しているログデータを分析してもらうというもの。
数週間分の一部を切り出したデータ量ですが、15億回以上の広告配信をした記録や200万回以上のクリックがされた記録などがインプットデータとして用いられています。
これらを広告サイズや表示する位置、広告の種類カテゴリなど複数の観点から分析を行います。
Gradient Boosting Decision Tree(GBDT)やEMアルゴリズムなどを用いた手法が先行研究としてあり、その上で新たな手法を用いた推定方法を提案していただきました。
社内のエンジニアも普段自分たちが作っているプロダクトに直結する話なので真剣です。
途中何度も「どのように定義した数値?」「前提条件を発表のように設定した背景は?」など活発に質問が上がりました。
これまでジーニーで用いていなかったモデルを使う示唆もあり、「このやり方は面白い」「このやり方でやるなら、分析するデータにこんな要素も付加して結果を見てみたい」など、次に繋がるディスカッションが生まれました。
単語判定用辞書の自動拡張
続いて、こちらはジーニーが提供している独自技術「GAURL」への活用を目論む研究です。
「GAURL」とは、サイトコンテンツ上のキーワードをURL単位で自動解析し、配信する広告を出し分ける仕組みです。
サイトコンテンツを判別するためには、基準として突き合わせる膨大な「単語辞書」が必要であり、この作成や拡張を人手で運用し続けるのは大変。そこで、この辞書拡張の大部分をテクノロジーによって自動化してしまおうというのが本研究のテーマです。
アプローチとしてはジーニーが既に保持している単語辞書が一定規模あるため、カテゴライズを精査してWord2Vecなどの手法を用い、単語ベクトル学習させたり、交差検証でその妥当性を図った結果を発表いただきました。
まだ全ての単語カテゴリに適用できるわけではありませんが、実施したカテゴリでは新たに拡張するための単語を拾い上げることに成功しました。一方で、発表内容からヒントを受けて、精度をより上げる手法の提案が社内のエンジニアから上がり、まだまだ発展させられるテーマであることが分かりました。
今後はジーニーで持っているナレッジをより密に共有しながら、実用化へと近付けていく次のステップへ進んでいきます。
研究開発と自社プロダクト
ベンチャー企業が研究開発へ取り組むメリットは、実用化へのスピード感であったり、新鮮な実データを用いてリアルなビジネス環境でPDCAを回せることにあります。
ジーニーではキャリア採用・新卒採用ともにテクノロジーで企業競争力を高めていただけるエンジニアを募集しています。ぜひ気軽な気持ちでオフィスへ遊びにいらしてください!