仕訳精度をどこまで高められるか？マネーフォワード初のデータ分析ハッカソンを開催しました

こんにちは、マネーフォワード人事の村田です。
マネーフォワードでは2019年9月に、当社初となる学生向けデータ分析ハッカソンを開催しました！
本ブログではその様子をレポートします。

開催概要

今回のハッカソンテーマは、あるテーブルデータをもとにテキスト情報の仕訳精度を競うというもの。作業期間は全2日間（各日朝～夕方）、ご自身のPCおよび分析環境を用意いただいたうえで、マネーフォワードのオフィスにお集まりいただき、個人戦形式で実施しました。

マネーフォワードからも、普段データ分析関連業務に携わっている社員4名＋αのメンターが参加し、みなさんのサポートをしたり一緒に同じテーマにチャレンジ（?!）したりしました。

（なお、本ハッカソンの企画・準備や運営については、学生のためのハッカソン・インターンシッププラットフォームサービス「Peakers」を運営している株式会社Mewcket様にご協力いただきました）

開催背景

マネーフォワードには、ビジネス向けクラウドサービス「マネーフォワードクラウド」や、自個人向けの自動家計簿サービス「マネーフォワード ME」をはじめとする、自社サービスの運営を通じて蓄積されてきた膨大なデータが存在しています。

これらのデータの分析や利活用の取り組みをさらに加速させ、ユーザーのみなさんに更なる価値を届けていくため、2019年3月にR&D組織となる「Money Forward Lab」（以下「Lab」）を設立し、現在は仕訳精度向上などのテーマを中心に研究を進めています。

今回のハッカソンは、こうしたデータ利活用推進の取り組みの一つとして開催しました。

Lab設立の背景や取り組みについてはこちらの記事もご覧ください。
＜少し先の未来を可視化して、ユーザーのお金に対する課題や不安を解決したい！～“Money Forward Lab”設立の想いを語る～＞
https://note.com/moneyforward/n/n26bca5efd2d2

当日の様子

1日目朝、参加者のみなさんが続々と会場へ到着します。今回の参加者数は全部で16名。

普段から機械学習を用いた研究をしている方や他社のデータ分析ハッカソンの参加経験者など、これまでに機械学習を用いた経験がある方が多く参加していました。

イベントは開会式からスタート。2日間のスケジュールや評価システムに関する説明をしたのち、今回マネーフォワードが用意したデータの内容や、それをもとに解決したい会社の課題感や背景などをご紹介し、今回のハッカソンテーマへの理解を深めていただきました。

開会式の最後はメンターの紹介で締めくくります。

今回は、（写真左から順に）
・Lab所長の北岸
・Money Forward Home事業のマーケティング部門でデータ分析を行う長野
・グループ会社の「MF KESSAI」で与信モデル構築やデータ分析などに従事する山内
・マネーフォワードの各種サービスの基盤となるアカウントアグリゲーション（※）技術の構築・開発を行う内波
の4名のほか、経営企画室でデータ分析を行う酒井や、2日目後半にはLabの技術顧問でもある理化学研究所の関根博士がメンターとして参加しました。

※アカウントアグリゲーション・・・異なる金融機関の複数の口座情報を一元管理するサービスおよび技術

開会式を終え、いよいよ作業時間がスタート。
まずはみなさんデータ内容を確認したり方針を考えたりひとまず手を動かしてみたり。ひたすらもくもく作業を進めます。

午前の集中モードのあとは、ランチタイムへ。ランチは2日間ともお弁当をお配りし、会場内で食べるスタイルでした。

ランチタイムは1時間目安で設けていたのですが、みなさんとにかく作業に集中していて、8割以上の方が15分ほどで完食、すぐに作業に戻られる方が多かったのが印象的です。

昼食後は、参加者同士の会話やメンターへの質問も少しずつ増え、各地で話をしている様子が見られました。

こうして各自取り組みを進め、1日目は18:00に終了。
1日目終了時点で既に70点超えの精度を出している猛者や、「AutoMLに突っ込んでみたら一定の精度が出ました」という参加者もいました。

2日目は、1日目の振り返りオリエンからスタート。
メンターの山内から、1日目に参加者から出たご質問や、自身でも試してみたアプローチ方法などをもとに、精度を上げるアイデアやコツをお伝えしました。

（実は山内は、データサイエンティスト協会主催のデータサイエンティスト養成講座の講師なども務めています。学生さん向けの冊子作成なども担当しているそう）

振り返りオリエンを終え、前日の作業の続きに取りかかります。
限られた時間のなかで、最終submitが始まる16:30までラストスパートをかけるみなさん。

いよいよ作業時間が終わり、最終submitの時間を経て、結果発表です。

ちなみに今回は折角の機会なので、参加者間で知見共有ができるよう、どのようなアプローチ方法を採用したかについてもお1人ずつテキストでご提出いただきました。
今回は1位・2位・3位を入賞とし、3名の方を表彰しました。

1日目に既に70点台を叩き出していた1位の鈴木さん。ほとんどの時間1位をキープし続けました。すごい！

表彰式の後は各メンターから本イベントの講評を行いました。
振り返りオリエンも担当した山内からは「2日間は長いようで実はかなり限られた時間。そのなかで、初めて見るデータをもとに、どう攻略するか方針を立てて手を動かすかなりレベルの高い作業が求められます。大変な中でみなさん自走されていて本当に素晴らしかった」というコメントとともに、今回精度を上げるポイントとなった自然言語処理に関するいくつかのアプローチ方法についての解説も行いました。

講評を終えたあとは、今回の参加者やメンターも交えた懇親会で親睦を深めます。