こんにちは!
バンダイナムコネクサスデータ戦略部の藤井です。
今回はデータ戦略部が利用しているバンダイナムコグループのデータ分析環境の紹介をしたいと思います。
データ基盤について
システム構成について
システム構成の概要は以下のような形になっています。
各サービス(例:ゲーム。EC)はクラウド(AWS, GCP)で開発されており、それぞれに合わせた形でDBサーバー(Amazon RDS, Cloud SQL)からのデータ収集を行っています。
AWSの場合はS3にデータを一旦出力してからCloud Storage(以下GCS)に取り込む形にしている一方で、GCPの場合はGCSに直接取り込む形にしています。
GCSに保存されたデータはDataflowによってデータ加工(主にデータクレンジング)が行われ、BigQuery(Data Warehouse)に格納されます。
各サービスで利用しているGoogle Analyticsのデータは、GA360の機能を用いてBig Query(Data Warehouse)へと連携を行っています。
また各サービスで独自のBigQueryを利用しているケースもあり、その場合はバッチサーバーを用いてData Warehouse用のBig Queryへとデータをコピーしています。
データ可視化を行う際にはLookerやGoogle Data Portalを利用しています。
アドホックな分析を行う際にはJupyter, R Studio, SPSS Modelerを利用しています。
(各分析者が最も使いやすい統合分析環境を選べるようにしていますが、Jupyter利用者が一番多いです)
開発体制について
データ基盤関連の開発体制は以下のようになっています。
S3やGCSへのデータ転送は各ゲームタイトルの開発担当者が行っています。
データ基盤開発とBI環境, 統合分析環境構築と運用はグループ内の別会社(バンダイナムコエンターテインメント)のインフラ部門が担当しています。
このような役割分担が取れているため、データ分析実務の担当者はデータ基盤の開発・運用業務に追われない形を実現出来ています。
一方で、分析プロジェクトを推進するデータストラテジストのメンバーは、データ基盤のアーキテクチャ設計から携わり、グループ内別会社のインフラ部門と協力して理想のデータパイプラインを実装に結び付けることができます。
技術スタックについて
技術スタックは以下のようになっています。
プログラミング言語はPythonとRの両方を利用していますが、Python利用者の方が多いです。
コード管理はGitHubで行い、CI/CDにはGCPのCloud Buildを用いています。
またコンテナ技術としてはGoogle Kubernetes Engine(GKE)を用いています。
開発ツールについて
開発ツールは以下のようになっています。
ドキュメント管理はGoogle Workspace、プロジェクト管理はasanaを利用しています。
チャットツールはSlackを利用しています。
(部署外とのやり取りでは別のチャットツールを利用する事もあります)
また開発用PCは、それぞれの業務や使いやすさに合わせてMacbook ProとWindows PCを選べる形にしています。
さいごに
今回はバンダイナムコネクサスのデータ分析環境の紹介をしてきました。
紹介したような分析環境は整っているのですが、やりたい分析に対してデータ人材の数が足りていません。
現在データ人材を積極採用中ですので、少しでも興味を持って頂けたら気軽に話を聞きに来て下さい!