■部署紹介
CIU(CyberAgent group Infrastructure Unit)は、 サイバーエージェントグループ全体のインフラを支える組織 です。Cycloud というブランドでプライベートクラウドを展開しており、OpenStack (IaaS)、AKE (KaaS)、ML Platform (機械学習基盤) など様々なサービスを提供しています。
■業務内容
機械学習基盤 ML Platformの開発・運用を行い、社内のAI系技術者やプロダクトの開発効率化・速度向上・コスト削減を支援しています。
ML PlatformではGPUインスタンスの払い出し、機械学習ジョブの実行、機械学習モデルのデプロイといった機能を提供しています。今後はこれらの他にもMLOpsを推進するための機能を開発していく予定です。またこれらのサービスは基本的にKubernetes上のアプリケーションとして作られており、基礎的な機械学習の知識に加えてKubernetesに対する深い知識も必要になります。
サイバーエージェントは技術選定が自由であるため、ユーザーとなる社内プロダクトがパブリッククラウドを使うかCycloudを使うかは自由です。その中でCycloudのML Platformを選択してもらうために、ユーザーの求めるUXや機能を備えたサービスを作るのが我々のミッションです。
具体的な仕事内容は下記になります。
1. 大規模な GPU Kubernetes クラスタの開発、運用
- 物理 GPU ノードのセットアップ(OS インストールやパラメーターチューニング)
- Kubernetes クラスタの構築・運用
- 定期的な Kubernetes クラスタのバージョンアップデート
- Kubernetes の最新バージョンに対するキャッチアップ
- 大規模計算クラスタのための技術検証・導入(NVIDIA H100, RoCEv2/RDMA, NCCL など)
2. AI 系の開発を支援する機械学習サービスの開発、運用
- GPU インスタンスや Jupyter Notebook を払い出すサービスの開発
- 各種機械学習フレームワークを用いたジョブシステムの開発(Pytorch/Tensorflow/etc.)
- 機械学習モデルのサーバーレスデプロイシステムの開発
- 機械学習のためのノード間分散ジョブシステムの開発(MPI)
- Kubernetes カスタムコントローラー(Go)の開発
- Kubeflow などの機械学習系エコシステムの検証・導入・コントリビュート
3. ML Platform の規模拡大
- 新規・既存社内ユーザーとの積極的なコミュニケーションや折衝
- ユーザーサポート(Python の学習スクリプトの調査など)
- AI 系技術や最新 GPU に対するキャッチアップ
- GPU リソースの需要調査や増設に向けた選定・導入
■求める人物像
- ソフトウェアからインフラまで幅広く興味があるエンジニアの方
- 向上心が高く、新しい技術の習得に対して抵抗がない方
- 良好なコミュニケーション能力により、チーム内や他部署と調整可能な方
- サービス、ユーザー中心で物事を考えられる方
- クラウドネイティブ技術に親和性のある方
- OSS のアップストリームを追従・貢献する気持ちのある方
■応募資格
【必須の経験・スキル】
以下全てを満たす経験をお持ちの方
- 計算機科学に対する基本的な知識および理解
- 機械学習や GPU に対する基本的な知識および理解
- Linux 環境における開発および運用経験
- Kubernetes などのコンテナオーケストレーションツールを用いた運用経験
- プログラミング言語を用いた 3 年以上の開発経験(Go が望ましい)
【歓迎する経験・知識】
以下の経験・知識を一つでもお持ちの方
- Kubernetes カスタムコントローラーの開発経験
- Kubernetes 各種認定資格の取得(CKA/CKAD/CKS/KCNA)
- 最新の機械学習やフレームワークに対する知識および理解
- HPC を目的とした大規模計算クラスタに対する知識および理解
- MLOps の知識・実践経験
- Kubeflow, Kueue, MPI Operator の知識・運用経験(分散学習の経験)
- Web API におけるセキュリティ対策の経験
- パブリッククラウド(GCP/AWS/etc.)の AI 系サービスを用いた開発経験
- フロント(React)の開発経験
- OSS コミュニティでの開発経験