サービスの運用改善に必要な業務をSRE(Site Reliability Engineering)担当として、サービスの信頼性向上のために広く携わって頂きます。
弊社では、ID数7000万を超えたpopinfoを初め様々なサービスを提供していますが、ユーザーの増加に伴ってより信頼性の高いサービス水準が求められています。これまではプロジェクトごとに解決していましたが、横断的に改善をしていく必要があると判断してチームを発足しました。
サーバ・ネットワークの構築・運用、システムの自動化や障害対応などインフラ的な業務に加えて、システムのパフォーマンスや信頼性、スケーラビリティを向上させるため開発・運用なども携わっていただきます。すでに商用環境でDockerを運用しているなど、新技術への導入にも積極的で、速度と品質のバランスが取ることができれば、積極的に挑戦できる環境です。
【具体的な業務内容】
・デプロイの効率化 (Green/Blueデプロイ等 より安全で高速なデプロイの導入)
・リソースモニタリングの高度化 (現在muninを利用していますが限界を感じています)
・アプリケーションログモニタリングの高度化 (エラーログ、操作ログなどの定量的な分析など)
・インフラの高密度化 (Docker等を活用し、インフラリソースの効率的な利用を主導する)
【開発環境】
・開発言語:Python2,3(Django) , Go
・OS:Linux
・DB:MySQL , Amazon DynamoDB
・ツール:Docker , Ansible , Datadog , Elasticsearch, fluentd, nginx
・ソースコード管理:Git , GitLab
・コミュニケーション:Slack
・インフラ:AWS(EC2,RDS,S3,API Gateway,Lambda)
・支給マシン:予算の範囲で好きなものをご用意いたします。
【開発手法/開発物】
・Git と GitLab (GitHubクローン) によるPullRequestベースの開発手法を取っています。
・開発速度と品質のバランスが取ることができれば、新しい技術にも挑戦できる風土があります。
【エンジニアチームの雰囲気】
・ワークライフバランスが取れているメンバーが多い環境です。
20名規模の組織ですが女性エンジニアが2名所属、既婚者も約10名います。
・issueを残す文化が有り、言った言わないのトラブルが無いような仕事の進め方をしています。
・適切な技術をスピード感を持って採用できる風土があります。
すでに、GoやDockerなども既に商用環境で稼働しています。
・スキルアップ支援していて、支障がなければ日中の勉強会への参加を認めています。
・社内LT会を不定期で開催したり、Kubernetes社外向け勉強会をしているメンバーなどもいます。
【必須要件】
・Webアプリケーションの開発・運用経験
・コードによるインフラ構成管理経験(例: Ansible, Chef, Docker)
・クラウドインフラを利用したインフラ構築経験(例: AWS,GCP,Azure)
【歓迎要件】
・Python、Goに対する強い興味、理解または業務のご経験
・Linuxへの深い知識
・Datadog / Sensu / NewRelic などのモニタリングプラットフォームに関する理解
・Elasticsearch / Fluentd / Kibana 等 ログの集約・視覚化基盤への理解
・MySQL / Memcached / Redis / RabbitMQ などのミドルウェアを用いた開発および運用経験