1
/
5

元SIerエンジニアの挑戦「SREで強い開発文化を作る」

Weblio辞書は月間2億を超えるトラフィックがあるサイトです。多くの方にWeblioをより安全に使っていただくために、2021年にSRE(Site Reliability Engineering)チームを発足させました。一人目SREとしてチームを立ち上げたのは、SIerからGRASグループにジョインした​​paprika-mah(パプリカ)さんです。サービスの開発現場で年々重要性を増すSRE。SRE、組織、プロダクトの関係性やこれからの発展ついて、話を聞いてきました。

◇略歴◇
paprika-mah(パプリカ)
開発部SREグループ
前職はSIerでソリューションアーキテクトとしてAWSの導入支援に従事。2020年に退職,し、カリフォルニア州の大学でCSの学位取得を目指す。2021年3月よりGRASグループに入社。 1人目SREとしてサイト信頼性や開発者の開発体験向上に従事。paprika-mahは筒井康隆の小説に由来。趣味は映画と楽器(ギター)

理想のエンジニアを目指してSIerから転職

— まず、自己紹介をお願いします!

2021年4月にGRASグループに入社しました。前職は新卒入社したユーザー系SIerでソリューションアーキテクトとしてAWSの導入支援などをしていました。

— GRASグループは2社目なんですね。SIerから事業会社へ転職されたきっかけはなんですか?

2019年にAWSのreInventというカンファレンス(ラスベガス)に参加したんです。そこで海外のエンジニアと会話したときに、自分の仕事内容を相手に説明したら「きみ、本当にエンジニアなの?」と聞き返されたんです。

自分はCS(コンピューターサイエンス)の学位も持っていないし、SIerの仕事は仕様書を作ったり顧客折衝がメインで、自分で手を動かすことは少ない。「エンジニアなの?」と聞かれたときに「エンジニアだよ!」と自信を持って答えることができませんでした。

そこから「自分はどういうエンジニアになりたいんだろうか」と、自分の仕事を見つめ直しました。出した答えが「ホンモノのエンジニアを目指す」です。そこで前職を辞めて転職活動を始めたんです。

— 30社以上からオファーがあったと聞きました。GRASグループに入社されたのは、なにが決め手になりましたか?

ひとつめはAWSファーストなSREエンジニアとしてキャリアを積みたかったので、ポジションがマッチしたこと。

次に好きなサービスの「中の人になれる」のも魅力でした。自分は外国語学部出身で英語が好きなので、Weblio辞書を愛用していたんです。辞書以外にも教育事業への関心も一致していましたし、GRASグループの理念と事業への共感は大きかったですね。

あとはフルリモートで働けることです。静岡在住ですし、パンデミックで外出が制限される状況でも支障なく働ける環境を希望していました。


reInvent(2019年)の様子

GRASグループの1人目SREエンジニア

— Weblio辞書を愛用してくださってたんですね!では、paprika-mahさんの現在の業務内容を教えてください。

ひとりSREチーム(※業務委託1名・副業エンジニア1名在籍)として、運用業務全般を見ています。主にインシデント対応やモニタリングですね。この業務はCSチームや開発チームとコミュニケーションをとりながら進めています。他にも非機能要件整理、例えばセキュリティ水準の再考などのインフラ業務もあれば、プロダクトのクラウドネイティブマイグレーションを進めるため、ベストプラクティス(12FactorApp)に沿ったアプリのリファクタリングなども行っています。

あとはプロダクトバックログリファインメントなどの定例MTGで、辞書サービスや英会話サービスの開発エンジニアと開発の進捗やボトルネックとなっている課題がないか話し合い、開発体験を支えるよう取り組んでいます。

— 1人目SREとしてチームを立ち上げられているところですね。開発部でSREチームはどのような役割ですか?

簡単にまとめると、サイトの信頼性を保つためにできることを何でもやるのがSREですね。

第一に、ユーザーに安定・安心してサービスを利用してもらえるように、サイトの信頼性を担保する役割です。障害を防ぐための運用や、セキュリティの確保も含まれています。サービスの信頼性の向上は事業を伸ばす上でも必要最低条件だと考えています。

次に、エンジニアの開発体験を向上させる役割も担っています。開発者が機能開発に集中できれば、結果としてプロダクトの品質向上にも繋がり、リリース後のトラブルも少なくなります。

— 当社の開発環境には課題があったのでしょうか?

はい、障害対応を充分に行える環境が整っておらず、アプリケーションエンジニアが機能開発に集中できないという課題がありました。ステージングの構成が異なるため現象を再現できなかったり、モニタリング体制が不十分だったりで、障害調査を迅速に行うための環境が不十分だったんです。

WeblioはADSL時代に創業した会社なので、技術的負債が生まれるのは避けられません。例えばサーバーリソースがベストプラクティスに準拠して構築されていなかったため、稼働率が上限に近かったり、逆に一部ではリソース過多で剰余コストが発生したりという状況が発生していました。

— 具体的に、どのようなことに取り組まれましたか?

やることが山積みだったので、限られたリソースの中で何ができるかを考え、優先順位をつけて始めました。中でもセキュリティの見直しには力を入れていて、WAFの導入や、アプリ側での改修作業などに着手しました。

ユーザーに安心してサービスを使ってもらうための初めの一歩はセキュリティの確保です。Weblioのサービスは1日あたり200万人を超えるユーザーが利用しているので、数時間サービスがダウンしただけでも大きな影響を与えてしまいます。9月にエラーが発生したときは、Twitterで「Weblioが止まって困ってる」という投稿をいくつも見かけて、影響度の大きさを肌で感じました。

もうひとつはモニタリングの開始です。メトリクス項目を見直し、デイリースクラムでCloudWatch Dashboradを活用した定点観測会の実施を始めました。現在はDatadogに移行して監視の幅を広げているところです。

運用が理想的な形で実施されていないことは大きな課題でした。サービスの信頼性の土台を作るのは、システムの可観測性です。システムを観察し、必要なメトリクスを取得できる状態になって初めて、インシデント対応や再発防止の仕組みづくりができるようになるんです。

SREを進めた結果、開発と運用の協力体制ができてエンジニアの生産性が改善されてきました。障害を未然に防ぐためプリモーテムなどのアプローチをとったり、障害発生時はオンコールを引き受け 迅速な復旧に務めることで、サイトの信頼性向上に成果が出ているかなと思います。


SREの導入で開発文化やチームづくりに新しい風を吹き込む

— SREはサービス開発の基盤をつくるんですね。一人目SREとして、他にも苦労したことはありますか?

最初に運用とSREの大切さ、SREは何をするのか、ということをメンバーに理解してもらう必要がありました。限られたリソースの中でSREはどこにコミットするのか、メンバーが想像する役割や期待することがそれぞれ違っていたので、そこの目線合わせから始めました。

初めてSREチームを置くということは、組織の在り方が変わるということです。組織が変われば、チームの動き方やエンジニアの考え方などの文化も変わります。技術面とソフトスキル的な面の両方に関わる取り組みをボトムアップでやるのには少し苦労しましたね。ヤフーでバックエンドを担当していたマネージャーが加入してからはトップダウンでのアプローチもできるようになったので、俊敏に動けるようになってきたと思います。今はビジネスサイド、開発、SREでだいぶ共通認識を持てています。

— 逆に、SREの0 =>1フェーズの面白さはどんなところにありますか?

自分の理想とする体制に向かってゼロから作ることができるのが大きな魅力ですね。現場での決定権はかなり大きいですし、幅広い裁量でやらせてもらえてありがたいです。例えばメトリクスの監視業務ひとつを取っても、様々なツールから技術選定をしますが、「paprika-mahさんが推すなら」と社内の有識者の意見としてすんなり受けいれてもらえます。

— 理想のお家を建てていくような楽しさがあるんですね。SIerと事業会社は働き方や仕事の進め方などが異なるイメージがあります。転職されてギャップを感じたことはありますか?

技術が好きな人に囲まれて仕事ができるのは大きいです!エンジニアリングを把握しているマネージャーと、エンジニアリングが好きなメンバーなので、同じ目線で仕事を進められますし、会話もスムーズです。

事業会社は合理的でアジリティがあるアプローチをとれるので、すごく働きやすいですね。前職ではSlackもGithubも禁止だったので。SIerには同じような状況の人も多いかと思うので、事業会社への転職を考えているエンジニアには「Githubは使い倒しておけ」と伝えたいです(笑)。

逆にSIer時代にコンサル業務で培った部署のオーガナイズや受注側としてのベンダー折衝などのスキルは、珍しいみたいで重宝されました(笑) 。ビジネスは開発だけではうまくいきません。エグゼクティブ層に企画を説明したり、ビジネスの話を開発に中継してメンバーが納得してアクションを起こせるようにしたりということも、ビジネスを進めるために必要なソフトスキルだとあらためて感じました。


「ないと困る」サービスの信頼性を預かるというチャレンジ

— Weblio辞書は月間2億のトラフィックがあり、英語を学ぶ人や言葉を調べる人にとってなくてはならない存在です。そのサービスの信頼性を担うというのは、とても重要な役割ですね。

膨大なトラフィックがあるサービスを安定して動かすことは大きなチャレンジですね。2億のログの後ろには2億のユーザーがいるということ。ドメインの強さを活かしながら、プロダクトをどう成長させるかの下支えが出来るのは、やりがいを感じます。EdTech業界は自分の志向性とも一致しているので、そこでSREができるのは楽しいです。

前職で運用していた業務システムと コンシューマ向けサービスでは、トラフィックの特性が大きく違うので、そこも日々勉強中です。例えば後者ではスパイクが青天井だったりするので。

— SREチームとして、どのような形で事業貢献ができるでしょうか?これからやりたいことを教えてください。

サイトの信頼性の向上とエンジニアの開発体験の改善を通して、既存事業の強化や新規事業のスケールに繋げていくのが、SREとしてのビジネス貢献だと考えています。プロダクトが社会にリリースするときは、SREチームが信頼性を保証し、ユーザの安全性が担保されてる形で送り出したい。

そのために、リファクタリングやマイグレーションを行ってプロダクトのクラウドネイティブ化を図り、SREのベストプラクティスに近づけていきます。モニタリングなどの運用業務では、SLI/SLOの遵守やエラーバジェット管理などを進めていきます。

— Weblioというサービスを持つGRASグループならではの取り組みもありますか?

膨大なログデータをビジネスインテリジェンス のアプローチで活用して、プロダクトのグロースを後押ししたいと考えています。個人的な目論見ですが、GRASグループには自然言語処理のエキスパートが複数いるので、NLU(自然言語理解)の分野も発展できるようMLOps的な下支えも目指したいです。

とはいえ、まだまだSREの前段階に躍起している段階なので、仲間に入ってもらって爆速でフルスタックに土木作業をやっていきたいです(笑)。

— GRASグループのSREチームはどんな方に向いている環境でしょうか?

SREエキスパートを目指している方や、SREの0=>1フェーズに興味がある方に向いていると思います。新しい技術が好きだったり、コードを書くことを厭わない人は働きやすいかと。

AWSファーストなSREとしてプロフェッショナル集団になるのが目標です。心理的安全性が担保されて、全員が課題解決に向けたアクションを起こし、自走できるチームを作りたいですね。 組織のあり方はプロダクトにも表れるので、チームビルディングは本当に重要だと感じています。

現役エンジニアと社会人学生の「AND」を追求

— paprika-mahさんは、社会人学生としてカリフォルニアの大学で学ばれているそうですね。どのような経緯で入学されたのですか?

前述のreInventというカンファレンスで、自分のSIerとしてのキャリアは海外ではエンジニアとして認められないことを知りました。

日本と世界では「エンジニア」の定義に大きな違いがあって、多くの国ではCSの学位を持っていない人が「エンジニア」と名乗ることは余りないと思ってます。海外で胸を張ってsoftware engineerを名乗ることが目標のひとつになったので、その第一歩としてCS(コンピューターサイエンス)の学位をとることにしたんです。

— 仕事と勉強の両立はハードですね…!現役エンジニアであることと、社会人学生であることは、相互にプラスの作用もありますか?

プラスしかないですね!CSの基礎知識は考えることや開発することのベースになります。大学で体系立てて学んでいくと、これまで持っていた知識への理解も深くなるので、効率良く業務を進められるようになりました

普段の業務で機能開発に携わることはないですが、大学ではゴリゴリにWEBプログラミングやUI/UXの授業があるので、そこでの学びが他チームとのコラボレーションにも生きています。

— インプットとアウトプットの理想的な循環ですね!

はい。海外の大学だと世界中の人とディスカッションして相互理解につなげられるので、コミュニケーション力も身につけられます。時間に余裕があるエンジニアにはぜひおすすめしたいですね(笑)。

私は複数の高度ベンダー資格を持っているのですが、こちらも学術的な知識のインプットに役立っています。これからは学んだ技術を活用して、技術発信などのアウトプットを増やしていこうと思っています。前職では社内事情でアウトプットが難しかったので。

— では最後にメッセージをお願いします!

GRASグループは長い歴史がありますが、現在は第二期創業期として新規事業への投資が活発で、とても勢いがある時期です。エンジニア組織も、開発部部長が就任し、まさにこれからというタイミングです。強い開発組織を一緒に作りましょう!

個人としては、会社の枠を超え、業界にまつわるユーザーグループやオープンソースソフトウェアの発展などを通して、エンジニアとしてお互いに高め合えるようになりたいと思っています。現在JAWS-UG SRE支部の運営メンバーとしての活動にも励んでいますが、コミュニティを推進してる人たちにもWeblioファンは多いです。そういった活動にも共感してくださる方だと、より嬉しいですね!


JAWS-UG SRE支部#1の活動より

-------------------------------------------
◇GRASグループ株式会社
https://gras-group.co.jp/

◇エンジニア採用情報
https://gras-group.co.jp/careers/info-engineer/

◇採用に関するお問い合わせ
recruit@gras-group.co.jp
-------------------------------------------

GRASグループ株式会社では一緒に働く仲間を募集しています

同じタグの記事

今週のランキング

内田 詩乃さんにいいねを伝えよう
内田 詩乃さんや会社があなたに興味を持つかも