SRE NEXT 2020に参加した話

昨日、豊洲フロントで開催されたSRE NEXT 2020というカンファレンスに参加してきました。 sre-next.dev

※ ちなみにこの画像は豊洲市場でカンファレンス前のお昼に食べた🍣で、内容には一切関係ありません。

SRE NEXTって何?

SRE によるコミュニティベースのカンファレンスです。 同じくコミュニティベースのSRE勉強会である「SRE Lounge」のメンバーが中心となり運営・開催されます。 https://sre-next.dev/

「SREの大型カンファレンス」としては日本初ということで、予想以上に規模の大きなカンファレンスでした。

興味深かったセッション

delyにおける安定性とアジリティ両立に向けたアプローチ

(dely株式会社 SRE/GM/VPoE / 井上 崇嗣さん) speakerdeck.com

「開発/運用」が「開発/SRE」になったからといって解消するわけではない

想定外の複雑さを最小限にする

開発速度も安定性も「想定外の複雑さ」に影響を受ける

「想定外の複雑さ」具体例として責任範囲が分離されていないクラスやAPI、複数の変更がまとまったリリースなどを上げられていましたが、 レガシーソフトウェアの運用を課題として抱えている自事業部と似たものを感じてしまいました。 おそらくクラシルというサービスもビジネスとして急成長し、信頼性が重要なフェーズに来ていて、同じような負債を抱えているのでしょう。

取り組みとして改善MTGや課題の洗い出し会など上げられていて、ぜひ実践してみたいと思いました。 「想定外の複雑さ」を結局人の目で測ってると感じてしまい、そこの定量化をどうするかが課題になりそうです。

Webサービスを1日10回デプロイするための取り組み

(面白法人カヤック / 藤原 俊一郎さん) speakerdeck.com

「1日10回デプロイする」ことをゴールとして、どのような取り組みをしたかシンプルにわかりやすく書かれていました。 テストの高速化、デプロイの自動化は当然思いつくところですが、単にそこで終わらずに、 自前のECSデプロイツールを作成したところや、エラー検知・デプロイの履歴管理まで踏み込んで発表されていたのが素敵でした。 espresso、使用を検討中です。

実践Observability

(株式会社ユーザベース Speeda / SRE Team Leader / 阿南 肇史さん)

www.slideshare.net

前半がObservabilityの理論的な話、後半がSPEEDAの環境(GKE + オンプレk8s)でどのように実現しているかの話。 前半の話、Observabilityの3要素(トレース、メトリクス、ログ)Datadogの発表でも聞いた覚えがあるけどどこが元ネタなんでしょう、監視入門とか? 後半は若干Howに寄っていて、他社での応用が難しい部分があったかもしれません。

前半でテストの観点が重要という話があり、どのような取り組みを実践しているのか質問したら詳しく教えていただきました。阿南さんありがとうございます! (急に質問した割にまとまってたから、後から削ったのかな…?)

  • Selenium・Istioを用いたE2Eテストの実施 質問回答を聞いただけだとイメージがわかなかったが、この記事に詳しくまとまっていた。 マイクロサービスの依存関係A→Bがある状態で、Aから見てBが落ちた状態を作れたりするらしい。 Istioでマイクロサービスのテスタビリティを向上させる - UZABASE Tech Blog
  • 社内アクセスのみ特別なヘッダを付与し、Blue-Greenでまだアクセスのないクラスターにアクセスを振り分け、テストを行ったりしている。
  • また、カオスエンジニアリングの一環として一部ネットワークを切り離してアラートのテストを行ったりすることもある。

SREがセキュアなWebシステムを構築、維持するためにやれることはなにか

(株式会社ミクシィ Vantageスタジオ みてね事業部 SRE/清水 勲さん) speakerdeck.com 教科書のように網羅的にSREにとってのセキュリティ観点がまとまっていて、取り組む人は一度見るべき!

分散アプリケーションの信頼性観測技術に関する研究 / A study of SRE

(さくらインターネット株式会社 / 坪内さん) speakerdeck.com "自動化すればするほどソフトウェアが複雑になり認知負荷が高まる。" そういうジレンマありますね。

スクラムを1年回してSREと開発組織がどう変わったのか

(株式会社ビズリーチ / 伊藤 理人さん) speakerdeck.com 手前味噌ですが… タスクの属人化/課題の優先度つけなど悩んでいる方はぜひご一読を。

40,000コンテナのPrivate PaaSを実現するために必要だったこと

(Yahoo株式会社) https://techblog.yahoo.co.jp/entry/20191222793763/ オンプレミス環境でいかに安定したコンテナ基盤を提供するかという話で、SREといっても弊社と全く違う取り組みをしていて新鮮味を持って聞けました。

全体的な感想

SREという分野自体がまだ新しいもので、原著のSRE本が世に出たのが2016年、日本語版は2017年、 わずか3年あまりですが、組織としてSREを取り入れる会社は急速に増えています。 それはWeb系の業界で人材を獲得する上で「SREブーム」みたいなところがあったのもあるかもしれないし、 ただそれを一過性で終わらせない、きちんとSREの本質を考えた発表が多くあり、よい動きだと感じました。

SREの原則に立ち返って本当に自社の課題を解決するにはどうすればいいのか、試行錯誤している そんな発表をいくつも聞けたのは非常に大きな収穫でした。

気付きとして
  • SREの責務の捉え方、人によってちょっと違う感じがする

    • 事業よりの人は、SLOを最低ラインとして維持しつついかに開発速度を高めるかがSREの責任と考える傾向にある(1日10回デプロイするぞー!)
    • 全社を支える基盤よりの人は、信頼性の高い基盤をいかにして提供するかがSREの責任と考える傾向にある(40000コンテナの社内PaaS提供、Blue-Green仕組み導入)
  • でも共通認識として、ここらへんは浸透している

    • 価値観/ベストプラクティスはSRE本や監視入門から取り入れている
    • ただ単に運用チームの名前を変えただけではSREにならない
  • SREが抱える課題や技術要素を整理する軸って思ってた以上に色々ある

最後に

SRE NEXT運営の方々、発表者の皆様、参加された方々ありがとうございました。 懇親会含め体験として非常によかったので、ぜひ次回も参加したいです。

こちら発表資料のまとめです。 @Hassanさんありがとうございます! 【SRE Next 2020】発表資料まとめ - Qiita

おまけ

現場で課題と感じてることアンケート。 僕は全部の項目にシールを貼りたくなりました。皆さんはどうですか?

f:id:Hoo:20200126165757j:plain
https://twitter.com/melious/status/1221047662281015298/photo/2

SRE NEXTで一番いい話

寿司に行くことにしたきっかけツイート

ちなみに冒頭の写真は寿司処 やまざきのものです。

懇親会の食事も豪華で控えめに言って最高でした。