SRE Lounge #11に参加した

https://sre-lounge.connpass.com/event/151290/

場所:サイボウズ東京オフィス@日本橋

エウレカ 原田さん

  • 去年の新卒入社
  • 11期目
  • ペアーズとかカップル向けの製品
  • 「パフォ会」→パフォーマンス定点観測会
  • APIとインフラに触れるメンバーが参加
  • Slackのワークフロービルダーで通知してる
  • ファシリテーターを交替制にしてる
  • Datadogでダッシュボード化していて、上から順番に一週間分見ている
  • SLI→(総リクエスト数-5xxでかえった数)/総リクエスト
  • SLO 99.95%
  • エラーログのTOPを確認
  • SQLのスロークエリの件数/デッドロック件数
  • AuroraのPerformance Insightsもみてる
  • 従量課金のコスト把握(コストエクスプローラーを見てる)
  • パフォーマンスの異常検知を確認
  • アラートの断捨離(アラートはDatadogに全て寄せてる)
  • Datadog Monitor Trendsでアラートの一覧が確認できる
  • 指標化は大切
  • ツールの集約は大事→redashで可視化していたけど毎回入力していて大変だったけど、Datadogに集約できた
  • エンドポイントごとの集計だと辛いので、今のところはAPIエンドポイントに重み付けはせずに事業全体で数値をみてる→いずれはやりたい

サイボウズ アオイさん

  • インフラ基盤プロジェクト
  • データが増加してる
  • 新基盤Neco→k8sを主体
  • 検索エンジンの移行
  • 現状はESは1台でストレージで冗長→Necoにはクラスター構成にする予定
  • ElasticCloud on k8s(1.0 beta)
  • ECK使おうと思っている人→0!
  • indexサイズ制限してなかったために、めちゃくちゃでかいindexが生まれてしまった
  • indexのサイズごとにクラスターを分ける案を検討
  • デプロイにArgoCDを使う予定
  • 環境ごとに設定を変えるようにkustomizeを使う予定
  • DockerレジストリはQuay.io
  • Quay.ioはセキュリティチェックもしてくれる
  • 監視はPrometheusとGrafana
  • ログはまだこれから検討

Repro 荒引さん

  • ECS Auto Scaling
  • desired countを調整する必要がある
  • spot instanceを使う
  • https://github.com/reproio/ecs_deploy
  • Fargateを使用しない理由
    • パフォーマンスが低い気がする
    • RIやSpotInstanceが無い
    • タスクの起動が遅い
    • log driverがaws logs一択
      • Firelensが正式リリースされたので解消されたかも
    • Fargateの本格導入検証ができていない
  • Auto Scalingグループ
    • AZRebalance
  • Spot InstanceはAZは考慮されない
  • ECSだとCloudWatchのメトリクスが最大1分?
  • SREチームが機能開発や開発環境整備もやっている
  • 1つのクラスターで10個くらいのサービス
  • BatchはFargate使用
  • Batchはスケールインの影響を受けない環境で稼働している

SRE NEXT

  • 2020.1.25(土)
  • #srenext
  • 2019.11.1(金) 12:00〜