SRE Lounge #11に参加した – inamuu.com

https://sre-lounge.connpass.com/event/151290/

場所：サイボウズ東京オフィス@日本橋

エウレカ原田さん

去年の新卒入社
11期目
ペアーズとかカップル向けの製品
「パフォ会」→パフォーマンス定点観測会
APIとインフラに触れるメンバーが参加
Slackのワークフロービルダーで通知してる
ファシリテーターを交替制にしてる
Datadogでダッシュボード化していて、上から順番に一週間分見ている
SLI→(総リクエスト数-5xxでかえった数)/総リクエスト
SLO 99.95%
エラーログのTOPを確認
SQLのスロークエリの件数/デッドロック件数
AuroraのPerformance Insightsもみてる
従量課金のコスト把握（コストエクスプローラーを見てる）
パフォーマンスの異常検知を確認
アラートの断捨離（アラートはDatadogに全て寄せてる）
Datadog Monitor Trendsでアラートの一覧が確認できる
指標化は大切
ツールの集約は大事→redashで可視化していたけど毎回入力していて大変だったけど、Datadogに集約できた
エンドポイントごとの集計だと辛いので、今のところはAPIエンドポイントに重み付けはせずに事業全体で数値をみてる→いずれはやりたい

サイボウズアオイさん

インフラ基盤プロジェクト
データが増加してる
新基盤Neco→k8sを主体
検索エンジンの移行
現状はESは1台でストレージで冗長→Necoにはクラスター構成にする予定
ElasticCloud on k8s(1.0 beta)
ECK使おうと思っている人→０！
indexサイズ制限してなかったために、めちゃくちゃでかいindexが生まれてしまった
indexのサイズごとにクラスターを分ける案を検討
デプロイにArgoCDを使う予定
環境ごとに設定を変えるようにkustomizeを使う予定
DockerレジストリはQuay.io
Quay.ioはセキュリティチェックもしてくれる
監視はPrometheusとGrafana
ログはまだこれから検討

Repro 荒引さん

ECS Auto Scaling
desired countを調整する必要がある
spot instanceを使う
https://github.com/reproio/ecs_deploy
Fargateを使用しない理由
- パフォーマンスが低い気がする
- RIやSpotInstanceが無い
- タスクの起動が遅い
- log driverがaws logs一択
  - Firelensが正式リリースされたので解消されたかも
- Fargateの本格導入検証ができていない
Auto Scalingグループ
- AZRebalance
Spot InstanceはAZは考慮されない
ECSだとCloudWatchのメトリクスが最大1分？
SREチームが機能開発や開発環境整備もやっている
１つのクラスターで10個くらいのサービス
BatchはFargate使用
Batchはスケールインの影響を受けない環境で稼働している

SRE NEXT

2020.1.25(土)
#srenext
2019.11.1(金) 12:00〜

Site Reliability Engineering

カテゴリー: Tech