https://sre-lounge.connpass.com/event/151290/
場所:サイボウズ東京オフィス@日本橋
エウレカ 原田さん
- 去年の新卒入社
- 11期目
- ペアーズとかカップル向けの製品
- 「パフォ会」→パフォーマンス定点観測会
- APIとインフラに触れるメンバーが参加
- Slackのワークフロービルダーで通知してる
- ファシリテーターを交替制にしてる
- Datadogでダッシュボード化していて、上から順番に一週間分見ている
- SLI→(総リクエスト数-5xxでかえった数)/総リクエスト
- SLO 99.95%
- エラーログのTOPを確認
- SQLのスロークエリの件数/デッドロック件数
- AuroraのPerformance Insightsもみてる
- 従量課金のコスト把握(コストエクスプローラーを見てる)
- パフォーマンスの異常検知を確認
- アラートの断捨離(アラートはDatadogに全て寄せてる)
- Datadog Monitor Trendsでアラートの一覧が確認できる
- 指標化は大切
- ツールの集約は大事→redashで可視化していたけど毎回入力していて大変だったけど、Datadogに集約できた
- エンドポイントごとの集計だと辛いので、今のところはAPIエンドポイントに重み付けはせずに事業全体で数値をみてる→いずれはやりたい
サイボウズ アオイさん
- インフラ基盤プロジェクト
- データが増加してる
- 新基盤Neco→k8sを主体
- 検索エンジンの移行
- 現状はESは1台でストレージで冗長→Necoにはクラスター構成にする予定
- ElasticCloud on k8s(1.0 beta)
- ECK使おうと思っている人→0!
- indexサイズ制限してなかったために、めちゃくちゃでかいindexが生まれてしまった
- indexのサイズごとにクラスターを分ける案を検討
- デプロイにArgoCDを使う予定
- 環境ごとに設定を変えるようにkustomizeを使う予定
- DockerレジストリはQuay.io
- Quay.ioはセキュリティチェックもしてくれる
- 監視はPrometheusとGrafana
- ログはまだこれから検討
Repro 荒引さん
- ECS Auto Scaling
- desired countを調整する必要がある
- spot instanceを使う
- https://github.com/reproio/ecs_deploy
- Fargateを使用しない理由
- パフォーマンスが低い気がする
- RIやSpotInstanceが無い
- タスクの起動が遅い
- log driverがaws logs一択
- Firelensが正式リリースされたので解消されたかも
- Fargateの本格導入検証ができていない
- Auto Scalingグループ
- AZRebalance
- Spot InstanceはAZは考慮されない
- ECSだとCloudWatchのメトリクスが最大1分?
- SREチームが機能開発や開発環境整備もやっている
- 1つのクラスターで10個くらいのサービス
- BatchはFargate使用
- Batchはスケールインの影響を受けない環境で稼働している
SRE NEXT
- 2020.1.25(土)
- #srenext
- 2019.11.1(金) 12:00〜
<p style='padding: 5px;'>