インフラエンジニアの運用業務を見直してみた

2010年中途入社のインフラエンジニアの【103】です。

 

現在弊社はサイバーエージェントのゲーム事業に携わる子会社が所属する

SGE (Smartphone Games & Entertainment) という組織に属していて、私はその各子会社が運用しているサービスの中でも大規模かつ長期運用しているサービスのインフラを担当しています。

 

いつの間にか弊社の中では古株かつ老体の部類に入るポジションになってきた気がしている今日この頃、流行りの技術的な話は若手に任せることにして、今回は長期運用しているサービスでのインフラエンジニアの運用業務を改善した例を1つ紹介してみます。インフラエンジニアにはこういうことを考えたり改善したりする人もいるんだなと思ってもらえたら幸いです。

担当サービスの運用状況

冒頭にも書いた通り「大規模かつ長期運用」しているサービスを担当していますが、リリース当初に比べると比較的インフラ面では安定した日々が多くなっています。とはいえ大規模=サーバ台数が多い故に、物理的な故障などの細かい問題が起きてアラートメールが携帯やチャットツールに届くことがちょこちょことあります。

そんなときインフラエンジニアは基本的には状況確認とログ調査を必要に応じてするのですが、何故か深夜/早朝/休日や電車内にアラートが来ることが多かったりします。

以前のアラート対応例

例えば電車で帰宅中にアラートが携帯に届いたとき以下のような対応をしていたことがありました。

 

  1. 電車を降りてホームのベンチに座ってPCを開く
  2. 会社支給のモバイルルータの電源を入れてネットに繋ぐ
  3. 問題の状況確認 (必要に応じてログ調査)
  4. 一瞬で問題が収束していたので急ぎの対応は不要だった

このようなケースが休日の出先でも起きたりするわけです。

見えてきた運用課題と解決案

改めて以前の対応例を振り返ってみるとこんな課題がありました。
解決案は課題の逆のこととも言えるのではないかと考えて単純な案を出してみました。

  • 課題

    1. PCを開ける場所に移動するまでに時間が掛かる
    2. モバイルルータを起動してネットに繋ぐまでに時間が掛かる
    3. 状況確認やログ調査に時間が掛かる

  • 解決案

    1. PCを開く必要を無くす
    2. モバイルルータを起動する必要を無くす
    3. 状況確認やログ調査を簡単かつ早くできるようにする

この課題と解決案をまとめてみると
「時間が掛かって対応が遅れる」ので「時間が掛からないようにする」

これを満たせば改善できるのではないかというところに着地しました。
偉そうに書いていますが本当に単純にこれだと思ったのです。

  • 解決方法

課題1と2は「スマホを手にする」だけで解決できそう。
課題3は「スマホのブラウザで確認と調査可能にする」で解決できそう。

根本的にアラートをなくしたら良いのではないかという話は当然ありますが、色々な運用状況を考えた結果、

 

【スマホで状況確認とログ調査を可能にする】

 

今回はこの解決方法を取ることに決めました。

実際に作ったツールのイメージ

スマホで実行/閲覧できるツールのイメージはこんな感じです。

ツール全体-2

片手間感が満載ですが・・・現在は以下のような機能を作ってあります。

 

  • ログ調査
    画面を数タップするだけで初動に必要な調査をJenkinsのJobで実行可能
    実行結果をメールとchatworkに通知で確認可能
  • 状況確認
    問題が継続or収束しているかをKibanaで確認可能
  • その他
    某サービスの定期処理のステータスをリアルタイムで確認可能
    過去の各種集計結果を確認可能

現場からの喜びの声

現場からは

 

「よくツールの◯◯機能使ってます!」
「アラート来てもPC開かないケースが増えたのでラクになりました!」
「沢山あるサーバにログインせずにパッとステータス確認できて幸せ!」

 

という声を聞くことが少しずつ増えてきました。

 

ただ今まで使っていなかったツールは実際に使う人達に浸透させていくことが大切なので、関係各所への布教活動を今後も続けていきます。

まとめ

今回のような課題に対しては、外部サービスを使って解決できるものはそうすれば良いですし、外部サービスでは対応しきれない場合は今回のように自分で環境を作ってしまうのも良いと思います。

 

長く運用しているサービスの場合、サービスが安定してくると改善に対する意識が薄くなることも多かったりしますが、そういう時でも今回書いたように改善できるポイントはまだまだ沢山隠れているかもしれないので、改めて1つ1つの業務/対応を振り返ってみては如何でしょうか!

 

株式会社Sumzap 採用情報

 

 

  • このエントリーをはてなブックマークに追加