[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。
最近、障害発生時にあがってくる恒久対応策に対してフィードバックコメントを返す機会が多い。以下の場合はだいたい突っ返している。
だが、運用に直に入っていない人間が恒久対応策の話を聞いても的外れなフィードバックを返してしまうこともある。運用に入って実情を知れていればいいのだが、そうでない場合は当人と会話してコンテキストの差を埋める方がよい。
本番環境におけるトラブル対応が難しい。実際にはトラブル対応そのものはちゃんと動くのだが、しばしば記録がちゃんと残されない。トラブル対応を担当した人はその記録を残すだけの余力がないのである。
Google - Site Reliability Engineering Chapter 14 - Managing Incidents において本番環境におけるトラブル対応について以下の4つの役割からなるチームで行うことを提案している。なるほど、手分けすれば記録もできそうだ。
- Incident Command
The incident commander holds the high-level state about the incident. They structure the incident response task force, assigning responsibilities according to need and priority. De facto, the commander holds all positions that they have not delegated. If appropriate, they can remove roadblocks that prevent Ops from working most effectively.
- Operational Work
The Ops lead works with the incident commander to respond to the incident by applying operational tools to the task at hand. The operations team should be the only group modifying the system during an incident.
- Communication
This person is the public face of the incident response task force. Their duties most definitely include issuing periodic updates to the incident response team and stakeholders (usually via email), and may extend to tasks such as keeping the incident document accurate and up to date.
- Planning
The planning role supports Ops by dealing with longer-term issues, such as filing bugs, ordering dinner, arranging handoffs, and tracking how the system has diverged from the norm so it can be reverted once the incident is resolved.
なんとなく日本語で楽に書くと以下の感じになるだろうか?
現時点での私の感覚的には役割がちょっと細分化されすぎている印象を受けた。Incident Command が Communication と Planning を担えば私が今やっているお仕事の範囲であれば十分な気がしたのである。しかし、2つの役割には分けたい。対処を行いながら記録や関係各所への連絡までやる、というのは少々無茶が過ぎる。
しかし、トラブル対応を2人体制で行うための人員を捻出することが果たして可能なのか怪しいのではないか、という見解もある。人が単純に足りていないのもあるとは思うが、それに人を費やした際に得られる成果はせいぜい 1.5 人分ではないのか?という指摘を他の人から頂いたし、自分も少し感じている。人を分けることで得られるメリットは「ステークホルダーとの連絡がスムーズ」「トラブルの記録がきっちり取られやすい」があると考えている。これがのこり 0.5 人分ないしそれ以上のメリットを生み出せると断言できれば良いのだが。
2人体制でやる、となれば「姉妹制度」とか「ロッテ」とか呼びたい。なお、後者はドイツ語である。
最近、英語の本を読んでいてしばしば「page」とか「pager」という単語が出てきた。これの意味が分からずググってみた所 pager はポケットベル(ポケベル)のことらしい。page は通知のことらしい。
現代においてはポケットベルではなくてスマートフォンのことを指すのだろうなぁ、実際は。
「他の子には内緒だよ」と共有した情報が流れていた、そんなのはままよくある。子供のうちはまぁ良い。良くはないがここでは良いとする。問題は大人の話だ。大人が何なのかは分からないが、あなたが考える大人だ。例えば前に出した Deny リストの共有。共有した先で再度共有された場合、Deny されている本人に伝わるかもしれない。するとブラックリストを最初に出した人はそれなりになんかされるだろう。こわい。
そこで秘密保持のルールを決めたりすると良さそうである。会社と会社の間ではしばしば「NDA」なるものを結ぶ。NDA は Non-Disclosure Agreement の略であり、外に漏らされてはまずい情報を誰かに渡す際に、渡す誰かと結ぶ契約である。
異なるコミュニティ間で危険人物情報を共有する場合などには NDA 程ちゃんとしたものでなくとも、情報をどこまで漏らしてよいのかのルールを互いに決めておいた方がよいだろう。NDA の文例等をその際の参考になるかもしれない。ただし、漏らした際の罰則については定めるのが難しい。複数コミュニティの集まりであれば、漏らしたコミュニティそのものがブラックリスト掲載されるとかありそうだが、1対1だとそうもいかない……