layer-019-WhyTheSystemGoesDown

Sep 1, 2019

AWS is Down…


AWS東京リージョンがシステム障害によりダウンした. これを聞いて世の知識がない人たちは口を揃えてこう言う. 「やっぱりクラウドは安全じゃなかった」 「AWSから他のクラウドサービスへ乗り換えよう」 もしあなたの家族友人または同僚がそう言ったならば間違いを指摘してあげるべきだ. なぜかって? 無知をさらけ出し恥ずかしいことを言っているからだ.

今回はクラウドサービスであろうとなかろうと関係なく起こるということを解説していく.

システム障害の原因

熱暴走のイメージ

熱暴走のイメージ

AWSの大規模障害の全容はこうだ. 東京リージョンに含まれる特定のゾーンにて冷却システムが故障した. それにともないデータセンタ内の温度が上昇しシステムダウンを引き起こした. AWSのシステムがダウンしたことによりホスティングしていた顧客の各種サービスが停止することになった.

冗長構成にしている冷却システムの一部が故障した 通常フェイルオーバーするはずがシステムにバグがあり正常実行されなかった オペレータは手動でパージモードと呼ばれる熱排出の操作を実行したが失敗した 室内温度が上昇しサーバがダウンした 上記がシステム障害にいたった経緯だ.

物理層のハードウェアレベルの障害であることがわかる.

クラウドサービスは”安全”ではないのか?


結論:そんなことはない,オンプレミスのほうがむしろひどい場合もある

まずクラウドサービスといえど結局は実体としてデータセンタという物理的なホスティングサービスがあり,オンプレミスと同じく必ず物理面と人力という側面がある.

ただ自社でオンプレミスサーバを持ち運用するということは全て自己責任で,全てのメンテナンスを自前で行い,全ての障害に対応する必要がある. 今回のAWS東京リージョン障害と同様の,冷却システムエラーがオンプレミスサーバで起こったことを想定しよう.

  • 冷却システムをチェックし部品を交換しなければならない
  • 熱の排出をしなければならない
  • ハードウェアのチェックをしなければならない
  • システムがアップしてもデータの整合性を確認しなければならない
  • データが破損していた場合は顧客と向き合わなければならない

本当にあなたはこれらに対処できるのだろうか? 下手すればそのダウンだけで倒産するかもしれない. 復旧にわずか数時間で対応できないかもしれない. それらをまったく考慮せず,オンプレミスでは起きないとトンチンカンなことを言うのであればエンジニアを辞めた方がいい. それらをきちんと経営陣に説明できないのであればそれはもう退職したほうがいい.

他のクラウドサービスは”安全”なのか? Azureでも起きるのか? GCPでも起きるのか? IBMでも起きるのか?

結論:YES

絶対に起きる. これはクラウドサービスなんて関係なく起きる. 人の手が介入した時点で起きる. 起きると想定しなければならない. システムとは落ちるものである. オンプレミスでもなんでも,必ずそうなっている.

障害が起きることを想定して設計し,契約し,運用しなければどんどんと新たな障害が起きることになる. なぜなら障害は起きるものだからだ. だからと言って適当な設計をしていいというものでもない. 「起きる可能性をなるべく潰す」というのが正しい設計だ. 「起きたときどうすべきなのかを決める」というのが正しい設計だ. 起きた時では遅すぎるのだ.

まとめ


システムは必ずダウンする(オンプレミスでもクラウドサービスでも!) ダウンする原因を減らすのが正しい設計だ ダウンしたときの対処を決めておくのが正しい設計