Amazonが運営しているクラウドサービスであるAWSで23日(金曜日)に大規模な障害が発生しました。AWSは世界各国にデータセンターを保有していますが、そのうち東京近郊に4群あるデータセンターの中で一つに問題が生じたと報道されています。
8月23日のお昼ごろに発生したようで、私自身はちょうどセブンイレブンでPayPayを使って買い物をしようとしていたところでした。なぜかログアウトされた状態になってしまい、決済でPayPayを使うことができず、急遽、IDで決済をしました。
復旧
午後6時39分に仮想マシンのEC2の大部分を復旧したとコメントが発表されて、次いで午後10時19分にリレーショナルデータベースサービスのAmazon RDSが復旧したと発表されました。今回のトラブルでは仮想マシン(EC2)の障害やディスクの性能低下、リレーショナルデータベース(RDS)の接続性に関する問題があったことが、ITProでは報道されています。
原因
今回のEC2の障害の原因については「冗長化された空調設備の管理システム障害」による冷却装置の故障だということです。温度上昇によりEC2用の一部のホストサーバーがオーバーヒートしてシャットダウンし、仮想マシンやディスクに障害が生じました。一方でRDSの障害の原因については同日午後11時時点で明らかにされていません。
影響
この障害に伴い本当にたくさんのサービスが影響を受けました。AWSが社会のインフラとして活用されていることがよく判る結果でした。報道されているだけでも、以下の企業で提供している一部のサービスに影響があったようです。
NTTドコモ関連会社のシェア自転車サービス
PayPayのスマホ決済
ユニクロの通販サイト
東洋経済新報社のニュースサイト
スターバックスのアプリ
ミクシィのSNSサービス
Freeeの会計管理サービス
日本ピザハットのネット注文
DeNAの球団サイト
日本通運のメールサービス
ジーユーのオンラインサイト、アプリ
ユニクロのオンラインサイト、アプリ
楽天のフリーマーケットアプリ
スマートニュース
SanSanの名刺管理サービス
huluの動画配信サービス
ローソンの公式アプリ
調べてみると、ここにあげ切れないほどの企業が報道されていました。
サービス提供者でできること
システムが何らかの要因で障害が発生するのは、クラウドであってもオンプレミスであっても変わらないことですが、システムが動かなくなったときに、業務継続が可能なように何かバックアップの仕組み(システム的な手段、手作業的な手段)を決めておくことが大切なのだと思います。
一方で、AWSのようにもはやデファクトスタンダードになったシステムで障害が発生すると、いろいろな企業で一斉にサービスを継続できなくなることは大きな脅威です。現時点ではまだ国家基盤的なサービスがAWSにのっていなかったので大混乱に陥ることはありませんでした。PayPayやhulu、フリマアプリなどが使えなくなったとしても、代替手段を使うか待つかの選択肢を諸費者はとることができます。しかし、今後、国家基盤でAWSの活用が進むと、お金の流通が滞って企業が倒産したり、年金を受け取れなくなったり、医療行為ができなくなったりといった大きな影響を受ける可能性があります。
報道によれば、国家基盤的なシステムでAWSを利用する動きが加速しているようです。

今回のような大規模障害が発生した際に国が提供するサービスが全面停止に陥ることがないような、一つのインフラに依存しないバックアッププランが必要なのではないかと思います。
【2019/09/30追記】
非常時のために複数のセンターを使う企業でも不具合が生じたことで、運用上の課題が見えてきました。会計ソフトのfreeeでは複数のAWSのセンターを使っていましたが、通常稼働していたセンターへの切り替えがうまくいかず、一部のサービスが停止してしまいました。今後はAWSとは別のクラウドを使うことも考えるとしています。
日経新聞によれば、今のところは大規模障害のあとも目立った顧客離れは起きていないようですが、BCP上の課題は残りますので、各社とも対策について考えているようです。
コメント