今日の未明から全日空の国内線システムで障害が発生し、全国の空港で予約、発券、搭乗手続きが行いにくくなったため、全日空の飛行機の運航ダイヤが大きく乱れたという報道がニュースを賑わせていました。
2週間かけてセンターのホストコンピューターと業務用端末を接続するためのシステムの更改作業を続けてきて、24日に完了したばかりのようですが、この作業の中、または適用したソフトウエアの欠陥などの何らかの原因があったようです。
コンピュータシステムの更改を行う際は単純にハードを置き換えることに留まらず、場合によってはアプリケーションの修正や環境の修正を実施する場合があります。環境やプログラムを直した後は入念にテストを実施しますが、必ずしも100%の本番運転状態を再現できなかったり、試験観点の考慮漏れ等の影響で、サービス開始後に障害が発生する場合があります。
このような障害が発生した場合に備えて、ミッションクリティカルシステムでは何らかの代替手段を準備(例えば、更新前のシステムを稼働させるなど)をしておくことが通例ですが、今回は緊急時のプランをどのように考えていたのかが気になるところです。
結局は100便以上が欠航し大きな混乱を招いてしまいました。ニュースなどを見ていると、更新する前のシステムで順次切り戻し作業を実施していき、所定の処理能力が発揮できるようになったようで、午後6時には飛行機の運航を再開したとのことで、全日空のシステム開発をしている多くのエンジニアは相当苦労したものと思われます。
システムが徐々に巨大化してきており、接続するシステムも多岐にわたっているため、なかなか、本番運用と同等の条件で試験をすることが難しくなってきていると思います。しかし、このように複雑な状況になっているからこそ、ミッションクリティカルなシステムならばコストをかけてでもサービスの開始前に本番同等の条件で試験を、時間をかけて実施することが重要なことなのでしょう。
【2022/02/20追記】
JALでもシステム障害
2022年2月16日早朝にJALの搭乗手続き(チェックイン)や予約などを管理するシステムに障害が起きました。社外とのネットワークを接続する機器の故障が原因でした。
システムはその日の昼過ぎに復旧しましたが、国内線49便が30分以上遅延し、合計4125人に影響が出ました。
システム障害の最中では空港のカウンターでスタッフにより搭乗手続きや航空券の発券作業が行われました。
半日もシステムが止まったのにこれだけの被害で済んだのは、日常の訓練の効果もあったのではないでしょうか。
コメント