東京都大田区のコンピューターシステムで障害が発生し、住民記録システム、国保年金システム、税務システム、介護保険システム、生活保護システムが使用不可となるトラブルが令和5年10月9日から10日未明にかけて発生しました。
そのトラブルの原因は情報システム基盤を構成している外部記録媒体(SSDストレージ:半導体記憶装置)のうち3本がほぼ同時に故障したことによるものです。このトラブルによりシステムのデータが全損してシステムが使用できない状態になりました。その後、懸命に復旧作業が進められて、下記の順番で復旧しています。
- 10月10日(火曜日)住民記録システム、国保年金システム、税務システム、介護保険システム、生活保護システムが使用できない状態が発生
- 10月12日(木曜日)住民記録システム、国保年金システム、税務システムが復旧
- 10月15日(日曜日)介護保険システム、生活保護システムが復旧
- 10月18日(水曜日)システム停止期間中に受け付けた処理が完了(完全復旧)
区民および事務に対する影響は下記の通りです。
(1)証明書類等の発行の保留:8,209件
⇒後日郵送にて対応済み
(2)届出等のデータの反映の保留:5,435件
⇒システム復旧後に遡及して入力し対応済み
(3)その他(システム連携の遅延の影響等):934件
⇒システム復旧により解消
SSDが1本故障した程度であれば、ミラーリングされているディスクで業務が続行できることが普通です。また、平成31年から稼働している大田区の情報システム基盤ではSSDの2本の故障までは耐えうる構成にしていたということなので、システムの信頼性設計に問題があったわけではないと思います。
今回のように3本ほぼ同時の故障となると、システム停止に至ることは、他のミッションクリティカルなシステムも含めて致し方のないことです。また、このうような状態になってしまうと、SSDの在庫を取り寄せて不良品と交換するだけではなく、前営業日等にバックアップをしておいたデータを全てリロードする作業をしなければいけません。もしも、失われてしまったトランザクションがあったとすると、ジャーナルデータからの復元で最新の状態に戻す必要もあります。復旧後のテストも含めて考えれば、数日間、システムが使えなくなってしまったことは時間を要しているようにも見えますが、決して復旧期間が長すぎるわけではありません。(日経の記事によれば、3本のSSDとは別に予備として取り寄せたSSDまで故障してしまったということです)
それではなぜ、SSDがほぼ同時期に3本も故障したのか?ということが問題になります。メーカー(日本電気)の調査によれば、今回の障害についてはSSDの特定のバージョンの製品にのみ発生するものでした。製品のファームウェアに関するバージョンアップに関する情報等が、メーカーの製造部門から同じメーカーの運用保守部門へ案内があったにもかかわらず、大田区に対しては情報が提供されずに大田区情報システム基盤の更新が行われていませんでした。
大田区によれば再発防止策として、故障したものと同じバージョンを用いているSSDは全数を交換、万が一の同様の故障に迅速に対応できるように保守拠点において交換用SSDを複数確保、各部局におけるICT-BCPの見直しと、職員のICTに関する専門的知見の習得と向上、将来的には情報システム基盤のクラウド環境への移行を行うとしています。
また、日本電気との間では、区民に対して一部の証明書発行業務等の窓口サービスを提供することが
できなかったことにより発生した区への損害賠償債務として総額4,868,437円を支払うことで和解されています。
今回、重要な故障に発展する不具合改善の情報が大田区と共有できていなかったことは大きな問題ですが、たとえ情報を共有できていたとしても、どのタイミングでSSDの交換やデータの復元、試験などを実施するかも頭の痛い問題だったのではないかと思います。
また、再発防止策の中で、クラウドにすることが挙げられていますが、所詮はクラウドで用いられている外部記録媒体もSSDやハードディスクであったりするので、同様の障害が発生する可能性はゼロではありません。AWSなどの大きなクラウド事業者で障害が発生すると、他のシステムも含めて障害が発生することになるので、社会的な影響という意味ではより深刻になる場合があります。
DXが進展するのに伴って、より生活の中でコンピューターが活用される場面も増えていくので、製品一つ一つの信頼性を高めることと、ある装置が故障してもシステム全体で見るとカバーが出来てサービスを中断させなくて済む技術の開発が大切になりそうです。
コメント