2016年03月23日
ANAのシステムトラブル やっと復旧 システム依存の社会における障害対策とBCPの重要性
トラブルの内容は以下の通り。
全日本空輸の搭乗手続きや予約販売を行うシステムに障害が発生し、全国の国内線で搭乗手続きができなくなりました。
午後9時になってもまだ、146便が欠航、391便が遅延しており、計7万1900人に影響した。
ANAによると、データベースサーバーの端末4台が相次いでダウンしたために、空港での搭乗手続きやインターネット上での予約販売ができなくなったということです。
※朝日新聞DIGITALの記事より(http://www.asahi.com/articles/ASJ3Q3698J3QUTIL005.html)
ANAだし当然、障害復旧用の対策をしっかりしていたかと思うのですが、それでも窓口だけでも復旧までに3時間ちょい。全体のシステム復旧に至っては、18時間以上もかかったとのこと。
担当者によれば「端末間で情報を共有する機能に不具合が起きた可能性が高い」ということだそうですが、控えの端末を起動したときに発生した事象でしょうか。
サーバー周りは情報のやり取りがシビアなので、復旧の難易度も上がります。
トラブルにより影響を受けた方々も大変だったかと思いますが、やはり仕事柄、同業のシステムエンジニアの方々を応援したい気持ちになってしまいます。ほんと復旧おめでとうございます。お疲れ様でした。
システムトラブルは、システムを使う以上、避けては通れないものです。
個人経営の会社さんでも、最近は大体何らかのシステムを使っておられるでしょう。
私も中小企業の社内システムを管理していますが、たくさんのシステムを使用しています。出勤簿や会計システム、生産管理、販売管理、購買管理...数えれば相当あります。
これらのシステムが倒れたとき、うちの場合は製造業なので生産がストップします。
ストップするということは、ストップした分儲けが減ります。計画された生産高と比較すると損失になります。客先の納期が守れないなどの信頼の失墜につながります。
なんで、システムが止まるなんて大問題です。
うちのような中小企業でも大問題なので、今回トラブルが起こったANAはえらいことだったと思います。これからの対応がさらに大変でしょう。
だからこそ、通常は、止まってもらっては困るサーバやシステムに関しては特にですが、バックアップサーバを立てたりしてすぐに復旧するモデルを構築します。
でも、今回のANAのトラブルの場合は、おそらくそういった対策をしていてもすぐには復旧できなかった。
そんなこともあると思います。
「絶対倒れない」なんてもんはないのです!
そこで重要になるのがBCP(Business Continuity Plan=事業継続計画)。
そもそも、システムを導入する前は手作業で、チケットの発券〜搭乗手続きなどをやっていたわけです。
だから、もしも万が一(ほとんどあってはならないことなんですが)システムトラブルが長く続いてしまった場合に、「どのようにして、事業をストップすることなく、遂行することができるか」ということが書かれた文書のことを、事業継続計画書と言います。
この文書に書かれている手順を年1くらいで、避難訓練みたく練習していれば、ある程度落ち着いて対応できるのではないでしょうか。
ANAは規模が大きいですから、やっていたのかもしれませんが...
ANAのシステムトラブルの一連のニュースを見ていて、あわてる社員を見て、うちでも訓練が必要だとひしひしと感じました。
良いシステムを導入して生産性を上げるのは、企業として当然実施すべきことです。
しかし、障害対策として、サーバをミラーリングしたり(コピーのサーバを置く)、代替え用の機械を置いておくなどは必ず必要です。これをきちんとしておかないと、企業としては大きな損失になりかねません。
そして、その用意をもってしてもどうしてもシステムが使えなかった時のために、事業継続計画書を作成しておく。
ここまででやっと、安心してシステムを使うことができると私は考えています。
きちんとすればするほど、結構お金はかかりますので、そこに投資する企業さんは少ないですが、止まってはいけない重要なシステムを導入するなら、お金をかけて運用するべきと思います。
もし、まだ何もされていない企業さんがおられるなら、ぜひともできることから始めてみてください。
【このカテゴリーの最新記事】
-
no image
この記事へのコメント
コメントを書く
この記事へのトラックバックURL
https://fanblogs.jp/tb/4876359
この記事へのトラックバック