2016年03月31日
ANAのシステムトラブル 原因が判明 システム依存の社会における障害対策とBCPの重要性
3月22日に起こったANAの国内線システムトラブルの原因が、昨日ANAのホームページで公表されました。
こちらのページです。
https://www.ana.co.jp/asw/topinfo/info.jsp?infoID=d20160322101902&info_tool_flag=1
発生原因は、ネットワーク中継器、つまりスイッチの故障ということです。
データベースサーバは4台で同期をとっていて、同期が正常に完了しない場合に自動停止するという仕様になっていたそうです。
で、スイッチの故障により同期が正常に完了しなかったため、自動停止したと。
ちなみに、サーバ周辺に置く高級なスイッチには、正常にデータ転送が行われなかった場合には故障シグナルを発信する機能があります。
高級でなくてもついてたりしますが。
そのシグナルを利用して、自動的にバックアップスイッチが有効になるように設計されていたとのことでした。
しかし、問題はそのスイッチから故障シグナルが発信されなかった。
そのため、完全にデータ転送ができないスイッチが稼働したままで、4台のデータベースサーバの同期が正常に完了せず、自動停止したわけです。
重要なシステムですから。ネットワーク周りも周到に障害対策をしていただけに、まさかの原因です。
ここまできちんと障害対策をしていても起こるシステムトラブル。
この問題を取り上げても、やはり「止まらないシステムはないのだ」と肝に銘じて、障害対策とBCP策定を実施しないといけないと感じました。
【このカテゴリーの最新記事】
-
no image
この記事へのコメント
コメントを書く
この記事へのトラックバックURL
https://fanblogs.jp/tb/4907110
この記事へのトラックバック