こんにちは!
EVE2です。
前回、このブログ「システムエンジニアが目指す中小企業診断士」から、トヨタ自動車のシステム障害について書きましたが、本日、その詳細な内容がホームページより報告がありました。結論を端的にいうと、ディスク容量不足によるシステム停止らしいです?
[納得いかない点]
世界のトヨタ自動車のシステムとして納得いかない点があります。
普通、ディスク容量は月または年の増加データを基にハードディスクの容量を決めていきます。それは定期的に実施され、平時はログ監視ツールで監視しているはずです。
中小企業で監視がうまくいっていないというならいざ知らず世界のトヨタです。ベンダーへの支払も十分で、何か不足するようなことはないと思うのですが???
まっ、誰しもそう思っているという所の落とし穴的な事故だったのかもしれませんが・・・?
[ホームページからの考察]
今回のホームページの報告からどんなことが分かるのか文章をおってみましょう。
[ホームページ本文❶]
今回のシステム不具合は、部品の発注処理を行う複数のサーバーの一部が利用できなくなったことで発生しました。経緯としては、不具合発生の前日8月27日に定期の保守作業を実施しました。この保守作業では、データベースに溜まったデータの削除と整理を行っておりましたが、作業用のディスク容量が不足していたためエラーが発生し、それによってシステムが停止いたしました。
[コメント❶]
これって、作業用ディスクを削除したはずだったが、それができておらずディスク容量不足が発生したという理解でいいですよね?それとも作業によりエラーが発生した?
[ホームページ本文❷]
これらのサーバーは、同一のシステムで作動していたため、
[コメント❷]
同一システムのサーバーからの問い合わせのすべてを障害発生データベースサーバーへ問い合わせしていたっていうことですかね?
[ホームページ本文❸]
バックアップ機でも同様の障害が発生し切り替えができず、工場の稼動停止に至りました。
[コメント❸]
バックアップ機多分待機系だと思うのですが、ホットスタンバイ、コールドスタンバイにしても本番機とは別に稼働していると思うのですが?この文章からはよくわかりませんね?
[ホームページ本文❹]
その後、8月29日に容量の大きいサーバーにデータを移管したことで、システムが復旧し、工場稼働を再開いたしました。この度、再現検証によって、上記が真因・その対策となることを特定しましたのでご報告いたします。
[
データベースサーバーのディスク容量が少なくなるまたはなくなると、データベースの作業領域がなくなるためシステムが停止することがあります。以前経験したことがあります(苦笑)。
なんとなくわかるけれど、よくわからない報告なのですが、一般向けではこんな感じになるのでしょう?どうせ事細かに説明しても普通の人は理解できませんもんね?
[待機系が稼働しない]
今回のシステム障害もそうですが、待機系がうまく動作せずに、システムが停止するということをたびたび聞きます。障害時において、中小企業診断士の経営情報システムでは、どのようなことを求めているのかChatGPTに聞いてみました。
❶フェイルセーフ (Fail-Safe):
フェイルセーフは、システムや装置が故障や異常状態に陥ったときに、人や環境への危険を最小限に抑えるための設計原則や機能を指します。システムが異常を検知した場合、通常は安全な状態に移行するか、停止することで被害を最小限に抑えることを目的とします。フェイルセーフの例として、自動車のブレーキシステムがあります。ブレーキが故障した場合、自動的に車を停止させる仕組みが組み込まれていることが一般的です。
❷フェールソフト (Fail-Soft):
フェールソフトは、システムやソフトウェアが異常状態になった場合に、できるだけ正常な動作を続ける設計や機能を指します。異常が発生してもシステムは停止しないため、正常な運用を維持し続けることが可能です。フェールソフトの例として、データベース管理システムがあります。データベースの一部が障害を起こしても、システム全体が停止せず、残りのデータを正しく処理し続けることができます。
❸フォールトトレラント (Fault-Tolerant):
フォールトトレラントは、システムやソフトウェアが故障や障害に対して耐性を持ち、正常な動作を続ける能力を指します。フォールトトレラントなシステムは、異常が発生しても、その異常を検出し、修復または回避することができます。これにより、高可用性や信頼性の高いシステムを実現します。フォールトトレラントなシステムは、航空機の飛行制御システムやデータセンターの冗長化システムなどで使用されます。
❹フォールトアボイダンス (Fault Avoidance):
フォールトアボイダンスは、システムが故障や障害を予防するための戦略や手法を指します。このアプローチは、事前に問題を回避し、システムの正常な運用を維持することを目指します。フォールトアボイダンスは、品質管理、テスト、設計の段階で異常を未然に防ぐための措置を取ることを含みます。例えば、信頼性の高い部品の選定、適切な冷却システムの設計、過負荷を避けるための負荷分散などがフォールトアボイダンスの一部です。
❺フェイルオーバー (Failover):
フェイルオーバーは、システムやサービスが障害や故障に対処する方法の一つです。通常、バックアップシステムやリソースに切り替えて、サービスの中断を最小限に抑えます。主要なシステムが故障した場合、バックアップシステムが自動的にアクティブになり、サービスの継続性を確保します。
❻レジリエンス (Resilience):
レジリエンスは、システムや組織が外部からのストレス、圧力、障害に対して耐性を持ち、継続的な適応と正常な機能を維持する能力を指します。フォールトトレラントと似ていますが、レジリエンスは単に障害に対処するだけでなく、環境の変化に対応する柔軟性も含みます。
❼ハイアベイラビリティ (High Availability - HA):
ハイアベイラビリティは、システムやサービスが高い可用性を持つことを指します。つまり、24時間365日稼働し、障害が発生しても短時間で復旧することができる能力を持つことを意味します。冗長化、フェイルオーバー、フォールトトレラントなどの手法を使用して高可用性を達成します。
今回は、❶❷❹適切ではないともいますが、大企業なら❸❺❻❼は、実現してほしいところです。
なお、中小企業診断士試験では、❶〜❺の知識は必須です。よく出題されるので、覚えておきましょう!
[あとがき]
以上については、概念的なものであり、それを支える技術があります。それについては、「ゼロからはじめるシステム開発」で機会がありましたら、お話ししましょう。
では、また!
■先月の生産指示システムの不具合について
https://global.toyota/jp/newsroom/corporate/39732550.html
【このカテゴリーの最新記事】