some of the disks are not responding.
The following PDs need attention :
3
Please check the cable or replace these drives if necessary
Please reboot the system.
設定やアプリケーションのインストールなどは行っておらず、バックアップを取っただけです。タイミングから考えると、アップデートが原因ではないかと考えました。
ストレージの故障であれば、交換して「リビルド」を行うのですが、この段階では原因は特定できていなかった為、原因特定を最初にすることにしました。
幸いデータはバックアップを直前に取っていたため、被害はほとんどありません。しかし、サーバーの復旧という予期もしない追加業務が増えてしまい、頭が痛いところです。
月末であり、データが必要な業務が多く、早めの復旧を行わなければなりません。とゆうことで、バックアップデータで仕事はできるように対応し、サーバーを預かり徹夜で原因特定及び復旧作業をすることになりました。
機器のチェックとRAID構造の再構築作業
メモリテスト、ストレージのエラーチェックをしましたが不具合は見当たりませんでした。先々月にアップデートプログラムに不具合があり、再起動を繰り返す報告が見つかりました。(※後に関係ないことが分かりました。)
今回の不具合もアップデートにあるのかもしれないと感じ、とりあえず RAID再構築、Windws server OS の再インストールを行いました。
管理構造の確認と構築のやり方を思い出しながら、次の日の夕方頃には完了する予定でした。接続ユーザー数が多く、設定を事前に入れておかなければ、設置時に時間が足りなくなってしまうので時間がかかりました。
そうして、アップデートが完了して何回か起動した時です。またもや同じブルースクリーンが出て起動不能に陥ったのです。
完全に忘れていました。アップデートを完了したらアカンかったのです。いや、アップデートしたら、最後に直近のアップデートを削除しなければならないのでした。最初からやり直しです。
2回目の作業を行っていたところ、またもやブルースクリーンが出て起動不能に陥りました。しかし、今回は、1回目のアップデート後です。最後まで行っていないにも関わらずエラーとなったのです。
そうして BIOS の RAID 設定項目を確認していると、ある文字を見つけました。Rebuilding という文字です。片方のストレージに RAID 再構築が行われているのです。
取り出して搭載している SSD を調べましたが不具合やエラーは見つかりません。作業中に何かしらの不具合が発生して、AUTO Rebuild (自動修復)が始まったようです。
そうして、作業中に 問題の SSD を念入りに調べるとある事が分かりました。DiskInfo という記録媒体をチェックできるソフトでは「正常」と表示されますが、過去に読み込みエラーの出た記録がありました。
そして、動作検証をしているとサーバーに負荷がかかった時にクラッシュしてしまう事が分かりました。負荷がかかっている時には、温度上昇と内部ファンがフル回転しています。フル回転による振動もありましたので、「この振動によって一時的に SSD を認識しない状態になるのではないか」と考えました。
解決した作業
新品の同型の SSD がストックでありましたので、交換をしました。もう一方の SSD はそのまま利用。
今後に同じような不具合が起きた時に、備忘録として使えるよう、今回の手順を記述させて頂きます。作業前に、BIOS を最新に更新しました。BIOS を更新した後に、同じ条件でインストールしましたが、不具合が発生しましたので、BIOSは関係ありませんでした。
@ SSD を新品に交換
A BIOS にて RAID 構築をしなおす
B Windows Server 2019 をインストール
C Server OS インストール中に RAID ドライバをインストール (メーカーからダウンロード)
D サーバーを最新の状態に更新
E サーバーの初期システムエラーを修復
F サーバーのローカルポリシーを調整 (パスワードの長さと有効期限)
G ファイルサーバー用設定の構築 (フォルダ・ユーザー・権限)
上記作業中に失敗したものとして、INTEL 純正グラフィックドライバを手動ダウンロード・インストールを行ったところ、システムエラーが出続ける不具合がありました。ウィンドウズアップデートによる、標準ドライバ適用ではエラーは出なかったため、ドライバを削除しました。
動作検証・インストール検証を行って分かった不具合原因
不具合の原因は、 SSD にあると考えられます。振動もしくは熱で不具合が出ている可能性が高いです。この場合でも DiskInfo では正常と表示される。今回のサーバー用コンピューターはファイルサーバー単体のシステムとして構築したにも関わらず、リモートデスクトップ設定や、別のソフトのサーバーとして、別の業者が勝手に使ってしまっていました。本来、そのような仕様として考えていなかったため、負荷が想定を超えていた事は否定できません。
しかも、個人情報保護法の厳格化により、当初、台の上に置かれていたサーバーが、ラックの中に入れられていました。夏場などは熱がこもりやすく、ファンが常に高回転している状態でした。このような要因が SSD の劣化を早めてしまったのかもしれません。
原因推測
サーバーのウィンドウズアップデート適用時の負荷により、SSD のデータがクラッシュ。その後、再認識した SSD を交換した正常なものと誤認し、オートリビルド機能が働いた。
エラーの出る SSD ではリビルドも完了せず、症状を繰り返していた。と結論づけました。
RAID のサーバーは保全性は上がりますが、故障率も上昇します。故障しにくい事も大切ですが、何か起こった時に素早く復旧できるよう準備が必要だという事を再認識致しました。
もう一つの重要な原因要素
作業を終えて最終的な結論として、正確な原因特定はできませんでした。「SSDの不具合」はあくまで推測です。付け加えるべき、もう一点の原因要素を挙げさせて頂きます。それは、Windows Server 2019 essentials をインストールする時に、サーバーに付属していたソフトウェア「FUJITUS Software ServerView」の「Installation Software」にも起因するのではないかという点です。
というのも、このソフトウェア利用中に不可解なエラーが出ることがあったのと、このソフトウェアを利用せず、直接 Server OS をインストールした時は安定して動作したのです。
アプリケーション利用時はインストール仕様書の説明に従い、メーカーページから最適なドライバなどを入れ調整しても不具合が起こっていました。
付属のアプリケーションを使えば、簡単にサーバーOSをインストールする事はできますが、直接インストールするのが難しい訳ではありません。
BIOS にて RAID1 の設定さえちゃんと行えていれば、問題は起こりません。
ただし、この PRIMERGY TX1310 M3 は他のサーバー機に比べ、RAID 設定が少し複雑です。「PRIMERGY TX1310 M3 RAID設定」で設定手順を調べてから行うのが良いと思います。
丁寧に説明しているサイトが複数ありましたので、ここでは説明を控えさせて頂きます。
次回、同じような不具合が起こったときに思い出しやすいように記述しております。分かりにくい点がありましたら、申し訳ございません。
【このカテゴリーの最新記事】