ファイルサーバー故障

会社のサーバーではなく、筑波大学 情報学類のテラバイト級の RAID を積んだファイルサーバー (orchid-serv) がお亡くなりになった。
月曜日の午後11時ごろに、「サーバーがとまっとる」という連絡を受けた。とりあえずサーバールームへ行って様子を見てみると、orchid-serv が反応しなくなっていた。外部から ICMP は通るが SSH などは一切受け付けない。しかもローカルコンソールでログインしようと試みるが画面に何も表示されずキーボード入力も死んでいるようである。
ログインできない状態ではなす術も無いので、とりあえず orchid-serv ごと再起動した。
すると起動時に RAID コントローラの BIOS Self Test が失敗したというメッセージが表示されて起動しない。
しかも設定ユーティリティを BIOS から起動しようとすると、BIOS のメモリイメージがぶっ壊れたような、文字化けした画面になってうまく動かない。どうやら RAID が死んだようである。
ソフトウェア的におかしければ何とかなるかも知れないが、サーバーの RAID コントローラの BIOS が飛んだとなるとお手上げである。
そこで別の人が午前1時前に、管理を委託している日立情報サービスに連絡した。すると、なんと今から来ると言っている。
40分くらいして、サーバー部屋にエンジニア到着。午前2時前なのにお疲れ様です。というか、さすが年間何百万もかけて保守契約しているだけあって、対応の早さはすばらしいものがある。ただ寝ているところを起こして来てもらったようだ。
その人が見ても同じところで止まるらしく、ハードウェア交換しないといけないですねー ということになって、DELL に連絡して(DELL も法人向けサポートは夜中にやっているらしい)午前9時から12時までの間に交換用部品を持ってくるということになったようである。
(ところで交換用部品ってラックマウントサーバー1台丸ごと持ってくるのか?)
でももし午前中に復旧しないと、午後からの計算機室を使う授業がすべて休講になるのかなあ・・・