複数の HDD を組合わせて1台の HDD として管理することで、故障時のデータ復旧を可能にする「RAID」。
最近では「RAID」対応の「NAS」製品が市場で普及しているほか、「RAID」構成のサーバーが企業や個人などでも使われることが多くなってきました。
「RAID5」などにより冗長構成を組むと、データの安全性が高くなる反面、構造が複雑になることで障害時に思わぬトラブルが起こることもあります。
●とにかく触らないこと、「リビルド」は危険!
「RAID」スペシャリストがまず主張するのは、「障害が起きたら、とにかく触らないこと」。
青ざめた顔で持ち込まれる「RAID」のトラブルでよくあるが、おかしくなった時点で自分でディスクの順番を入れかえたり、「RAIDカード」を交換したりして、データを壊してしまうケース。
「RAID5」などでは多くの場合、ディスクを入れ換えると自動的に「リビルド(再構築)」が実行されます。
「リビルド」は、正常なディスクのデータを元に新しいディスクの内容を復元する機能。
しかし、順番を入れ換えたり、「RAIDカード」を交換した場合、構成がすべて変わったとみなされ、それを修復するつもりで全体が間違った内容で書き換えられてしまいます。
また、故障している1台の HDD だけを交換する場合でも危険はあります。
同じ「NAS」で使われるディスクは製造時期が近いため、故障時期も近くなる可能性があります。
そこに「リビルド」のために激しいアクセスが起こることで、別の HDD が壊れてしまうこともあります。
 |
| リビルド中に別のディスクが故障するケースも少なくない。 |
「NAS」の機種によっては、「RAID5」を「リビルド」したら、なぜか「RAID0」として「リビルド」しようとしてしまう、というケースまであります。こうなるとデータが全面的に書き換えられてしまいます。
「リビルドはフォーマットのようなもの。機器をまた使用できるような状態に戻すためのものであって、データが戻ることは期待しないほうがいい」とスペシャリストは言います。
「RAID5でも、ディスクが1台壊れたら直して使うのは考えないほうがいい。データを読めるようならその時点でデータをバックアップして、読めないようなら何もせずに専門会社に持ち込んで欲しい」と説明しているのです。
 |
| NASの機種によっては「RAID5」をリビルドしたら、なぜか「RAID0」としてリビルドされてしまうケースも。 |
●ディスクの順番・分割サイズ。割り振りがわかれば、単体と同じ
持ち込まれる復旧依頼のうち、「RAID」の障害の特徴としては、7~8割が論理障害。
これは、「RAID5」では HDD1台の物理障害であれば残りの HDD でデータを復元できるため物理障害に強いこと、また、1台のときよりも書き込みのときに複雑な計算をして複数台に書いているので急の電源断に弱いということの両面があります。
件数としては、コンシューマー向けの「RAID」構成の NAS が多く、そのため Linux によるソフトウェア「RAID」が中心となります。
よりハイエンドな NAS ではベンダーの保守が付くためですが、そうしたケースでも相談が来ることもあります。
特に夏の時期には、落雷による事故が多い。これには、落雷による停電によりディスクの整合性が壊れるケースや、基板のショートによるケースなどがあります。
対策としては、UPS(無停電電源)を使って停電時に安全にシャットダウンすること。また、雷が鳴りはじめたら先にサーバーをシャットダウンするという企業も多いようです。
「RAID5」が単体のディスクと違う点は3つあります。
それは、ディスクの順番の情報、データを各ディスクに分割するサイズ(ストライプサイズ)、分割したデータを各ディスクに割り振るアルゴリズムです。この3点のデータがわかれば、「RAID5」でも単体のディスクの修復と同じ。
とはいうものの、「RAIDスペシャリストは多くないので、プレッシャーは大きい」とも担当者は語ります。
届いた「RAID」のディスクは、まずクローンのディスクを作成したあと、ディスクエディターでバイナリデータの16進ダンプを見て、ディスクの順序を探りあてます。そこで「RAID」を組んでみて、データの読み出しを試みます。
各ファイルシステムごとに、データの構成が頭に入っているため、ストライプサイズの情報が失われていても16進ダンプを見て区切りの見当がつくといいます。
「ファイルシステムの知識は修復の基礎」と断言するエンジニアは、単体のディスクでファイルシステムを壊したものを直させるテストを受け、それに合格してから初めて「RAID」に触れます。
ファイルシステムの修復は経験によるところが大きい世界で、「初めてやったときは2日かかったが、今では5分程度でできるようになった」とのこと。
「RAID」に限らず、データ復旧は経験がものを言う世界。
「いろいろな症例を見ることで、壊れ方のパターンの知識の引き出しがどんどん増える。経験を積むことで、バイナリを見たらどういうことが起こっているかがだいたいわかるようになる」。
「詳細な分析をする前に、勘でひらめく」こともあるそうで、「作業時間が短いからといって簡単というわけではない」と語ります。
復旧を試みて断念したディスクが持ち込まれることもしばしばあるといいます。
しかし、「お客さんが隠していても、人為的にいじってしまったものは見ればわかる」と。データが、自然に壊れたのとは違う不自然なものになっているのです。
● スピードが求められるRAIDの復旧
「RAID」の案件は、「顧客が切羽つまっている」ことも特徴。「RAID」を組んで保存しているような重要なデータのため、「明日までにデータが復旧できないと会社が危ない」というような切実なリクエストもしばしば。
日本全国から時間を惜しんで新幹線や車でハンドキャリーでハードディスクを持ち込むケースも多い。
海外からも郵送での依頼が数あるといいますが、中には、マレーシアから部長がハンドキャリーで NAS を運んできたケースもありました。
まあ、SOHOレベルくらいなら、シンプルな「RAID1」が丁度いいようです。
|
|
|
|