Ubuntu Linux 10.04 Lucid Lynxで運用中のRAID6ユニットが3つ以上Faultした。その後復旧。

Ubuntu Linux 10.04 Lucid Lynxで運用中のRAID6のデバイスが3つ以上Faultしてしまい動作しなくなくなった。

  • まず mdadm -QE  -scan を実行してmetadataから読み出しが可能か確認。なおハードディスクは10台でRAID6構築。
  • 読み出しはOKだが、mdadm –run /dev/md0 ではInput/Output Errorと表示されて動作しない。
  • cat /proc/mdstat でも/dev/md0は表示されない。
  • mdadm -A /dev/md0 -u UUID値 –run –force で強制的に動作させてもダメ。
  • mdadm -A /dev/md0 /dev/sd[klmnopqrst]1 で更に強制的に動作させても、3つ以上のユニットデバイスがremoved状態で一つがspare状態で復旧しない。
  • 基本に戻って https://raid.wiki.kernel.org/index.php/Linux_Raid を読み直す。
  • https://raid.wiki.kernel.org/index.php/RAID_Recovery に記載されている「Don’t Panic」を心に刻むw
  • https://raid.wiki.kernel.org/index.php/Reconstruction に記載されているmdstat –assemble –force /dev/md0 を実行。
  • すると、cat /proc/mdstat で/dev/md0の情報が表示された。
  • どうやら3つのブロックデバイスが removedになって再構築ができない様だ。
  • 3wareの3dm2をつかってハードディスクの情報をsudo tw_cli /cX showで表示すると4つのデバイスが「Not Presents」と表示されている。どうやらケーブル関連のようだ
  • マシンを停止して、ハードディスクとRAIDボードのケーブルをいくつか交換する。
  • 再起動するとこれまで通り/dev/md0は動作しない。
  • そして mdadm –assemble –force /dev/md0 を打ち込むと、なんとcat /proc/mdstatで/dev/md0デバイスがactiveとなり、Recovery(復旧)モードになった。
  • そのまま現在Recoveryモードで復旧中。
  • なおmountでちゃんとマウントOKである。

これにて復旧終了。3時間かかった。Recovery完了までは5日程度で完了予定。

広告

日本語対応が強化されたUSB起動・CD起動が可能なハードディスクのパーティション管理ツール「Parted Magic 5.2」

Linuxを利用したGUIで操作可能なハードディスクパーティション管理ツール「GParted」が使えるフリーソフトウエアが日本語対応となってバージョンアップした。バージョンアップ内容は下記の通り。

  • Parted 0.6.2に対応し、MiB単位でパーティション境界を揃えることが可能。WesternDigital製AFT採用ハードディスクで利用可能。
  • ブートメニューで日本語が選択可能。
  • SCIMを利用して日本語入力に対応。
  • 論理パーティションの移動に対応。
  • MBR書き換え問題を修正。

対応可能なファイルシステムは下記の通り。

  • ext2 ext3 ext4 linuxswapパーティション
  • ntfs fat16 fat32 (Windows向け)
  • hfs hfs+
  • jfs
  • reiserfs reiser4
  • xfs

動作には256MB(ライブモードでは128MB)のRAMが必要。古いPCで利用する際には注意。

Parted Magic 公式ページ http://partedmagic.com/

Parted Magic ダウンロードページ http://sourceforge.jp/projects/sfnet_partedmagic/releases/

Westerndigital製ハードディスク WD20EARS-00S8B1(500GBプラッタ)の代替保留セクタ数が26に

現在Ubuntu Linux 10.04 Lucid LynxでRAID6アレイで利用中のWesterndigital製WD20EARS-00S8B1(500GBプラッタ)だが、購入したうちの1台が1ヶ月半で代替保留セクタ数が26を数えた。syslogに出力された値は下記の内容。

26 Currently unreadable (pending) sectors

最初は当然0だったが、13→26と非連続で増加している。これは初期不良品にあったのだろうかと思案中。

追加 2010年7月21日〜23日

代替保留セクタが増加しているハードディスクWD20EARSで回復不能なセクタをsyslogに出力していた。

2 Offline uncorrectable sectors

ハードディスク表面に傷がついている可能性大。だが購入したハードディスクの代理店はCFDなので、SMART値変化・劣化は交換保証外だからなぁ。

…と現在23時10分。代替保留セクタが593セクタとでた。もうダメだろう。

更に22日で代替不能セクタが543セクタに増加。来月まで持ちますように…。

と23時7分で代替保留セクタ数が596セクタ。おいおいあと10日持つのか?

23日現在、代替保留セクタが596セクタである。syslogがtimeoutエラーを吐き出しているのでSATAケーブルの問題と確信する。抜けやすくなったSATAケーブルのメスコネクタを無理矢理復活させる方法で挿し直すとピタリとエラーが止まる。550円もしたSATAケーブルが80円のSATAケーブルよりエラー率が高いという寂しい結果となった。

USB起動・CD起動が可能なハードディスクのパーティション管理ツール「Parted Magic 5.0」リリース

sourceforge.jp パーティション管理ツール「Parted Magic 5.0」リリース より。

Linux カーネル2.6.34.1を利用したGUIで操作可能なハードディスクパーティション管理ツール「GParted」が使えるフリーソフトウエア。

USBメモリやCDドライブから起動可能なので新規のハードディスク購入時の初期不良の洗い出しやハードディスクのまるごとコピー、WD20EARSなどのAFT採用ハードディスクをWinXPで利用する際のパーティション設定に良さそう。

対応可能なファイルシステムは下記の通り。

  • ext2 ext3 ext4 linuxswapパーティション
  • ntfs fat16 fat32 (Windows向け)
  • hfs hfs+
  • jfs
  • reiserfs reiser4
  • xfs (REGZAレコーダーで採用?)

なお動作には256MB(ライブモードでは128MB)のRAMが必要とのこと。古いPCで利用する際には注意を。

Parted Magic 公式ページ
http://partedmagic.com/

Parted Magic ダウンロードページ
http://sourceforge.jp/projects/sfnet_partedmagic/releases/

Ubuntu Linux 10.04 Lucid Lynxでハードディスクのチェック&テスト

WesternDigital 製ハードディスク WD20EARS-00MVWB0 667GBプラッタ初期不良品を代替品と交換した。

CFDにWesternDigitalにRMA申請を行なったあと、Ubuntu Linuxに接続してハードディスクが初期不良品かどうかのチェックを行う。

まずはハードディスクのSMARTを利用したショートテストを行う。

$ sudo smartctl -t short /dev/sdt

smartctl version 5.38 [x86_64-unknown-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF OFFLINE IMMEDIATE AND SELF-TEST SECTION ===
Sending command: “Execute SMART Short self-test routine immediately in off-line mode”.
Drive command “Execute SMART Short self-test routine immediately in off-line mode” successful.
Testing has begun.
Please wait 2 minutes for test to complete.
Test will complete after Tue Jul  6 00:03:28 2010

Use smartctl -X to abort test.

数分でショートテストは完了する。エラーが起きなければ次はSMARTのセルフテストのログ表示を行う。

$ sudo smartctl -l selftest /dev/sdt

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%         6         –

ここでエラーが表示されたら問題があるということ。今回は問題無し。

最後にハードディスクの全セクタチェックを行う。

$ sudo badblocks -vs -o sdt.txt /dev/sdt

Checking blocks 0 to 1953514583
Checking for bad blocks (read-only test): done
Pass completed, 0 bad blocks found.

WD20EARSの2TBハードディスクで6時間ほどで完了した。上記のコマンドは読み出しチェックのみだが、書き込みチェックの場合は-wオプションを追加する。もし不良セクタがあればメッセージが出力されるので、ショップに連絡し初期不良交換。今回はbad blockは無し。

このWD20EARSは問題がなさそうなので常用可能であろう。

なお自前で修復する場合は下記のコマンドで不良セクタを利用しないようfsckを利用する。

$ sudo fsck -l sdt.txt /dev/sdt

これで完了。

WesternDigital製ハードディスク WD20EARS-00MVWB0 667GBプラッタ初期不良

先週特売で購入したWesternDigital製ハードディスク WD20EARS-00MVWB0 667GBプラッタ版だが、本日フォーマットして使おうとするとエラーが出てフォーマットが完了しない。パーティション設定まではOKだったのだが。

ハードディスクのSMARTのセルフテストもFailとでて完了しない。更に代替セクタが144も出ているので初期不良としてショップに連絡。

ショップからは「代替品を発送するので故障品を宅配業者に渡してくれ」との連絡があった。素早い対応に満足。とりあえず待ちである。

WesternDigital製HDD WD20EARSの667GBプラッタのベンチマーク

先日購入したWesternDigital製のハードディスク WD20EARS-00MVWB0 667GプラッタバージョンをUbuntu Linux 10.04 Lucid Lynx に接続した。接続環境は下記の通り。

CPU : Phenom X4 9750

M/B : Asus M2A-VM ( AMD 690G, SB600 )

OS : Ubuntu Linux 10.04 LTS Lucid Lynx ( kernel 2.6.31-21 )

ベンチマークはGNOME標準のPalimpsest ディスク・ユーティリティ 2.30.1を利用。

WD20EARS-00MVWB0ベンチマーク

平均読み込み速度が94.0MB/sなのでなかなかの速度である。

なおこのハードディスクを既に構築されているRAID6アレイ(合計10台)に追加したところ、reshape完了は4.8日後とのこと。

のんびり待つことにする。

WesternDigital製HDD WD20EARSの667GBプラッタバージョンを購入

ツクモオンラインショップ よりタイムセールで2TBのWesnternDigital製ハードディスクWD20EARS 667GBプラッタ×3枚バージョンを8,980円で購入した。到着したらUbuntu Lucid Lynx 10.04 マシンの3ware 9500s-12 に接続してRAID6に追加する予定。

なおWD20EARSの従来500Gプラッタと新667GBプラッタの違いは下記の通り。

  • 新667GBプラッタはWD15EARSの外装で基板レイアウトも同じらしい。
  • プラッタ枚数が4枚から3枚に減少。
  • プラッタの軸端にディクスがぶれない様に固定するStableTracが無い(4プラッタのみのため)
  • 消費電力は同じか微増。
  • AFT(Advanced Format Technology)やヘッダ退避機構IntelliPark、省電力機構IntelliPowerは従来と同様。
  • 回転数はIntelliPowerの為可変なので非公開だが、従来と同じ5000RPM前後らしい。

従来RAIDアレイは性能や相性問題回避のため同じメーカー・型番のハードディスクが良いとされていた。

ハードディスクの性能のボトルネックが解消された今、同じ環境で運用しているRAIDアレイで、特定メーカー・型番のハードディスクを集中して利用すると故障原因や平均故障時間が同じように集中しやすいという経験がある。

なので私は適度にメーカーや型番を分散させたハードディスクを利用してRAIDアレイを構築している。

WesternDigital社製WD20EARSのマイナーバージョンアップ製品が登場

WesternDigital社製WD20EARSのマイナーバージョンアップ製品が登場

従来品WD20EARSは500Gプラッタ×4枚にStableStac(プラッタのブレ防止機能)搭載。

新WD20EARSは666Gプラッタ×3枚にStableStac無し。

従来品は既に9,860円〜16,800円の在庫処分として価格が下がっている。WD20EARSの4プラッタ品を10,980円×5台を5月5日に購入してまだRAIDアレイの構築が完了していないのにハードディスクの価格が下がるとorzになる。

私は666Gプラッタ採用は2.5TB(2.3TiB)が6月に登場する予兆とみている(内部資料のロードマップでもそう記載されているし)。HGSTはSAS法人向けで2.5TB〜3TB製品を出すようだし、本格的な動きは6月にあるかも。

Ubuntu Linux 10.04 Lucid Lynxのパーティション操作コマンドpartedのバージョンがアップしたのでAFT採用ハードディスクで論理セクタと物理セクタの正常な値が取得できると思っていたが、論理・物理セクタともに512byte/sectorとしが表示されず、エミュレーション経由の値のみで物理セクタの値は取得できなかった。これは今後に期待。

Ubutnu 10.04 Lucid Lynx にてWD20EARS&WD20EADSの9台RAID6の拡張完了に5日間費やす

Ubutnu 10.04 Lucid Lynx にてWD20EARS&WD20EADSの9台RAID6の拡張がようやく明日に完了する予定。やはり3ware 9500s-12をPCI 32bit 33MHz接続ではバス帯域が足りないので実測値110MB/secしかでないので5日間もかかる。

またカーネ ルを2.4.34-999(nightly Build)にアップした。Promise SuperTrak ex8350ドライバのstex不具合等があれば記載する予定。