Ubuntu Linux 10.04 Lucid Lynxで運用中のRAID6ユニットが3つ以上Faultした。その後復旧。

Ubuntu Linux 10.04 Lucid Lynxで運用中のRAID6のデバイスが3つ以上Faultしてしまい動作しなくなくなった。

  • まず mdadm -QE  -scan を実行してmetadataから読み出しが可能か確認。なおハードディスクは10台でRAID6構築。
  • 読み出しはOKだが、mdadm –run /dev/md0 ではInput/Output Errorと表示されて動作しない。
  • cat /proc/mdstat でも/dev/md0は表示されない。
  • mdadm -A /dev/md0 -u UUID値 –run –force で強制的に動作させてもダメ。
  • mdadm -A /dev/md0 /dev/sd[klmnopqrst]1 で更に強制的に動作させても、3つ以上のユニットデバイスがremoved状態で一つがspare状態で復旧しない。
  • 基本に戻って https://raid.wiki.kernel.org/index.php/Linux_Raid を読み直す。
  • https://raid.wiki.kernel.org/index.php/RAID_Recovery に記載されている「Don’t Panic」を心に刻むw
  • https://raid.wiki.kernel.org/index.php/Reconstruction に記載されているmdstat –assemble –force /dev/md0 を実行。
  • すると、cat /proc/mdstat で/dev/md0の情報が表示された。
  • どうやら3つのブロックデバイスが removedになって再構築ができない様だ。
  • 3wareの3dm2をつかってハードディスクの情報をsudo tw_cli /cX showで表示すると4つのデバイスが「Not Presents」と表示されている。どうやらケーブル関連のようだ
  • マシンを停止して、ハードディスクとRAIDボードのケーブルをいくつか交換する。
  • 再起動するとこれまで通り/dev/md0は動作しない。
  • そして mdadm –assemble –force /dev/md0 を打ち込むと、なんとcat /proc/mdstatで/dev/md0デバイスがactiveとなり、Recovery(復旧)モードになった。
  • そのまま現在Recoveryモードで復旧中。
  • なおmountでちゃんとマウントOKである。

これにて復旧終了。3時間かかった。Recovery完了までは5日程度で完了予定。

Westerndigital製ハードディスク WD20EARS-00S8B1(500GBプラッタ)の代替保留セクタ数が26に

現在Ubuntu Linux 10.04 Lucid LynxでRAID6アレイで利用中のWesterndigital製WD20EARS-00S8B1(500GBプラッタ)だが、購入したうちの1台が1ヶ月半で代替保留セクタ数が26を数えた。syslogに出力された値は下記の内容。

26 Currently unreadable (pending) sectors

最初は当然0だったが、13→26と非連続で増加している。これは初期不良品にあったのだろうかと思案中。

追加 2010年7月21日〜23日

代替保留セクタが増加しているハードディスクWD20EARSで回復不能なセクタをsyslogに出力していた。

2 Offline uncorrectable sectors

ハードディスク表面に傷がついている可能性大。だが購入したハードディスクの代理店はCFDなので、SMART値変化・劣化は交換保証外だからなぁ。

…と現在23時10分。代替保留セクタが593セクタとでた。もうダメだろう。

更に22日で代替不能セクタが543セクタに増加。来月まで持ちますように…。

と23時7分で代替保留セクタ数が596セクタ。おいおいあと10日持つのか?

23日現在、代替保留セクタが596セクタである。syslogがtimeoutエラーを吐き出しているのでSATAケーブルの問題と確信する。抜けやすくなったSATAケーブルのメスコネクタを無理矢理復活させる方法で挿し直すとピタリとエラーが止まる。550円もしたSATAケーブルが80円のSATAケーブルよりエラー率が高いという寂しい結果となった。

USB起動・CD起動が可能なハードディスクのパーティション管理ツール「Parted Magic 5.0」リリース

sourceforge.jp パーティション管理ツール「Parted Magic 5.0」リリース より。

Linux カーネル2.6.34.1を利用したGUIで操作可能なハードディスクパーティション管理ツール「GParted」が使えるフリーソフトウエア。

USBメモリやCDドライブから起動可能なので新規のハードディスク購入時の初期不良の洗い出しやハードディスクのまるごとコピー、WD20EARSなどのAFT採用ハードディスクをWinXPで利用する際のパーティション設定に良さそう。

対応可能なファイルシステムは下記の通り。

  • ext2 ext3 ext4 linuxswapパーティション
  • ntfs fat16 fat32 (Windows向け)
  • hfs hfs+
  • jfs
  • reiserfs reiser4
  • xfs (REGZAレコーダーで採用?)

なお動作には256MB(ライブモードでは128MB)のRAMが必要とのこと。古いPCで利用する際には注意を。

Parted Magic 公式ページ
http://partedmagic.com/

Parted Magic ダウンロードページ
http://sourceforge.jp/projects/sfnet_partedmagic/releases/

Ubuntu Linux 10.04 Lucid Lynxでハードディスクのチェック&テスト

WesternDigital 製ハードディスク WD20EARS-00MVWB0 667GBプラッタ初期不良品を代替品と交換した。

CFDにWesternDigitalにRMA申請を行なったあと、Ubuntu Linuxに接続してハードディスクが初期不良品かどうかのチェックを行う。

まずはハードディスクのSMARTを利用したショートテストを行う。

$ sudo smartctl -t short /dev/sdt

smartctl version 5.38 [x86_64-unknown-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF OFFLINE IMMEDIATE AND SELF-TEST SECTION ===
Sending command: “Execute SMART Short self-test routine immediately in off-line mode”.
Drive command “Execute SMART Short self-test routine immediately in off-line mode” successful.
Testing has begun.
Please wait 2 minutes for test to complete.
Test will complete after Tue Jul  6 00:03:28 2010

Use smartctl -X to abort test.

数分でショートテストは完了する。エラーが起きなければ次はSMARTのセルフテストのログ表示を行う。

$ sudo smartctl -l selftest /dev/sdt

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%         6         –

ここでエラーが表示されたら問題があるということ。今回は問題無し。

最後にハードディスクの全セクタチェックを行う。

$ sudo badblocks -vs -o sdt.txt /dev/sdt

Checking blocks 0 to 1953514583
Checking for bad blocks (read-only test): done
Pass completed, 0 bad blocks found.

WD20EARSの2TBハードディスクで6時間ほどで完了した。上記のコマンドは読み出しチェックのみだが、書き込みチェックの場合は-wオプションを追加する。もし不良セクタがあればメッセージが出力されるので、ショップに連絡し初期不良交換。今回はbad blockは無し。

このWD20EARSは問題がなさそうなので常用可能であろう。

なお自前で修復する場合は下記のコマンドで不良セクタを利用しないようfsckを利用する。

$ sudo fsck -l sdt.txt /dev/sdt

これで完了。

WesternDigital製ハードディスク WD20EARS-00MVWB0 667GBプラッタ初期不良

先週特売で購入したWesternDigital製ハードディスク WD20EARS-00MVWB0 667GBプラッタ版だが、本日フォーマットして使おうとするとエラーが出てフォーマットが完了しない。パーティション設定まではOKだったのだが。

ハードディスクのSMARTのセルフテストもFailとでて完了しない。更に代替セクタが144も出ているので初期不良としてショップに連絡。

ショップからは「代替品を発送するので故障品を宅配業者に渡してくれ」との連絡があった。素早い対応に満足。とりあえず待ちである。

PCルームwの室温が34℃を記録

私の部屋は北向き3畳の小さな部屋だが、換気状況が悪いため気温が上がりやすい。

6月28日20時47分現在の室温は34℃、湿度68%である。

別の部屋のエアコンで冷えた空気を循環させている状態の温度。

PCの各部位の温度は下記の通り。

  • CPU 59℃ (Phenom X4 9750 リテールクーラー)
  • M/B 42℃ (Asus M2A-VM 690Gチップのヒートシンクに向けて10センチファンで冷却)
  • HDD 36℃〜41℃ 平均38℃

ハードディスクは40℃を超えているのは1台のみで冷却に関してはまあまあである。

AMD 690Gチップは40℃を超えるとフリーズしやすくなるため不安ではある。

しかし人にとっては大変暑い。熱中症に気をつけよう。

WesternDigital製HDD WD20EARSの667GBプラッタのベンチマーク

先日購入したWesternDigital製のハードディスク WD20EARS-00MVWB0 667GプラッタバージョンをUbuntu Linux 10.04 Lucid Lynx に接続した。接続環境は下記の通り。

CPU : Phenom X4 9750

M/B : Asus M2A-VM ( AMD 690G, SB600 )

OS : Ubuntu Linux 10.04 LTS Lucid Lynx ( kernel 2.6.31-21 )

ベンチマークはGNOME標準のPalimpsest ディスク・ユーティリティ 2.30.1を利用。

WD20EARS-00MVWB0ベンチマーク

平均読み込み速度が94.0MB/sなのでなかなかの速度である。

なおこのハードディスクを既に構築されているRAID6アレイ(合計10台)に追加したところ、reshape完了は4.8日後とのこと。

のんびり待つことにする。

WesternDigital製HDD WD20EARSの667GBプラッタバージョンを購入

ツクモオンラインショップ よりタイムセールで2TBのWesnternDigital製ハードディスクWD20EARS 667GBプラッタ×3枚バージョンを8,980円で購入した。到着したらUbuntu Lucid Lynx 10.04 マシンの3ware 9500s-12 に接続してRAID6に追加する予定。

なおWD20EARSの従来500Gプラッタと新667GBプラッタの違いは下記の通り。

  • 新667GBプラッタはWD15EARSの外装で基板レイアウトも同じらしい。
  • プラッタ枚数が4枚から3枚に減少。
  • プラッタの軸端にディクスがぶれない様に固定するStableTracが無い(4プラッタのみのため)
  • 消費電力は同じか微増。
  • AFT(Advanced Format Technology)やヘッダ退避機構IntelliPark、省電力機構IntelliPowerは従来と同様。
  • 回転数はIntelliPowerの為可変なので非公開だが、従来と同じ5000RPM前後らしい。

従来RAIDアレイは性能や相性問題回避のため同じメーカー・型番のハードディスクが良いとされていた。

ハードディスクの性能のボトルネックが解消された今、同じ環境で運用しているRAIDアレイで、特定メーカー・型番のハードディスクを集中して利用すると故障原因や平均故障時間が同じように集中しやすいという経験がある。

なので私は適度にメーカーや型番を分散させたハードディスクを利用してRAIDアレイを構築している。

WesternDigital社製WD20EARSのマイナーバージョンアップ製品が登場

WesternDigital社製WD20EARSのマイナーバージョンアップ製品が登場

従来品WD20EARSは500Gプラッタ×4枚にStableStac(プラッタのブレ防止機能)搭載。

新WD20EARSは666Gプラッタ×3枚にStableStac無し。

従来品は既に9,860円〜16,800円の在庫処分として価格が下がっている。WD20EARSの4プラッタ品を10,980円×5台を5月5日に購入してまだRAIDアレイの構築が完了していないのにハードディスクの価格が下がるとorzになる。

私は666Gプラッタ採用は2.5TB(2.3TiB)が6月に登場する予兆とみている(内部資料のロードマップでもそう記載されているし)。HGSTはSAS法人向けで2.5TB〜3TB製品を出すようだし、本格的な動きは6月にあるかも。

Ubuntu Linux 10.04 Lucid Lynxのパーティション操作コマンドpartedのバージョンがアップしたのでAFT採用ハードディスクで論理セクタと物理セクタの正常な値が取得できると思っていたが、論理・物理セクタともに512byte/sectorとしが表示されず、エミュレーション経由の値のみで物理セクタの値は取得できなかった。これは今後に期待。

Ubuntu Linux 10.04 Lucid LynxでLVM・ext4区画の拡張を行う

Ubuntu 10.04 Lucid LynxのRAID6にハードディスクを追加の続き。

RAID6の拡張が終わったので、区画の拡張を行う。Linuxでは、RAID6+LVM+ext4の組み合わせではマウントしたままの状態で容量の拡張(オンライン拡張)が可能である。

$ sudo pvs -v
Scanning for physical volume names
PV         VG      Fmt  Attr PSize   PFree   DevSize PV UUID
/dev/md0   Array00 lvm2 a-     5.46t      0 9.10t eAZgg9-1tAW-XY36-UmBc-LjGn-HXiG-aiIvZF

$ sudo pvresize -v /dev/md0
Using physical volume(s) on command line
Archiving volume group “Array00” metadata (seqno 2).
Resizing physical volume /dev/md0 from 1430795 to 2384659 extents.
Resizing volume “/dev/md0” to 19535131392 sectors.
Updating physical volume “/dev/md0”
Creating volume group backup “/etc/lvm/backup/Array00” (seqno 3).
Physical volume “/dev/md0” changed
1 physical volume(s) resized / 0 physical volume(s) not resized

これでPVが拡張で来たかを確認する。

$ sudo pvs -v
Scanning for physical volume names
PV         VG      Fmt  Attr PSize   PFree   DevSize PV UUID
/dev/md0   Array00 lvm2 a-     9.10t   3.64t 9.10t eAZgg9-1tAW-XY36-UmBc-LjGn-HXiG-aiIvZF

PV拡張完了。RAID6上のPVを拡張すると自動的にVGの容量も拡張される。次にLV区画をVG容量いっぱいまで拡張する。

$ sudo lvextend -l +100%VG /dev/mapper/Array00-lv00
Extending logical volume lv00 to 9.10 TiB
Logical volume lv00 successfully resized

ここまではコマンド実行と共に数秒で完了する。最後にext4区画をresize2fsを使って拡張する。

$ sudo resize2fs /dev/mapper/Array00-lv00

Filesystem at /dev/mapper/Array00-lv00 is mounted on /mnt/disk020; on-line resizing required
old desc_blocks = 350, new_desc_blocks = 583
Performing an on-line resize of /dev/mapper/Array00-lv00 to 2441890816 (4k) blocks.
The filesystem on /dev/mapper/Array00-lv00 is now 2441890816 blocks long.

3時間ほどで拡張完了。

$ df -h -T -P

/dev/mapper/Array00-lv00 ext4  9.0T  4.5T  4.1T  53% /mnt/disk020

容量も無事増加。

2010年5月7日から5月19日まで延べRAID6の構築に12日間かかったことになる。大部分は待ち時間であったが、RAIDアレイの拡張中(reshape)にハードディスクが1台故障するというトラブルが無ければ2日程度は短くなっただろう。

…と思ったら故障したハードディスクの交換品が今日宅配便で到着した。これからまたRAIDアレイの拡張作業に10日かかるんだな…。