RAID v Linuxu
RAID (Redundant Array of Inexpensive Disks) je metoda, jak zvýšit výkon diskového systému nebo bezpečnost na disku uložených dat bez extrémních pořizovacích nákladů. Patří všude tam, kde je výpadek disku nebo dokonce ztráta dat nepřípustná. Typické nasazení jsou servery v počítačových sítích a místa, kde i malý výpadek přináší velké ekonomické ztráty.
Obsah
Úrovně RAID
Úrovně RAID se liší různou úrovní zabezpečení dat a výkonností. V praxi se nepoužívají všechny definované úrovně, ale jen ty nejvýhodnější. Podrobné informace najdete například na adrese http://cs.wikipedia.org/wiki/RAID.
RAID 0 (disk striping)
RAID 0 není vlastně žádný RAID. Zajišťuje pouze zvýšení výkonu paralelním provozováním více disků. Pole může být lineární (disky jsou jakoby spojeny za sebou) nebo prokládaná (kapacita je rozdělena na bloky, které se střídají – např. všechny liché na prvním a všechny sudé na druhém disku). Veškerá kapacita je určena pro ukládání dat (žádný prostor pro bezpečnostní informace). Pole má velikost 100% celkové kapacity. Při výpadku disku jsou data ztracena.
RAID 1 (disk mirroring)
RAID 1 je nejstarší používaná metoda zabezpečení dat. V počítači jsou dva stejně velké disky a oba provádějí všechny požadované operace. Rychlost zápisu proto klesá na 1/2 (musí se zapsat na oba disky). Naopak rychlost čtení může být v ideálním případě dvojnásobná (z každého disku je potřeba přečíst jen 1/2 dat). Pole má velikost 50% celkové kapacity. Při výpadku disku z pole 2 disků je dále používán pouze zbývající disk a data nejsou dotčena. Vypadlý disk je však potřeba co nejrychleji nahradit, protože data už nejsou chráněna.
RAID 5
Bezpečnostní informace o paritě se ukládá rozprostřeně na všechny disky v poli, takže nedochází k přetěžování některého z disků. Zabezpečovací informace zabírají kapacitu jednoho z použitých disků. Minimální počet disků je 3. Pomocí zabezpečovací informace lze dopočítat ztracená data z 1 vypadlého disku. Výsledná kapacita je rovná součtu kapacity všech disků bez jednoho, takže s počtem disků se režie zmenšuje. Vypadlý disk je však potřeba co nejrychleji nahradit, protože data už nejsou chráněna.
RAID 6
RAID 6 je obdoba RAID 5, zabezpečovací informace jsou rozprostřeny po všech discích a zabírají kapacitu 2 disků. Pole je tak odolné vůči výpadku 2 disků. Při výpadku jednoho disku jsou tedy data po dobu rekonstrukce pole stále chráněna.
RAID 10
Označuje se jako RAID 1+0. Zrcadlené disky jsou tedy spojeny do 1 výsledného pole. Pole vyniká vysokou rychlostí čtení.
Administrace RAIDu v Linuxu
RAID pole lze v Linuxu vytvářet pomocí MD subsystému. Pro administraci RAID polí slouží v Linux příkaz mdadm
.
Stav pole
Jádro Linuxu udržuje informace o aktuálním stavu MD subsystému v souboru /proc/mdstat
. Pokud jsou v poli všechny disky, je pole funkční. V případě výpadku disku mluvíme o degradovaném RAID poli. Při vložení disku zpět do pole dojde k rekonstrukci chybějících dat (neplatí u RAID 0).
V níže uvedeném příkladu je v systému pole RAID 0, které se skládá ze dvou disků (sda1 a hda1). Pole je plně funkční (oba disku jsou ve stavu U jako up).
$ cat /proc/mdstat Personalities : [raid1] md0 : active raid1 sda1[0] hda1[1] 19542976 blocks [2/2] [UU] unused devices: <none>
Detaily o aktivních polích je možné uložit do konfiguračního souboru pomocí příkazu:
echo DEVICE partitions > /etc/mdadm.conf mdadm --detail --scan >> /etc/mdadm.conf
Oddíly pro RAID
Pole RAID se obvykle sestavuje s oddílů. Pokud jsou oddíly, ze kterých je RAID pole sestaveno, označeny číselným identifikátorem fd (typ Linux raid autodetect), mohou být při startu jádra automaticky sestaveny (což je důležité v případě, že kořenový souborový systém také na RAID poli). V takovém případě ale musí být příslušné moduly přítomny v initrd obrazu, který jádro používá při svém zavedení do paměti počítače při startu systému.
V následujícím příkladu jsou vždy 1. a 3. oddíl na pevném disku /dev/hda
a /dev/sda
určen pro sestavení RAID pole:
$ fdisk -l /dev/hda Disk /dev/hda: 120.0 GB, 120060444672 bytes 255 heads, 63 sectors/track, 14596 cylinders Units = cylindry of 16065 * 512 = 8225280 bytes Zařízení Boot Start End Blocks Id System /dev/hda1 * 1 2433 19543041 fd Linux raid autodetect /dev/hda2 2434 2677 1959930 82 Linux swap / Solaris /dev/hda3 2678 14593 95715270 fd Linux raid autodetect
$ fdisk -l /dev/sda Disk /dev/sda: 120.0 GB, 120060444672 bytes 255 heads, 63 sectors/track, 14596 cylinders Units = cylindry of 16065 * 512 = 8225280 bytes Zařízení Boot Start End Blocks Id System /dev/sda1 * 1 2433 19543041 fd Linux raid autodetect /dev/sda2 2434 2677 1959930 82 Linux swap / Solaris /dev/sda3 2678 14593 95715270 fd Linux raid autodetect
Vytvoření pole
Pole se vytváří vždy v degradovaném stavu (neplatí pro RAID 0), takže okamžitě po vytvoření je zahájena rekonstrukce pole. Parametr -l
určuje typ RAID pole (0, 1, 5, 6 apod.), parametr -n
určuje počet prvků pole. Jednotlivé prvky pole musí být poté vyjmenovány:
# vytvoření RAID 0 mdadm -C /dev/md1 -l0 -n2 /dev/hda3 /dev/sda3
# vytvoření RAID 1 mdadm -C /dev/md1 -l1 -n2 /dev/hda3 /dev/sda3
# vytvoření RAID 5 mdadm -C /dev/md1 -l5 -n3 /dev/hda3 /dev/sda3 /dev/sdb3
Pokud při vytvoření pole nedodáme všechny potřebné části, vytvoří se také, ale zůstane v degradovaném stavu.
Vytvoření souborového systému
Na vytvořeném poli je možné vytvořit souborový systém. Není nutné čekat, až proběhne rekonstrukce pole. Příkaz tune2fs
vypíná automatické kontroly souborového systému, aby je mohl administrátor naplánovat na vhodnou dobu, kdy nebude neočekávaně prodloužen restart systému.
mkfs -t ext3 -j /dev/md1 tune2fs -c0 -i0 /dev/md1
V případě vytváření souborového systému pro běžnou instalaci (tj. cca 30 GB) je možné nechat počet vytvořených inodů na příkazu mkfs
. V případě, že vytváříme souborový systém pro domácí adresáře, ve kterých nebude mnoho malých souborů, je možné počet inodů zmenšit (přepínačem -N
). Kontrola pomocí příkazu fsck
pak probíhá mnohem rychleji. Tuto negativní vlastnost odstraňuje systém souborů ext4.
V případě polí s prokládanou strukturou (např. RAID 5 nebo 6) může mít vliv na výkonnost pole parametr stride, který je závislý na velikosti chunku u vytvořeného pole. Cílem je, aby aktualizace obsahu souborového systému nezasahovala do sousedního chunku pole, protože by se zbytečně zvýšil počet nutných I/O operací.
Pole s vytvořeným souborovým systém lze připojit do systému (a zkontrolovat kapacitu):
mount /dev/md1 /adresář df -h
Degradované pole
V případě problémů s diskem ho jádro automaticky označí jako F (failed) nebo ho rovnou z pole vyřadí (remove). Tím se pole dostane do degradovaného stavu.
Disk lze z pole vyřadit také ručně. Nejprve ho označíme jak failed (volba -f
) a pak ho z pole teprve odstraníme (remove, volba -r
). Pole bude dál pokračovat v degradovaném režimu:
mdadm /dev/md1 -f /dev/sda3 mdadm /dev/md1 -r /dev/sda3
Nechceme-li již odstraněný prvek pole používat, je nutné smazat informace v superbloku pole, aby si takového oddílu jádro již nevšímalo. Při použití tohoto příkazu musí být oddíl z pole předem vyřazen (viz výše):
mdadm --zero-superblock /dev/sda3
Rekonstrukce degradovaného pole
Pokud do degradovaného pole doplníme chybějící disk (tzv. hot-add), začne automaticky jeho rekonstrukce:
mdadm /dev/md1 -a /dev/sda3
Postup rekonstrukce lze sledovat v souboru /proc/mdstat
(viz výše). Rekonstrukce pole je odložena (DELAYED), pokud by měla probíhat na stejném disku, na kterém již nějaká rekonstrukce běží. Po dokončení aktivní rekonstrukce je automaticky zahájena odložená rekonstrukce.
Zastavení pole
Pole lze zastavit pouze v případě, že se nepoužívá (nesmí být připojeno příkazem mount):
mdadm -S /dev/md1
Sestavení pole
Chceme-li zastavené pole znovu spustit a zachovat data, musí být jen sestaveno (ne tedy vytvořeno, jak je uvedeno výše). K tomu slouží příkaz, kterému parametrem -m
sdělíme, pro jaké minor number má hledat oddíly (tj. pro /dev/md9
by to bylo číslo 9):
mdadm -A /dev/md1 -m1
Opět lze sestavit pole v degradovaném stavu, avšak je nutné přidat parametr --run
:
mdadm -A /dev/md1 -m1 --run
Pole lze místo sestavení (parametr -A
) také znovu vytvořit (parametr -C
, viz výše), avšak rekonstrukce špatně sestaveného pole může poškodit data. V takovém případě vytváříme pole tak, aby nebylo kompletní a rekonstrukci zahájíme až po ověření, že bylo pole správně sestaveno (používá se například u pole RAID 5, na kterém havarovaly dva disky a pokoušíme se zachránit data).
Zjištění vlastností pole
Vlastnosti pole lze zjistit několika různými způsoby:
mdadm -D /dev/md0 mdadm -Q --detail /dev/md0
V obou případech je zobrazeno například toto:
/dev/md0: Version : 00.90.01 Creation Time : Thu Mar 12 01:34:06 2009 Raid Level : raid1 Array Size : 39086016 (37.28 GiB 40.02 GB) Device Size : 39086016 (37.28 GiB 40.02 GB) Raid Devices : 2 Total Devices : 2 Preferred Minor : 0 Persistence : Superblock is persistent Update Time : Tue Jul 21 10:55:23 2009 State : clean Active Devices : 2 Working Devices : 2 Failed Devices : 0 Spare Devices : 0 UUID : ae074243:b857e8b6:85943576:cab70855 Events : 0.13454779 Number Major Minor RaidDevice State 0 8 1 0 active sync /dev/sda1 1 8 17 1 active sync /dev/sdb1
Ve výše uvedeném výpisu je vypsána informace o poli typu RAID1 (zrcadlo), které se skládá ze dvou oddílů (/dev/sda1
, /dev/sdb2
), jejich major-minor čísla jsou 8-1 a 8-17 (tj. čísla speciálních zařízení jednotlivých jednotlivých oddílů). Preferované minor number pole je 0 (nula), takže je pole automaticky sestaveno jako /dev/md0
. Položka update time je používána při sestavování pole, kdy je potřeba zjistit, které členy pole obsahují platná data (novější záznam o poslední aktualizaci pole). Pokud jsou tedy u dvou členů zrcadla (RAID1) časy různé, použije se při sestavení pouze novější člen a starší člen je poté nutno s polem synchronizovat (viz kapitola Rekonstrukce degradovaného pole).
Výše uvedené informace se zapisují do superbloku každého členu pole (dříve se superbloky nepoužívaly, takže bylo například obtížné pole po změně zapojení disků správně složit). Informace o poli musí být konzistentní ve všech členech pole. Z jednotlivých členů pole lze informace jednotlivě zjistit pomocí příkazu:
mdadm -Q --examine /dev/sda1
Ve výstupu příkazu je obdobná tabulka jako je uvedena výše. Navíc je vyznačeno, jakého člena pole jsme se zeptali.
Změna preferovaného minor number
V superbloku pole je zaneseno preferované minor number, se kterým je pole sestaveno. Tj. pro minor number 0 (nula) je vytvořeno zařízení /dev/md0
. Někdy je potřeba, aby se pole automaticky sestavilo pod jiným názvem zařízení (například 1, tj. /dev/md1
). V některých případech aktualizuje záznamy samo jádro, avšak obvykle je nutné změnit je ručně. Pole v takovém případě sestavíme s parametrem --update=super-minor
, který aktualizaci záznamů zajistí v okamžiku sestavení pole:
mdadm -A /dev/md1 -m1 --update=super-minor
Změna velikosti pole
Pro změny v organizaci pole slouží parametr -G
(režim grow). Nestačí-li nám již místo na disku, můžeme jeden starý disk vyměnit za nový, opět spustit počítač, vytvořit na novém disku větší oddíly a přidat je do existujícího pole. Proběhne rekonstrukce, avšak pole zůstane v původní velikosti (pole nevyužije větší oddíl celý). Vyměníme druhý starý disk za nový, vytvoříme na něm oddíly a znovu spustíme rekonstrukci. V tomto okamžiku máme k dispozici kompletní pole, které je menší, než umožňují vytvořené oddíly. Takové pole lze snadno zvětšit příkazem:
mdadm -G /dev/md1 --size max
Ve zbytku pole automaticky proběhne rekonstrukce, která zajistí identický obsah nové oblasti. V tuto chvíli můžeme zvětšit souborový systém, který se na poli nachází. Podporuje-li použité jádro zvětšování za provozu (online-resize), není potřeba souborový systém odpojovat a stačí pouze zadat příkaz:
resize2fs -p /dev/md1
Není-li online zvětšování k dispozici, je nutné pole odpojit (příkazem umount), souborový systém zvětšit a poté pole znovu připojit. Samozřejmě je možné provést změnu velikosti i během rekonstrukce pole (po přidání druhého disku).
Monitorování stavu pole
Nástroj mdadm
umožňuje monitorovat stav pole a v případě, že dojde k rozpadnutí pole (které však může dále pokračovat v činnosti), odešle upozornění administrátorovi systému. Administrátor se obvykle pokusí zahájit rekonstrukci pole pouhým přidáním vypadlého oddílu znovu do pole (viz výše), případně musí vyměnit vadný disk, vytvořit znovu oddíly a teprve pak pole nechat zrekonstruovat.
Nejprve připravíme konfigurační soubor /etc/mdadm.conf
, ve kterém by mělo být alespoň:
DEVICE partitions MAILADDR root
V RHEL je pro monitorování k dispozici skript, který spustí hlídacího démona. Druhým příkazem démona necháme automaticky spouštět při startu systému:
/etc/init.d/mdmonitor start chkconfig mdmonitor on
Spolupráce s LVM
Jednotlivá vytvořená pole jsou často používána jako stavební prvky pro LVM (viz LVM v Linuxu, tzv. PV). LVM umožňuje plynule za chodu systému zvyšovat kapacitu, snadno migrovat souborový systém na nové disky, vytvářet snímky atd.
Význam dmraid
Jádro implementuje tzv. dmraid, což jsou pole, která se vytvářejí pro tzv. softwarové řadiče RAID (často obsažené na základních deskách). Pro jejich správu slouží speciální příkaz dmraid
. Pro svoji činnost používá dm
zařízení (jako LVM v Linuxu). Obecně je nelze doporučit, protože mají proti zde popisovaným md
zařízením omezené možnosti. Sofwarový RAID řadič poskytuje jen informace o jejich složení a konfiguraci.