Vysoká dostupnost a odolnost dat
Cephové objektové úložiště dosahuje dostupnosti dat pomocí replikace a pokročilého kódování s využitím parity, kdy jsou data kombinována s informacemi o paritě a poté rozdělena a distribuována po úložištním bazénu.
Když selže úložný zařízení, je potřeba pouze podmnožina fragmentů k obnovení dat, není zde žádný čas na obnovu ani snížený výkon a selhání úložných zařízení lze nahradit, když je to vhodné.
Ceph kombinuje široce distribuovaná data a technologii pro ověřování dat, která neustále ověřuje data zapsaná na médiu, což vám umožní dosáhnout 15 devítek datové odolnosti.
Replikace dat, kódování s využitím parity a ověřování
Replikace objektů
Když klient chce zapisovat data, používá identifikátor objektu a název skupiny pro výpočet, na který OSD má zapisovat. Poté, co klient zapíše data do OSD, OSD zkopíruje data na jeden nebo více OSD. Můžete nakonfigurovat libovolný počet replikací, aby data mohla přežít v případě současného selhání více OSD. Replikace je podobná RAID-1 diskového pole, ale umožňuje více kopií dat. Protože při velkém měřítku již jednoduchá replikace RAID-1 nemusí dostatečně pokrýt riziko hardwarového selhání. Jedinou nevýhodou ukládání více replik je náklad na úložiště.
Klienti Cephu zapisují data náhodně do OSD na základě algoritmu CRUSH.Pokud selže disk OSD nebo uzel, Ceph může znovu vyléčit data z jiných replikací uložených ve zdravých OSD.
Můžete definovat doménu selhání, aby Ceph ukládal replikovaná data na různé servery, regály, místnosti nebo datová centra, aby se zabránilo ztrátě dat v důsledku jednoho nebo více selhání celé domény selhání.Například, pokud máte nainstalováno 15 úložných serverů ve 5 rackech (3 servery v každém racku), můžete použít repliku tři a rack jako oblast selhání.Data zápis do Ceph clusteru budou vždy uložena ve třech kopiích na třech z pěti regálů.Data mohou přežít i při selhání až 2 regálů bez degradace služby pro klienta.Pravidlo CRUSH je klíčem k tomu, aby úložiště Ceph mělo žádný jediný bod selhání.
Kódování vymazáváním
Replikace nabízí nejlepší celkový výkon, ale není příliš účinná z hlediska úložného prostoru.Zejména pokud potřebujete vyšší stupeň redundance.
Proto jsme v minulosti používali RAID-5 nebo RAID-6 jako alternativu k RAID-1, abychom měli vysokou dostupnost dat.Paritní RAID zajišťuje redundanci s mnohem menšími náklady na úložiště na úkor výkonu úložiště (převážně zápisový výkon).Ceph používá kódování s vymazáváním pro dosažení podobného výsledku.Když se velikost vašeho úložného systému stává velkou, můžete se necítit jistě, pokud dovolíte selhání pouze jednoho nebo dvou disků nebo selhání domén najednou.Algoritmus kódování vymazání vám umožňuje nastavit vyšší úroveň redundance, ale s menším nákladem na místo.
Kódování vymazání rozděluje původní data na K datových částí a vypočítává dalších M kódových částí.Ceph může obnovit data maximálně M selhání domén selháním v mezičase.Celkový počet K+M částic je uložen v OSD, které se nacházejí v různých oblastech selhání.
Čištění
V rámci udržování konzistence a čistoty dat mohou démoni Ceph OSD provádět kontrolu objektů v rámci skupin umístění. To znamená, že démoni Ceph OSD mohou porovnávat metadatové objekty v jedné skupině umístění se svými replikami ve skupinách umístění uložených na jiných OSD. Čištění (obvykle prováděné denně) odhaluje chyby nebo chyby v souborovém systému. Ceph OSD démoni také provádějí hloubkové pročištění porovnáváním dat v objektech bit po bitu. Hloubkové čištění (obvykle prováděné týdně) odhaluje vadné sektory na disku, které nebyly patrné při lehkém čištění.
Ošetření dat
Vzhledem k návrhu umístění dat v systému Ceph jsou data obnovována všemi zdravými OSD. Pro obnovu dat není potřeba žádný náhradní disk. To může výrazně zkrátit dobu obnovy oproti diskovému poli, které musí znovu vytvořit ztracená data na náhradním disku.
- Konfigurace mapy a pravidel CRUSH