Course All lectures for HU purposes - Lecture: BigData: HBase

6.1 Ki találta fel a HBase-t és miért

Ebben az előadásban egy olyan csodálatos eszközről lesz szó, mint a Hbase, amely az utóbbi időben nagy népszerűségre tett szert: például a Facebook ezt használja üzenetküldő rendszerének alapjául, és ez már sokat mond.

Az előadás a Big Table koncepciójáról és annak ingyenes megvalósításáról, a munka jellemzőiről és a klasszikus relációs adatbázisoktól (például MySQL és Oracle), valamint a kulcsérték-tárolóktól, mint például a Redis, az Aerospike és a memcached közötti különbségekről lesz szó. Szokás szerint kezdjük a probléma történetével. Sok más BigData projekthez hasonlóan a Hbase is a Google által kidolgozott koncepció alapján született. A Hbase alapelveit a Bigtable: A Distributed Storage System for Structured Data cikk ismerteti .

Amint azt az előző előadásokban tárgyaltuk, a közönséges fájlok meglehetősen alkalmasak kötegelt adatfeldolgozásra a MapReduce paradigmával. Másrészt a fájlokban tárolt információk frissítése meglehetősen kényelmetlen; A fájlokat a véletlenszerű hozzáférés lehetőségétől is megfosztják. A véletlen hozzáférésű gyors és kényelmes munkavégzéshez a nosql rendszerek egy osztálya létezik, mint például a kulcsértékek tárolása, mint például az Aerospike, Redis, Couchbase, Memcached. A kötegelt feldolgozás azonban általában nagyon kényelmetlen ezekben a rendszerekben. A Hbase a kötegelt feldolgozás kényelmét a frissítés és a véletlenszerű hozzáférés kényelmével ötvözi.

6.2 Adatmodell

A HBase egy elosztott, oszloporientált, több verziójú kulcsérték adatbázis.

Az adatok a Hbase-ben a RowKey nevű elsődleges kulcs által indexelt táblázatokba vannak rendezve.
Minden RowKey kulcshoz korlátlan számú attribútum (vagy oszlop) tárolható.
Az oszlopok oszlopcsaládokba vannak rendezve. Általános szabály, hogy az azonos használati és tárolási mintával rendelkező oszlopok egy oszlopcsaládba vannak egyesítve.
Minden attribútumhoz több különböző verzió is tárolható. A különböző verziók eltérő időbélyeggel rendelkeznek.

A rekordok fizikailag RowKey rendezett sorrendben vannak tárolva. Ebben az esetben a különböző Oszlopcsaládokhoz tartozó adatok külön kerülnek tárolásra, ami lehetővé teszi, hogy szükség esetén csak a kívánt oszlopcsaládból lehessen kiolvasni az adatokat.

Egy adott attribútum törlésekor az fizikailag nem törlődik azonnal, hanem csak egy speciális sírkő zászlóval van megjelölve. Az adatok fizikai törlésére később, a fő tömörítési művelet végrehajtásakor kerül sor.

Az azonos oszlopcsoporthoz tartozó és ugyanannak a kulcsnak megfelelő attribútumok fizikailag rendezett listaként tárolódnak. Bármely attribútum hiányozhat vagy jelen lehet minden kulcsnál, és ha az attribútum hiányzik, ez nem okoz többletköltséget az üres értékek tárolására.

A lista- és oszlopcsoportnevek rögzítettek, és egyértelmű elrendezésűek. Az oszlopcsoport szintjén olyan paraméterek vannak beállítva, mint az élettartam (TTL) és a tárolt verziók maximális száma. Ha egy adott verzió időbélyege és az aktuális idő közötti különbség nagyobb, mint a TTL, a bejegyzés törlésre kerül. Ha egy adott attribútum verzióinak száma meghaladja a verziók maximális számát, a rekord is törlésre kerül.

A Hbase adatmodell kulcs-érték egyezésként jegyezhető meg:

<table, RowKey, Column Family, Column, timestamp> -> Value

6.3 Támogatott műveletek

A hbase támogatott műveleteinek listája meglehetősen egyszerű. 4 fő művelet támogatott:

Put : új bejegyzés hozzáadása a hbase-hez. Ennek a bejegyzésnek az időbélyegzője kézzel beállítható, ellenkező esetben automatikusan az aktuális időre lesz beállítva.
Get : Adatok lekérése egy adott RowKey-hez. Megadható, hogy melyik oszlopcsaládból vesszük az adatokat, és hány verziót szeretnénk olvasni.
Szkennelés : a rekordok egyenkénti olvasása. Megadhatja, hogy melyik rekordtól kezdjük az olvasást, melyik rekordot olvassa el, hány rekordot olvasson, melyik oszlopcsaládból történik a kiolvasás, és az egyes rekordok maximális verziószáma.
Törlés : Egy adott verzió megjelölése törlésre. Fizikai törlés nem lesz, a következő nagy tömörítésig elhalasztják (lásd lent).

6.4 Építészet

A HBase egy elosztott adatbázis, amely több tucat vagy több száz fizikai szerveren futhat, biztosítva a zavartalan működést még akkor is, ha egyesek meghibásodnak. Ezért a HBase architektúrája meglehetősen bonyolult a klasszikus relációs adatbázisokhoz képest.

A HBase két fő folyamatot használ a munkájához:

1. Region Server – Egy vagy több régiót szolgál ki. A régió az egymást követő sorkulcsok meghatározott tartományának megfelelő rekordok tartománya. Minden régió a következőket tartalmazza:

A Persistent Storage a HBase fő adattárolója. Az adatokat fizikailag HDFS-en tárolják, speciális HFile formátumban. A HFile-ben tárolt adatok RowKey rendezett sorrendben kerülnek tárolásra. Egy pár (régió, oszlopcsalád) legalább egy HFIle-nek felel meg.
MemStore - írási puffer. Mivel az adatok rendezett sorrendben tárolódnak a HFile d-ben, a HFile rekordonkénti frissítése meglehetősen költséges. Ehelyett írás közben az adatok egy speciális MemStore memóriaterületre kerülnek, ahol egy ideig felhalmozódnak. Amikor a MemStore valamilyen kritikus értékre megtelt, az adatok egy új HFile-be íródnak.
BlockCache - gyorsítótár az olvasáshoz. Lehetővé teszi, hogy jelentősen időt takarítson meg a gyakran olvasott adatokkal.
Írjon előre naplót (WAL) . Mivel az adatok a memstore-ba íródnak, fennáll az adatvesztés veszélye egy összeomlás miatt. Ennek elkerülése érdekében a manipulációk tényleges végrehajtása előtt minden művelet egy speciális naplófájlba kerül. Ez lehetővé teszi az adatok helyreállítását bármilyen hiba után.

2. Master Server – a fő szerver a HBase-fürtben. A Mester irányítja a régiók elosztását a Régiószerverek között, vezeti a régiók nyilvántartását, irányítja a rendszeres feladatok elindítását és egyéb hasznos munkát végez.

A szolgáltatások közötti műveletek összehangolására a HBase az Apache ZooKeeper nevű speciális szolgáltatást használja, amely a konfigurációk kezelésére és a szolgáltatások szinkronizálására szolgál.

Amikor a régióban lévő adatmennyiség növekszik, és elér egy bizonyos méretet, a Hbase elkezdi a felosztást, egy műveletet, amely a régiót 2-vel osztja fel. A régiók állandó felosztásának elkerülése érdekében előre beállíthatja a régiók határait, és növelheti a maximális értéküket. méret.

Mivel egy régió adatai több HFile-ben is tárolhatók, a Hbase rendszeresen egyesíti őket a munka felgyorsítása érdekében. Ezt a műveletet tömörítésnek nevezik a Hbase-ben. A tömörítések két típusból állnak:

Kisebb tömörítés . Automatikusan indul, fut a háttérben. Más Hbase műveletekhez képest alacsony prioritású.
Jelentős tömörítés . Kézzel vagy bizonyos triggerek (például időzítő) hatására indul el. Magas prioritású, és jelentősen lelassíthatja a klasztert. A főbb tömörítéseket legjobb olyan időszakban végezni, amikor a fürt terhelése kicsi. A Major Compaction fizikailag is törli a korábban sírkővel megjelölt adatokat.

6.5 A HBase használatának módjai

HBase Shell

A Hbase használatának legegyszerűbb módja a hbase shell segédprogram használata. A hbase bármely hbase fürtcsomópontra történő telepítése után azonnal elérhető.

A Hbase shell egy jruby konzol, amely beépített támogatja az összes alapvető Hbase műveletet. A következő példa egy felhasználói tábla létrehozására két oszlopcsaláddal, néhány manipuláció elvégzésére, és a tábla eldobására a hbase shellben:

create 'users', {NAME => 'user_profile', VERSIONS => 5}, {NAME => 'user_posts', VERSIONS => 1231231231} 
put 'users', 'id1', 'user_profile:name', 'alexander' 
put 'users', 'id1', 'user_profile:second_name', 'alexander' 
get 'users', 'id1' 
put 'users', 'id1', 'user_profile:second_name', 'kuznetsov' 
get 'users', 'id1' 
get 'users', 'id1', {COLUMN => 'user_profile:second_name', VERSIONS => 5} 
put 'users', 'id2', 'user_profile:name', 'vasiliy' 
put 'users', 'id2', 'user_profile:second_name', 'ivanov' 
scan 'users', {COLUMN => 'user_profile:second_name', VERSIONS => 5} 
delete 'users', 'id1', 'user_profile:second_name' 
get 'users', 'id1' 
disable 'users' 
drop 'users'

Natív API

A legtöbb más, hadooppal kapcsolatos projekthez hasonlóan a hbase is Java nyelven van megvalósítva, így a natív api elérhető Java nyelven. A Native API elég jól dokumentált a hivatalos weboldalon. Íme egy példa a Hbase API használatára onnan vettük:

import java.io.IOException;

import org.apache.hadoop.hbase.*;
import org.apache.hadoop.hbase.client.*;
import org.apache.hadoop.hbase.util.Bytes;

public class MyLittleHBaseClient {
  public static void main(String[] args) throws IOException {
	Configuration config = HBaseConfiguration.create();
	Connection connection = ConnectionFactory.createConnection(config);
	try {
  	Table table = connection.getTable(TableName.valueOf("myLittleHBaseTable"));
  	try {
    	Put p = new Put(Bytes.toBytes("myLittleRow"));
    	p.add(Bytes.toBytes("myLittleFamily"), Bytes.toBytes("someQualifier"),
    	Bytes.toBytes("Some Value"));
    	table.put(p);

    	Get g = new Get(Bytes.toBytes("myLittleRow"));
    	Result r = table.get(g);
    	byte [] value = r.getValue(Bytes.toBytes("myLittleFamily"),
      	Bytes.toBytes("someQualifier"));

    	String valueStr = Bytes.toString(value);
    	System.out.println("GET: " + valueStr);

    	Scan s = new Scan();
    	s.addColumn(Bytes.toBytes("myLittleFamily"), Bytes.toBytes("someQualifier"));
    	ResultScanner scanner = table.getScanner(s);
    	try {
       	for (Result rr = scanner.next(); rr != null; rr = scanner.next()) {
         	System.out.println("Found row: " + rr);
       	}
     	} finally {
       	scanner.close();
     	}
   	} finally {
     	if (table != null) table.close();
   	}
 	} finally {
   	connection.close();
 	}
  }
}

Takarékosság, REST és más programozási nyelvek támogatása

Más programozási nyelvek használatához a Hbase Thrift API-t és Rest API-t biztosít. Ezek alapján a kliensek minden nagyobb programozási nyelvre épülnek: python, PHP, Java Script stb.

6.6 A HBase alkalmazás néhány funkciója

A Hbase azonnal integrálható a MapReduce-szal, és bemenetként és kimenetként használható a speciális TableInputFormat és TableOutputFormat segítségével.
Nagyon fontos a megfelelő RowKey kiválasztása. A RowKey-nek jó egyenletes eloszlást kell biztosítania a régiók között, különben fennáll az úgynevezett "forró régiók" kockázata - olyan régiók, amelyeket sokkal gyakrabban használnak, mint mások, ami a rendszererőforrások nem hatékony felhasználásához vezet.
Ha az adatokat nem külön-külön, hanem azonnal nagy kötegekben töltik fel, a Hbase egy speciális BulkLoad mechanizmust támogat, amely lehetővé teszi az adatok sokkal gyorsabb feltöltését, mint az egyszeri elhelyezések használata. A BulkLoad lényegében kétlépéses művelet:
- HFile kialakítása putok részvétele nélkül egy speciális MapReduce job segítségével
- A fájlok beszúrása közvetlenül a Hbase-be
A Hbase támogatja metrikáinak a Ganglia megfigyelőkiszolgálóra történő kiadását. Ez nagyon hasznos lehet a Hbase adminisztrációja során, hogy a hbase-problémák mélyére jusson.

sor gomb

A RowKey a felhasználói azonosító, amely egy GUUID, egy speciálisan az egész világon egyedülálló karakterlánc. A GUUID-k egyenletesen vannak elosztva, ami jó adatelosztást biztosít a szerverek között.

Oszlopcsalád

Tárolónk két oszlopcsaládot használ:

adat. Ez az oszlopcsoport olyan adatokat tárol, amelyek már nem relevánsak hirdetési célokra, például azt, hogy a felhasználó felkeresett bizonyos URL-eket. Ennek az oszlopcsaládnak a TTL-je 2 hónapra van beállítva, a verziók számának korlátja 2000.
longdata. Ez az oszlopcsoport olyan adatokat tárol, amelyek idővel nem veszítik el relevanciájukat, például a nemet, a születési dátumot és más „örök” felhasználói jellemzőket.

hangszórók

A felhasználói tények minden típusa külön oszlopban tárolódik. Például a Data:_v oszlop a felhasználó által felkeresett URL-eket, a LongData:gender oszlop pedig a felhasználó nemét tárolja.

Ennek a ténynek az időbélyegzője időbélyegként kerül tárolásra. Például a Data:_v oszlopban az időbélyeg az az idő, amikor a felhasználó felkeresett egy adott URL-t.

Ez a felhasználói adattárolási struktúra nagyon jól illeszkedik használati mintánkhoz, és lehetővé teszi a felhasználói adatok gyors frissítését, a felhasználókról minden szükséges információ gyors megszerzését, valamint a MapReduce segítségével az összes felhasználó adatainak gyors feldolgozását egyszerre.

6.7 Alternatívák

A HBase kezelése és használata meglehetősen bonyolult, ezért a HBase használata előtt érdemes megvizsgálni az alternatívákat:

Relációs adatbázisok . Nagyon jó alternatíva, különösen abban az esetben, ha az adatok egy gépen elférnek. Szintén mindenekelőtt a relációs adatbázisokra kell gondolni abban az esetben, ha az elsődlegestől eltérő indexek tranzakciói fontosak.
Kulcsérték tárolása . Az olyan tárolók, mint a Redis és az Aerospike, jobban megfelelnek, ha késleltetésre van szükség, és a kötegelt feldolgozás kevésbé fontos.
Fájlok és feldolgozásuk a MapReduce segítségével . Ha az adatokat csak hozzáadjuk és ritkán frissítjük/módosítjuk, akkor jobb, ha nem használjuk a HBase-t, hanem egyszerűen fájlokban tároljuk az adatokat. A fájlokkal végzett munka egyszerűsítéséhez olyan eszközöket használhat, mint a Hive, Pig és Impala.

A HBase használata indokolt, ha:

Nagyon sok adat van, és nem férnek el egy számítógépen / szerveren
Az adatok gyakran frissülnek és törlődnek
Az adatokban van egy kifejezett „kulcs”, amelyhez kényelmes minden mást kötni
Kötegelt feldolgozásra van szükség
Véletlenszerű hozzáférésre van szüksége az adatokhoz meghatározott kulcsokkal