Apa itu Apache HBase?

Apache HBase adalah penyimpanan big data sumber terbuka, NoSQL, dan terdistribusi. Apache HBase memungkinkan akses acak yang benar-benar konsisten dan secara waktu nyata ke petabita data. HBase sangat efektif untuk menangani set data yang besar dan jarang.

HBase terintegrasi secara mulus dengan Apache Hadoop dan ekosistem Hadoop serta berjalan di atas Hadoop Distributed File System (HDFS) atau Amazon S3 menggunakan sistem file Amazon Elastic MapReduce (EMR), atau EMRFS. HBase berfungsi sebagai input dan output langsung ke kerangka kerja Apache MapReduce untuk Hadoop, dan bekerja dengan Apache Phoenix untuk mengaktifkan kueri seperti SQL melalui tabel HBase. 

Logo HBase

Bagaimana cara kerja HBase?

HBase adalah basis data nonrelasional yang berorientasi kolom. Hal ini berarti bahwa data disimpan dalam kolom individual, dan diindeks oleh kunci baris yang unik. Arsitektur ini memungkinkan pengambilan cepat baris dan kolom individu, dan pemindaian yang efisien pada kolom individual dalam tabel. Baik data maupun permintaan didistribusikan di semua server dalam klaster HBase, yang memungkinkan Anda untuk mengueri hasil pada petabita data dalam milidetik. HBase paling efektif digunakan untuk menyimpan data nonrelasional, yang diakses melalui API HBase. Apache Phoenix umumnya digunakan sebagai lapisan SQL di atas HBase yang memungkinkan Anda menggunakan sintaksis SQL yang familier untuk menyisipkan, menghapus, dan mengueri data yang disimpan di HBase.

Apa saja manfaat dari HBase?

Skala Dapat Dikembangkan

HBase dirancang untuk menangani penskalaan di ribuan server dan mengelola akses ke petabita data. Dengan elastisitas Amazon EC2, dan skalabilitas Amazon S3, HBase mampu menangani akses online ke set data besar.

Cepat

HBase menyediakan akses baca dan tulis acak latensi rendah ke petabita data dengan mendistribusikan permintaan dari aplikasi di seluruh klaster host. Setiap host memiliki akses ke data di HDFS dan S3, serta melayani permintaan baca dan tulis dalam hitungan milidetik.

Toleransi Kesalahan

HBase membagi data yang disimpan dalam tabel di beberapa host di klaster dan dibangun agar tahan terhadap kegagalan host individu. Karena data disimpan di HDFS atau S3, host yang sehat akan secara otomatis dipilih untuk melakukan hosting data setelah dilayani oleh host yang gagal, dan data akan online secara otomatis.

Apa saja kasus penggunaan untuk Hbase?

FINRA (Financial Industry Regulatory Authority) adalah regulator sekuritas independen terbesar di Amerika Serikat, yang memantau dan mengatur praktik perdagangan keuangan. FINRA menggunakan Amazon EMR untuk menjalankan Apache HBase di Amazon S3 untuk akses acak pada 3 miliar catatan (tumbuh menjadi miliaran per hari) untuk aplikasi interaktif guna mencari dan menampilkan peristiwa pasar terkait. Dengan memisahkan penyimpanan dan komputasi, FINRA dapat menyimpan satu salinan data mereka di Amazon S3 dan mengukur klaster mereka untuk kapasitas komputasi yang dibutuhkan, daripada mengukur klaster mereka untuk menyimpan data di HDFS dengan replikasi sebanyak 3x. Hal ini berarti penghematan biaya lebih dari 60% per tahun, skalabilitas komputasi yang mudah, dan mengurangi waktu pemulihan klaster di zona ketersediaan EC2 baru dari hitungan hari menjadi kurang dari 30 menit.

Monster, pemimpin global dalam menghubungkan manusia dan tugas, yang menggunakan Apache HBase on Amazon EMR untuk menyimpan data clickstream dan kampanye iklan untuk analitik hilir. Hal ini memungkinkan mereka untuk memantau cara segmen pelanggan yang berbeda beperforma dalam kampanye tertentu berdasarkan granularitas satu tayangan. Tim analitik Monster dapat dengan mudah memindai baris untuk mengumpulkan jumlah penayangan dan klik per pengguna untuk mengidentifikasi aktivitas kampanye. Selain itu, mereka memanfaatkan integrasi Apache HBase yang kuat dengan ekosistem Apache Hadoop. Monster menjalankan Apache Hive pada klaster Amazon EMR terpisah untuk mengueri tabel HBase mereka dengan SQL, yang berguna untuk analitik tambahan dan mengekspor data dari Apache HBase ke Amazon Redshift.  

Bagaimana AWS dapat mendukung HBase dan Hadoop?

Amazon EMR menyediakan kerangka kerja Hadoop terkelola yang termudah, tercepat, dan paling hemat biaya, yang memungkinkan pelanggan memproses data dalam jumlah besar di seluruh instans EC2 yang dapat diskalakan secara dinamis. Pelanggan juga dapat menjalankan kerangka kerja terdistribusi populer lainnya, seperti Apache HBase, Hive, Spark, Presto, dan Flink di EMR. 

Pelajari selengkapnya tentang Amazon EMR

Mulai Apache HBase di AWS dengan membuat akun AWS gratis sekarang juga.

Langkah Berikutnya di AWS

Daftar untuk akun gratis

Dapatkan akses secara instan ke AWS Tingkat Gratis.

Daftar 
Mulai membangun di konsol

Mulai membangun di konsol manajemen AWS.

Masuk