Apa itu Apache Hive?
Apache Hive adalah sistem gudang data terdistribusi dan toleran terhadap kesalahan yang memungkinkan analitik dalam skala besar. Gudang data menyediakan pusat penyimpanan informasi yang dapat dengan mudah dianalisis untuk membuat keputusan yang tepat dan didorong data. Hive memungkinkan pengguna untuk membaca, menulis, dan mengelola data petabita menggunakan SQL.
Hive dibangun di atas Apache Hadoop, yang merupakan kerangka kerja sumber terbuka yang digunakan untuk menyimpan dan memproses set data besar secara efisien. Sehingga, Hive terintegrasi erat dengan Hadoop, dan dirancang untuk bekerja dengan cepat pada petabita data. Yang membuat Hive unik adalah kemampuan untuk mengueri set data besar, yang memanfaatkan Apache Tez atau MapReduce, dengan antarmuka seperti SQL.
Bagaimana cara kerja Hive?
Hive dibuat untuk memungkinkan nonpemrogram yang familier dengan SQL bekerja dengan petabita data, menggunakan antarmuka seperti SQL yang disebut HiveQL. Basis data relasional tradisional dirancang untuk kueri interaktif pada set data kecil hingga sedang dan tidak memproses set data besar dengan baik. Hive menggunakan pemrosesan batch sehingga bekerja dengan cepat di basis data terdistribusi yang sangat besar. Hive mengubah kueri HiveQL menjadi tugas MapReduce atau Tez yang berjalan pada kerangka kerja penjadwalan tugas terdistribusi dari Apache Hadoop, yaitu Yet Another Resource Negotiator (YARN). Hive mengueri data yang disimpan dalam solusi penyimpanan terdistribusi, seperti Hadoop Distributed File System (HDFS) atau Amazon S3. Hive menyimpan basis data dan metadata tabelnya dalam metastore, yang merupakan basis data atau penyimpanan yang didukung file yang memungkinkan abstraksi dan penemuan data yang mudah.
Hive menyertakan HCatalog, yang merupakan tabel dan lapisan manajemen penyimpanan yang membaca data dari metastore Hive untuk memfasilitasi integrasi yang mulus antara Hive, Apache Pig, dan MapReduce. Dengan metastore, HCatalog memungkinkan Pig dan MapReduce menggunakan struktur data yang sama dengan Hive sehingga metadata tidak harus didefinisikan ulang untuk setiap mesin. Aplikasi khusus atau integrasi pihak ketiga dapat menggunakan WebHCat, yang merupakan API RESTful untuk HCatalog guna mengakses dan menggunakan kembali metadata Hive.
Apa saja manfaat dari Hive?
Cepat
Hive dirancang untuk menangani petabita data dengan cepat menggunakan pemrosesan batch.
Familier
Hive menyediakan antarmuka seperti SQL yang familier yang dapat diakses oleh nonpemrogram.
Skala Dapat Dikembangkan
Hive mudah didistribusikan dan diskalakan berdasarkan kebutuhan Anda.
Apa saja perbedaan antara Apache Hive vs Apache HBase?
Apache HBase adalah basis data terdistribusi NoSQL yang memungkinkan akses acak yang sangat konsisten dalam waktu nyata ke petabita data. Apache Hive adalah sistem gudang data terdistribusi yang menyediakan kemampuan mengueri seperti SQL.
Karakteristik |
Apache Hive |
Apache HBase |
Fungsi |
Mesin kueri seperti SQL dirancang untuk penyimpanan data volume tinggi. Beberapa format file didukung. |
Penyimpanan nilai kunci terdistribusi latensi rendah dengan kemampuan kueri khusus. Data disimpan dalam format berorientasi kolom. |
Tipe Pemrosesan |
Pemrosesan batch menggunakan kerangka kerja komputasi Apache Tez atau MapReduce. |
Pemrosesan waktu nyata. |
Latensi |
Tergantung pada daya respons mesin komputasi, yaitu sedang hingga tinggi. Model pelaksanaan terdistribusi memberikan performa yang unggul dibandingkan dengan sistem kueri monolitik, seperti RDBMS, untuk volume data yang sama. |
Rendah, tetapi bisa tidak konsisten. Keterbatasan struktural arsitektur HBase dapat mengakibatkan lonjakan latensi di bawah beban tulis yang intens. |
Integrasi Hadoop |
Berjalan di atas Hadoop, dengan Apache Tez atau MapReduce untuk pemrosesan dan HDFS atau Amazon S3 untuk penyimpanan. |
Berjalan di atas HDFS atau Amazon S3. |
Dukungan SQL |
Menyediakan kemampuan mengueri, seperti SQL dengan HiveQL. |
Tidak ada dukungan SQL sendiri. Anda dapat menggunakan Apache Phoenix untuk kemampuan SQL. |
Skema |
Skema yang ditentukan untuk semua tabel. |
Bebas skema. |
Tipe Data |
Mendukung data terstruktur dan tidak terstruktur. Menyediakan dukungan native untuk tipe data SQL umum, seperti INT, FLOAT, dan VARCHAR. |
Hanya mendukung data tidak terstruktur. Pengguna menentukan pemetaan bidang data ke tipe data yang didukung Java. |
Apa saja kasus penggunaan untuk Hive?
Guardian memberi keamanan yang layak didapatkan oleh 27 juta anggotanya melalui produk dan layanan asuransi serta manajemen kekayaan. Guardian menggunakan Amazon EMR untuk menjalankan Apache Hive di danau data S3. Apache Hive digunakan untuk pemrosesan batch. Danau data S3 menyokong Guardian Direct, sebuah platform digital yang memungkinkan konsumen untuk meneliti serta membeli produk Guardian dan produk pihak ketiga di sektor asuransi.
FINRA (Financial Industry Regulatory Authority) adalah regulator sekuritas independen terbesar di Amerika Serikat, yang memantau dan mengatur praktik perdagangan keuangan. FINRA menggunakan Amazon EMR untuk menjalankan Apache Hive di danau data S3. Menjalankan Hive pada klaster EMR memungkinkan FINRA untuk memproses dan menganalisis data perdagangan hingga 90 triliun peristiwa menggunakan SQL. Danau data cloud menghasilkan penghematan biaya hingga 20 juta USD dibandingkan dengan solusi on-premise FINRA, dan secara drastis mengurangi waktu yang dibutuhkan untuk pemulihan dan peningkatan.
Vanguard, penasihat investasi terdaftar di Amerika, adalah penyedia reksa dana terbesar dan penyedia terbesar kedua dari dana yang diperdagangkan di bursa. Vanguard menggunakan Amazon EMR untuk menjalankan Apache Hive di danau data S3. Data disimpan di S3 dan EMR membangun metastore Hive di atas data tersebut. Metastore Hive berisi semua metadata mengenai data dan tabel di klaster EMR, yang memungkinkan analisis data yang mudah. Hive juga memungkinkan analis untuk melakukan kueri SQL ad hoc pada data yang disimpan di danau data S3. Memigrasi ke danau data S3 dengan Amazon EMR telah memungkinkan lebih dari 150 analis data untuk mewujudkan efisiensi operasional serta mengurangi biaya EC2 dan EMR sebesar 600 ribu USD.
Bagaimana AWS dapat mendukung Hive?
Amazon EMR menyediakan kerangka kerja Hadoop terkelola yang termudah, tercepat, dan paling hemat biaya, yang memungkinkan pelanggan memproses data dalam jumlah besar di seluruh instans EC2 yang dapat diskalakan secara dinamis. Pelanggan juga dapat menjalankan kerangka kerja terdistribusi populer lainnya, seperti Apache Hive, Spark, HBase, Presto, dan Flink di EMR.
Pelajari selengkapnya tentang Amazon EMR
Mulai Apache Hive di AWS dengan membuat akun AWS gratis sekarang juga.