Apa itu Hadoop?
Apache Hadoop adalah kerangka kerja sumber terbuka yang digunakan untuk menyimpan dan memproses set data besar secara efisien mulai dari ukuran data gigabita hingga petabita. Daripada menggunakan satu komputer besar untuk menyimpan dan memproses data, Hadoop memungkinkan pengklasteran beberapa komputer untuk menganalisis set data besar secara paralel dengan lebih cepat.
Apa saja empat modul utama Hadoop?
Hadoop terdiri dari empat modul utama:
- Hadoop Distributed File System (HDFS) – Sistem file terdistribusi yang berjalan pada perangkat keras standar atau kelas bawah. HDFS menyediakan throughput data yang lebih baik daripada sistem file tradisional, selain toleransi kesalahan yang tinggi dan dukungan native set data besar.
- Yet Another Resource Negotiator (YARN) – Mengelola serta memantau simpul klaster dan penggunaan sumber daya. YARN menjadwalkan pekerjaan dan tugas.
- MapReduce – Kerangka kerja yang membantu program melakukan komputasi paralel pada data. Tugas peta mengambil data input dan mengonversinya menjadi set data yang dapat dikomputasi dalam pasangan nilai kunci. Output tugas peta digunakan dengan mengurangi tugas agregasi output dan memberikan hasil yang diinginkan.
- Hadoop Common – Menyediakan pustaka Java umum yang dapat digunakan di semua modul.
Bagaimana cara kerja Hadoop?
Hadoop mempermudah penggunaan semua kapasitas penyimpanan dan pemrosesan di server klaster, juga pengeksekusian proses terdistribusi terhadap data yang berjumlah besar. Hadoop menyediakan blok bangunan tempat layanan dan aplikasi lain dapat dibangun.
Aplikasi yang mengumpulkan data dalam berbagai format dapat menempatkan data ke dalam klaster Hadoop menggunakan operasi API untuk terhubung ke NameNode. NameNode melacak struktur direktori file dan penempatan “chunk” untuk setiap file, yang direplikasi di seluruh DataNodes. Untuk menjalankan pekerjaan membuat kueri data, beri MapReduce pekerjaan yang terdiri dari banyak peta dan kurangi tugas yang berjalan terhadap data di HDFS yang tersebar di seluruh DataNodes. Tugas peta berjalan pada setiap simpul terhadap file input yang disediakan, dan pengurang dijalankan untuk mengagregasi serta mengatur output akhir.
Bagaimana ekosistem Hadoop berkembang?
Ekosistem Hadoop telah berkembang secara signifikan selama bertahun-tahun karena ekstensibilitasnya. Saat ini, ekosistem Hadoop mencakup banyak alat dan aplikasi untuk membantu mengumpulkan, menyimpan, memproses, menganalisis, serta mengelola big data. Beberapa aplikasi yang paling populer adalah:
- Spark – Sistem pemrosesan terdistribusi sumber terbuka yang pada umumnya digunakan untuk beban kerja big data. Apache Spark menggunakan caching dalam memori dan eksekusi yang dioptimalkan untuk performa cepat. Apache Spark ini juga mendukung pemrosesan batch umum, analitik streaming, machine learning, basis data grafik, dan kueri ad hoc.
- Presto – Mesin kueri SQL terdistribusi sumber terbuka yang dioptimalkan untuk analisis data ad-hoc dengan latensi rendah. Presto mendukung standar ANSI SQL, termasuk kueri, agregasi, penggabungan, dan fungsi jendela yang kompleks. Presto dapat memproses data dari berbagai sumber data, termasuk Hadoop Distributed File System (HDFS) dan Amazon S3.
- Hive – memungkinkan pengguna memanfaatkan Hadoop MapReduce menggunakan antarmuka SQL, yang memungkinkan analitik pada skala masif, selain gudang data terdistribusi, dan toleran terhadap kesalahan.
- HBase – Basis data sumber terbuka non-relasional dan memiliki versi yang berjalan di atas Amazon S3 (menggunakan EMRFS) atau Hadoop Distributed File System (HDFS). HBase adalah penyimpanan big data yang dapat diskalakan secara masif dan terdistribusi yang dibangun untuk akses acak yang sangat konsisten dan dalam waktu nyata untuk tabel dengan miliaran baris dan jutaan kolom.
- Zeppelin – Notebook interaktif yang memungkinkan eksplorasi data interaktif.
Bagaimana cara AWS mendukung kebutuhan Hadoop Anda?
Amazon EMR adalah sebuah layanan terkelola yang memungkinkan Anda memproses serta menganalisis set data besar menggunakan versi kerangka kerja pemrosesan big data terbaru, seperti Apache Hadoop, Spark, HBase, dan Presto, pada klaster yang dapat dikustomisasi sepenuhnya.
- Mudah digunakan: Anda dapat meluncurkan klaster Amazon EMR dalam hitungan menit. Anda tidak perlu khawatir dengan penyediaan simpul, penyiapan klaster, konfigurasi Hadoop, atau penyesuaian klaster.
- Berbiaya rendah: Harga Amazon EMR sederhana dan dapat diprediksi: Anda membayar tarif per jam untuk setiap jam instans yang digunakan. Anda juga dapat memanfaatkan Instans Spot untuk penghematan yang lebih besar.
- Elastis: Dengan Amazon EMR, Anda dapat menyediakan satu, ratusan, atau ribuan instans komputasi untuk memproses data dalam skala apa pun.
- Transien: Anda dapat menggunakan EMRFS untuk menjalankan klaster sesuai permintaan berdasarkan data HDFS yang disimpan secara persisten di Amazon S3. Setelah pekerjaan selesai, Anda dapat mematikan klaster dan menyimpan data di Amazon S3. Anda membayar hanya untuk waktu komputasi saat klaster berjalan.
- Aman: Amazon EMR menggunakan semua karakteristik keamanan umum layanan AWS:
- Peran dan kebijakan Identity and Access Management (IAM) untuk mengelola izin.
- Enkripsi saat bergerak dan diam untuk membantu Anda melindungi data serta memenuhi standar kepatuhan, seperti HIPAA.
- Grup keamanan untuk mengontrol lalu lintas jaringan masuk dan keluar ke simpul klaster Anda.
- AWS CloudTrail: Audit semua panggilan API Amazon EMR yang dilakukan di akun Anda untuk memberikan analisis keamanan, pelacakan perubahan sumber daya, dan audit kepatuhan.
Mulai Hadoop di AWS dengan membuat akun sekarang juga.