Apa itu ETL?
Extract, transform, and load (ETL) adalah proses menggabungkan data dari berbagai sumber ke dalam repositori pusat yang besar yang disebut gudang data. ETL menggunakan seperangkat aturan bisnis untuk membersihkan dan mengatur data mentah serta mempersiapkannya untuk penyimpanan, analitik data, dan machine learning (ML). Anda dapat memenuhi kebutuhan inteligensi bisnis tertentu melalui analitik data (seperti memprediksi hasil keputusan bisnis, menghasilkan laporan dan dasbor, mengurangi inefisiensi operasional, masih dan banyak lagi).
Mengapa ETL penting?
Organisasi saat ini memiliki data terstruktur dan tidak terstruktur dari berbagai sumber termasuk:
- Data pelanggan dari pembayaran online dan sistem manajemen hubungan pelanggan (CRM)
- Inventaris dan data operasi dari sistem vendor
- Data sensor dari perangkat Internet untuk Segala (IoT)
- Data pemasaran dari media sosial dan umpan balik pelanggan
- Data karyawan dari sistem sumber daya manusia internal
Dengan menerapkan proses extract, transform, and load (ETL), set data mentah individual dapat disiapkan dalam format dan struktur yang lebih dapat dikonsumsi untuk tujuan analitik, sehingga menghasilkan wawasan yang lebih bermakna. Misalnya, pengecer online dapat menganalisis data dari titik penjualan untuk memperkirakan permintaan dan mengelola inventaris. Tim pemasaran dapat mengintegrasikan data CRM dengan umpan balik pelanggan di media sosial untuk mempelajari perilaku konsumen.
Bagaimana ETL menguntungkan intelijen bisnis?
Extract, transform, and load (ETL) meningkatkan kecerdasan bisnis dan analitik dengan membuat proses lebih andal, akurat, terperinci, dan efisien.
Konteks historis
ETL memberikan konteks historis yang mendalam pada data organisasi. Perusahaan dapat menggabungkan data lama dengan data dari platform dan aplikasi baru. Anda dapat melihat set data yang lebih lama bersama dengan informasi yang lebih baru, yang memberi Anda tampilan data jangka panjang.
Tampilan data konsolidasi
ETL memberikan tampilan data yang terkonsolidasi untuk analisis dan pelaporan mendalam. Mengelola beberapa set data menuntut waktu dan koordinasi dan dapat mengakibatkan inefisiensi dan penundaan. ETL menggabungkan basis data dan berbagai bentuk data ke dalam satu tampilan terpadu. Proses integrasi data meningkatkan kualitas data dan menghemat waktu yang diperlukan untuk memindahkan, mengategorikan, atau menstandardisasi data. Proses integrasi ini membuatnya lebih mudah untuk menganalisis, memvisualisasikan, dan memahami set data besar.
Analisis data yang akurat
ETL memberikan analisis data yang lebih akurat untuk memenuhi standar kepatuhan dan peraturan. Anda dapat mengintegrasikan alat ETL dengan alat kualitas data untuk membuat profil, mengaudit, dan membersihkan data, memastikan bahwa data tersebut dapat dipercaya.
Otomatisasi tugas
ETL mengotomatiskan tugas pemrosesan data berulang untuk analisis yang efisien. Alat ETL mengotomatiskan proses migrasi data, dan Anda dapat mengaturnya untuk mengintegrasikan perubahan data secara berkala atau bahkan saat waktu aktif. Akibatnya, rekayasa data dapat menghabiskan lebih banyak waktu untuk berinovasi dan lebih sedikit waktu untuk mengelola tugas-tugas yang membosankan seperti memindahkan dan memformat data.
Bagaimana ETL berevolusi?
Extract, transform, and load (ETL) berawal dari munculnya basis data relasional yang menyimpan data dalam bentuk tabel untuk dianalisis. Alat ETL awal berusaha untuk mengubah data dari format data transaksional ke format data relasional untuk analisis.
ETL tradisional
Data mentah biasanya disimpan dalam basis data transaksional yang mendukung banyak permintaan baca dan tulis tetapi tidak cocok untuk analitik. Anda dapat menganggapnya sebagai baris dalam spreadsheet. Misalnya, dalam sistem perdagangan eletronik, basis data transaksi menyimpan barang yang dibeli, detail pelanggan, dan detail pesanan dalam satu transaksi. Sepanjang tahun, sistem perdagangan eletronik berisi daftar panjang transaksi dengan entri berulang untuk pelanggan yang sama yang membeli banyak item selama tahun tersebut. Dengan adanya duplikasi data, menjadi sulit untuk menganalisis item paling populer atau tren pembelian pada tahun tersebut.
Untuk mengatasi masalah ini, alat ETL secara otomatis mengubah data transaksional ini menjadi data relasional dengan tabel yang saling berhubungan. Analis dapat menggunakan kueri untuk mengidentifikasi hubungan antar tabel, selain pola dan tren.
ETL modern
Seiring berkembangnya teknologi ETL, tipe data dan sumber data meningkat secara eksponensial. Teknologi cloud muncul untuk membuat basis data yang luas (juga disebut data sink). Data sink tersebut dapat menerima data dari berbagai sumber dan memiliki sumber daya perangkat keras yang mendasarinya yang dapat diskalakan dari waktu ke waktu. Alat ETL juga menjadi lebih canggih dan dapat bekerja dengan data sink modern. Mereka dapat mengonversi data dari format data lama ke format data modern. Contoh basis data modern adalah sebagai berikut.
Gudang data
Gudang data adalah repositori pusat yang dapat menyimpan beberapa basis data. Dalam setiap basis data, Anda data mengatur data ke dalam tabel dan kolom yang menjelaskan tipe data dalam tabel. Perangkat lunak gudang data bekerja di berbagai tipe perangkat keras penyimpanan—seperti solid state drive (SSD), hard drive, dan penyimpanan cloud lainnya—untuk mengoptimalkan pemrosesan data Anda.
Danau data
Dengan danau data, Anda dapat menyimpan data terstruktur dan tidak terstruktur dalam satu repositori terpusat dan pada skala apa pun. Anda dapat menyimpan data apa adanya tanpa harus terlebih dahulu menyusunnya berdasarkan pertanyaan yang mungkin Anda miliki di masa mendatang. Danau data juga memungkinkan Anda menjalankan berbagai jenis analitik pada data Anda, seperti kueri SQL, analitik big data, penelusuran teks lengkap, analitik waktu nyata, dan machine learning (ML) untuk memandu keputusan yang lebih baik.
Bagaimana cara kerja ETL?
Extract, transform, and load (ETL) bekerja dengan memindahkan data dari sistem sumber ke sistem tujuan secara berkala. Proses ETL bekerja dalam tiga langkah:
- Ekstrak data yang relevan dari basis data sumber
- Ubah data sehingga lebih cocok untuk analitik
- Muat data ke basis data target
Apa itu ekstraksi data?
Dalam alat ekstraksi data, extract, transform, and load (ETL) mengekstrak atau menyalin data mentah dari berbagai sumber dan menyimpannya di area staging. Area staging (atau zona landasan) adalah area penyimpanan perantara untuk menyimpan sementara data yang diekstraksi. Area staging data seringkali bersifat sementara, artinya isinya dihapus setelah ekstraksi data selesai. Namun, area staging mungkin juga mempertahankan arsip data untuk tujuan pemecahan masalah.
Seberapa sering sistem mengirim data dari sumber data ke penyimpanan data target bergantung pada mekanisme pengambilan data perubahan yang mendasarinya. Ekstraksi data biasanya terjadi dalam salah satu dari tiga cara berikut.
Notifikasi pembaruan
Dalam notifikasi pembaruan, sistem sumber memberi tahu Anda saat catatan data berubah. Anda kemudian dapat menjalankan proses ekstraksi untuk perubahan tersebut. Sebagian besar basis data dan aplikasi web menyediakan mekanisme pembaruan untuk mendukung metode integrasi data ini.
Ekstraksi tambahan
Beberapa sumber data tidak dapat memberikan notifikasi pembaruan tetapi dapat mengidentifikasi dan mengekstrak data yang telah diubah selama jangka waktu tertentu. Dalam hal ini, sistem memeriksa perubahan secara berkala, seperti seminggu sekali, sebulan sekali, atau di akhir kampanye. Anda hanya perlu mengekstrak data yang telah diubah.
Ekstraksi penuh
Beberapa sistem tidak dapat mengidentifikasi perubahan data atau memberikan notifikasi, jadi memuat ulang semua data adalah satu-satunya opsi. Metode ekstraksi ini mengharuskan Anda menyimpan salinan ekstrak terakhir untuk memeriksa mana catatan yang baru dan tidak. Karena pendekatan ini melibatkan volume transfer data yang tinggi, kami sarankan Anda menggunakannya hanya untuk tabel kecil.
Apa itu transformasi data?
Dalam transformasi data, alat extract, transform, and load (ETL) mengubah dan mengonsolidasikan data mentah di area staging untuk mempersiapkannya bagi gudang data target. Fase transformasi data dapat melibatkan tipe perubahan data berikut.
Transformasi data dasar
Transformasi dasar meningkatkan kualitas data dengan menghapus kesalahan, mengosongkan bidang data, atau menyederhanakan data. Contoh transformasi tersebut adalah sebagai berikut.
Pembersihan data
Pembersihan data menghilangkan kesalahan dan memetakan data sumber ke format data target. Misalnya, Anda dapat memetakan bidang data kosong ke angka 0, memetakan nilai data “Induk” ke “P”, atau memetakan “Turunan” ke “C”.
Deduplikasi data
Deduplikasi dalam pembersihan data mengidentifikasi dan menghapus catatan duplikat.
Revisi format data
Revisi format mengonversi data, seperti kumpulan karakter, unit pengukuran, dan nilai tanggal/waktu, ke dalam format yang konsisten. Misalnya, sebuah perusahaan makanan mungkin memiliki basis data resep yang berbeda dengan bahan-bahan yang diukur dalam kilogram dan pon. ETL akan mengubah semuanya menjadi pon.
Transformasi data lanjutan
Transformasi lanjutan menggunakan aturan bisnis untuk mengoptimalkan data untuk analisis yang lebih mudah. Contoh transformasi tersebut adalah sebagai berikut.
Derivasi
Derivasi menerapkan aturan bisnis ke data Anda untuk menghitung nilai baru dari nilai yang ada. Misalnya, Anda dapat mengonversi pendapatan menjadi laba dengan mengurangi pengeluaran atau menghitung total biaya pembelian dengan mengalikan harga setiap item dengan jumlah item yang dipesan.
Bergabung
Dalam persiapan data, penggabungan menghubungkan data yang sama dari sumber data yang berbeda. Misalnya, Anda dapat menemukan total biaya pembelian satu item dengan menambahkan nilai pembelian dari vendor yang berbeda dan hanya menyimpan total akhir dalam sistem target.
Pemisahan
Anda dapat membagi kolom atau atribut data menjadi beberapa kolom di sistem target. Misalnya, jika sumber data menyimpan nama pelanggan sebagai "Jane John Doe", Anda dapat membaginya menjadi nama depan, tengah, dan belakang.
Peringkasan
Peringkasan meningkatkan kualitas data dengan mengurangi sejumlah besar nilai data menjadi set data yang lebih kecil. Misalnya, nilai faktur pesanan pelanggan dapat memiliki banyak jumlah kecil yang berbeda. Anda dapat meringkas data dengan menambahkannya selama periode tertentu untuk membangun metrik nilai umur pelanggan (CLV).
Enkripsi
Anda dapat melindungi data sensitif untuk mematuhi undang-undang data atau privasi data dengan menambahkan enkripsi sebelum aliran data ke basis data target.
Apa itu pemuatan data?
Dalam alat pemuatan data, extract, transform, and load (ETL) memindahkan data yang diubah dari area staging ke gudang data target. Untuk sebagian besar organisasi yang menggunakan ETL, prosesnya otomatis, ditentukan dengan baik, berkelanjutan, dan digerakkan secara batch. Dua metode untuk memuat data adalah sebagai berikut.
Muatan penuh
Dalam muat penuh, seluruh data dari sumber diubah dan dipindahkan ke gudang data. Muat penuh biasanya terjadi saat pertama kali Anda memuat data dari sistem sumber ke dalam gudang data.
Muatan tambahan
Dalam muatan tambahan, alat ETL memuat delta (atau perbedaan) antara sistem target dan sumber secara berkala. Muatan tambahan menyimpan tanggal ekstraksi terakhir sehingga hanya catatan yang ditambahkan setelah tanggal ini yang dimuat. Ada dua cara untuk mengimplementasikan muatan tambahan.
Streaming mauatan tambahan
Jika Anda memiliki volume data yang kecil, Anda dapat mengalirkan perubahan terus-menerus melalui alur data ke gudang data target. Saat kecepatan data meningkat menjadi jutaan peristiwa per detik, Anda dapat menggunakan pemrosesan aliran peristiwa untuk memantau dan memproses aliran data untuk membuat keputusan yang lebih tepat waktu.
Batch muatan tambahan
Jika Anda memiliki volume data yang besar, Anda dapat mengumpulkan perubahan data muatan ke dalam batch secara berkala. Selama periode waktu yang ditentukan ini, tidak ada tindakan yang dapat terjadi pada sistem sumber atau target karena data disinkronkan.
Apa itu ELT?
Extract, load, and transform (ELT) adalah perpanjangan dari extract, transform, and load (ETL) yang membalikkan urutan operasi. Anda dapat memuat data langsung ke sistem target sebelum memprosesnya. Area staging perantara tidak diperlukan karena gudang data target memiliki kemampuan pemetaan data di dalamnya. ELT menjadi lebih populer dengan adopsi infrastruktur cloud, yang memberikan basis data target kekuatan pemrosesan yang mereka butuhkan untuk transformasi.
ETL dibandingkan dengan ELT
ELT bekerja dengan baik untuk set data bervolume tinggi dan tidak terstruktur yang memerlukan pemuatan yang sering. ELT juga ideal untuk big data karena perencanaan analitik dapat dilakukan setelah ekstraksi dan penyimpanan data. ELT meninggalkan sebagian besar transformasi untuk tahap analitik dan berfokus pada memuat data mentah yang diproses secara minimal ke dalam gudang data.
Proses ETL membutuhkan lebih banyak ketentuan di awal. Analitik perlu dilibatkan sejak awal untuk menentukan tipe data target, struktur, dan hubungan. Ilmuwan data terutama menggunakan ETL untuk memuat basis data lama ke dalam gudang, dan ELT telah menjadi norma saat ini.
Apa Itu virtualisasi data?
Virtualisasi data menggunakan lapisan abstraksi perangkat lunak untuk membuat tampilan data terintegrasi tanpa mengekstrak, mengubah, atau memuat data secara fisik. Organisasi menggunakan fungsi ini sebagai penyimpanan data terpadu virtual tanpa biaya dan kerumitan dalam membangun dan mengelola platform terpisah untuk sumber dan target. Meskipun Anda dapat menggunakan virtualisasi data bersama dengan extract, transform, and load (ETL), virtualisasi ini semakin terlihat sebagai alternatif untuk ETL dan metode integrasi data fisik lainnya. Misalnya, Anda dapat menggunakan AWS Glue Elastic Views untuk membuat tabel virtual dengan cepat—tampilan terwujud—dari banyak penyimpanan data sumber.
Apa itu AWS Glue?
AWS Glue adalah layanan integrasi data nirserver yang memudahkan pengguna analitik untuk menemukan, menyiapkan, memindahkan, dan mengintegrasikan data dari berbagai sumber untuk analitik, machine learning, dan pengembangan aplikasi.
- Anda dapat menemukan dan terhubung ke lebih dari 80 penyimpanan data yang beragam.
- Anda dapat mengelola data di katalog data terpusat.
- Teknisi Data, developer ETL, analis data, dan pengguna bisnis dapat menggunakan AWS Glue Studio untuk membuat, menjalankan, dan memantau jalur ETL guna memuat data ke dalam danau data.
- AWS Glue Studio menawarkan antarmuka Visual ETL, Notebook, dan editor kode, sehingga pengguna memiliki alat yang sesuai dengan keahlian mereka.
- Dengan Sesi Interaktif, teknisi data dapat menjelajahi data serta menulis dan menguji tugas menggunakan IDE atau notebook pilihan mereka.
- AWS Glue nirserver dan secara otomatis menskalakan sesuai permintaan, sehingga Anda dapat berfokus untuk mendapatkan wawasan dari data berskala petabita tanpa mengelola infrastruktur.
Mulai AWS Glue dengan membuat akun AWS.