Apa itu data mart?
Data mart adalah sistem penyimpanan data yang berisi informasi khusus untuk unit bisnis organisasi. Data mart berisi bagian kecil dan terpilih dari data yang disimpan oleh perusahaan dalam sistem penyimpanan yang lebih besar. Perusahaan menggunakan data mart untuk menganalisis informasi khusus departemen dengan lebih efisien. Data mart menyediakan data ringkasan yang dapat digunakan oleh pemangku kepentingan utama untuk membuat keputusan yang tepat dengan cepat.
Misalnya, perusahaan mungkin menyimpan data dari berbagai sumber, seperti informasi pemasok, pesanan, data sensor, informasi karyawan, dan catatan keuangan di gudang data atau danau data mereka. Namun, perusahaan menyimpan informasi yang relevan dengan, instans, departemen pemasaran, seperti tinjauan media sosial dan catatan pelanggan, dalam data mart.
Bagaimana data mart dibandingkan dengan jenis sistem penyimpanan data lainnya?
Perusahaan menggunakan beberapa jenis sistem penyimpanan data untuk manajemen data dan analitik. Mari kita lihat beberapa jenis penyimpanan data yang umum untuk memahami konteks di mana perusahaan menggunakan data mart.
Basis Data
Basis data adalah penyimpanan terorganisasi yang digunakan sistem komputer untuk menyimpan, mencari, mengambil, dan menganalisis informasi. Ada berbagai jenis basis data, seperti basis data relasional. Sebuah basis data relasional menyimpan informasi dalam tabel yang terdiri dari baris dan kolom. Data dalam tabel yang berbeda dihubungkan oleh pengidentifikasi unik yang dikenal sebagai kunci. Kunci adalah nilai tidak berulang dalam kolom tertentu.
Data mart vs basis data
Data mart berfungsi sebagai elemen menghadap ke depan untuk data departemen. Anda dapat menggunakan data mart untuk mengambil dan menganalisis informasi. Sementara itu, basis data mengumpulkan, mengelola, dan menyimpan informasi. Anda kemudian dapat menggunakan alat untuk memproses, memformat, dan mentransfer informasi yang disimpan ke data mart.
Gudang data
Gudang data adalah sistem basis data yang luas yang menyimpan informasi untuk seluruh bisnis. Gudang data mengumpulkan informasi mentah dari berbagai sumber, seperti perangkat lunak bisnis dan feed media sosial, dan memprosesnya menjadi data terstruktur yang disimpan dalam format tabel. Bisnis dapat menghubungkan gudang data perusahaan ke alat kecerdasan bisnis untuk membuat keputusan yang lebih cerdas.
Data mart vs gudang data
Data mart berbagi banyak kualitas gudang data. Hal yang membedakannya adalah bahwa gudang data berisi data di seluruh perusahaan tentang berbagai topik. Sementara itu, data mart menyimpan informasi yang terkait erat dengan subjek tertentu. Misalnya, gudang data mungkin menyimpan informasi untuk departemen pemasaran, sumber daya manusia, pengadaan, dan dukungan pelanggan. Namun, data mart mungkin hanya menyimpan data transaksional yang relevan dengan satu departemen. Daya tarik membangun data mart adalah bahwa departemen yang mengelola data mart mereka memiliki kontrol penuh atas pemuatan dan pengelolaan data mereka.
Banyak organisasi menggunakan teknologi seperti berbagi data untuk memublikasikan data mart mereka ke gudang data pusat. Dengan demikian mereka bisa lebih gesit dengan mendistribusikan kepemilikan dan mengisolasi beban kerja. Demikian pula, berbagi data memungkinkan data mart departemen untuk mengonsumsi data yang dibagikan dari gudang data atau data mart lainnya.
Danau data
Danau data adalah penyimpanan data yang menyimpan informasi mentah dan tidak terstruktur. Danau data tidak menyimpan informasi dalam file dan folder. Sebaliknya, ia menyimpan informasi yang belum diproses dalam hierarki datar pada penyimpanan besar. Danau data menyimpan berbagai jenis informasi mentah, termasuk dokumen teks, gambar, video, dan audio.
Analis data menggunakan danau data untuk melakukan analisis prediktif dari data yang tidak terstruktur. Misalnya, danau data mungkin menyimpan teks dari ulasan media sosial yang dapat digunakan bisnis untuk analisis sentimen. Analis data dapat menggunakan analisis sentimen untuk mendeteksi tren opini negatif bagi perusahaan.
Data mart vs danau data
Karena danau data menyimpan data yang belum diproses, beberapa informasi mungkin duplikat atau mungkin tidak berarti bagi perusahaan. Sementara itu, data mart menyimpan data olahan yang memenuhi kebutuhan spesifik. Danau data bisa menjadi sumber data mart. Bisnis menentukan tren data dengan melihat data historis di data mart, tetapi mereka menggunakan danau data untuk menganalisis informasi yang disimpan secara mendalam.
OLAP
Online Analytical Processing (OLAP) adalah metode untuk mewakili data dalam berbagai dimensi. Misalnya, analis data menggunakan kubus OLAP untuk secara bersamaan menunjukkan pendapatan penjualan berdasarkan bulan, kota, dan produk. Struktur data OLAP luas, dengan bidang diklasifikasikan sebagai fakta atau dimensi dan menghasilkan duplikasi data. Ini kontras dengan basis data relasional konvensional, yang mendukung struktur sempit dan sedikit duplikasi data.
Data mart vs Kubus OLAP
OLAP adalah strategi penyimpanan informasi spesifik yang mendenormalisasi data menjadi tabel yang luas. OLAP menyederhanakan representasi kompleks dari data multidimensi. Beberapa data mart mungkin menggunakan OLAP untuk menyusun informasi mereka, tetapi yang lain menggunakan struktur konvensional yang dinormalisasi. Analis bisnis mendapat manfaat dari struktur OLAP untuk memvisualisasikan informasi dari data mart.
Penyimpanan data operasional
Penyimpanan data operasional (ODS) adalah penyimpanan informasi yang bertindak sebagai perantara antara sumber data dan gudang data. Analis data menggunakan ODS untuk memberikan pelaporan hampir secara waktu nyata tentang data transaksional. ODS mendukung kueri sederhana dan hanya menyediakan informasi dalam jumlah terbatas. Misalnya, ODS mungkin menyimpan catatan penjualan hanya selama 12 jam terakhir.
Data mart vs ODS
Data mart mengekstraksi informasi berorientasi subjek dari gudang data, tetapi ODS mengirimkan informasi ke gudang data untuk diproses. Data mart menawarkan informasi historis yang dapat Anda analisis, tetapi ODS memberikan tampilan terbaru tentang operasi saat ini. Misalnya, Anda dapat menggunakan data mart untuk mengidentifikasi pola penjualan untuk kuartal terakhir tetapi menerima pembaruan angka penjualan per jam dari ODS.
Mengapa data mart penting?
Ini adalah beberapa alasan bagus bahwa perusahaan mungkin menggunakan data mart.
Mengambil data dengan lebih efisien
Dengan menggunakan data mart, perusahaan dapat mengakses informasi spesifik dengan lebih efisien. Dibandingkan dengan gudang data, data mart berisi informasi yang relevan dan mendetail yang sering diakses departemen. Oleh karena itu, manajer bisnis tidak perlu mencari seluruh gudang data untuk menghasilkan laporan performa atau grafik.
Menyederhanakan pengambilan keputusan
Perusahaan dapat membuat subset data dari gudang data dengan data mart. Karyawan di dalam departemen kemudian dapat menganalisis data dan membuat keputusan berdasarkan kumpulan informasi yang sama.
Kontrol informasi lebih efektif
Data mart memberi karyawan hak akses yang sangat mendetail. Ini berarti perusahaan dapat mengotorisasi orang tertentu untuk melihat atau mengambil data tertentu. Hal ini membantu perusahaan untuk meningkatkan tata kelola data dan menerapkan kebijakan akses informasi. Misalnya, Anda dapat menggunakan data mart untuk memberikan akses pengguna ke karyawan untuk informasi spesifik di gudang data.
Mengelola data secara fleksibel
Data mart lebih kecil dan berisi tabel lebih sedikit daripada gudang data. Ini berarti teknisi data dapat mengelola dan mengubah informasi dalam data mart tanpa menyebabkan perubahan basis data besar.
Bagaimana cara kerja data mart?
Data mart mengubah informasi mentah menjadi konten terstruktur dan bermakna untuk departemen bisnis tertentu. Untuk melakukan ini, teknisi data menyiapkan data mart untuk menerima informasi baik dari gudang data atau langsung dari sumber data eksternal.
Ketika terhubung ke gudang data, data mart mengambil pilihan informasi yang relevan dengan unit bisnis. Sering kali, informasi berisi data yang diringkas dan tidak termasuk data yang tidak perlu atau mendetail.
ETL
Extract, transform, and load (ETL) adalah proses untuk mengintegrasikan dan mentransfer informasi dari berbagai sumber data ke dalam basis data fisik tunggal. Data mart menggunakan ETL untuk mengambil informasi dari sumber eksternal ketika tidak berasal dari gudang data. Prosesnya melibatkan langkah-langkah berikut.
- Extract: mengumpulkan informasi mentah dari berbagai sumber
- Transform: menyusun informasi ke dalam format umum
- Load: mentransfer data yang diproses ke basis data
Alat ETL menyalin informasi dari sumber eksternal seperti spreadsheet, aplikasi, dan dokumen teks. Data mart kemudian memproses, mengatur, dan menyimpan informasi dalam bentuk terstruktur.
Analitik
Analis bisnis menggunakan alat perangkat lunak untuk mengambil, menganalisis, dan mewakili data dari data mart. Misalnya, mereka menggunakan informasi yang disimpan di data mart untuk analitik kecerdasan bisnis, dasbor pelaporan, dan aplikasi cloud.
Setiap data mart melayani sejumlah kecil pengguna. Misalnya, manajer pemasaran dan pemasar senior memiliki akses ke data mart, sehingga dibutuhkan lebih sedikit waktu untuk menghasilkan laporan dan grafik atau untuk melakukan analisis prediktif.
Apa saja tipe data mart?
Ini adalah berbagai jenis data mart.
Data mart dependen
Data mart dependen mengisi penyimpanannya dengan subset informasi dari gudang data terpusat. Gudang data mengumpulkan semua informasi dari sumber data. Kemudian, data mart menanyakan dan mengambil informasi khusus subjek dari gudang data.
Pro dan kontra
Sebagian besar pekerjaan manajemen dan administrasi data dilakukan di gudang data. Ini berarti bahwa analis bisnis tidak perlu sangat terampil dalam manajemen basis data untuk menggunakan informasi dari data mart. Meskipun data mart dependen membuat pengambilan informasi lebih mudah, mereka menyajikan satu titik kegagalan. Jika gudang data gagal, semua data mart yang terhubung juga akan gagal.
Data mart independen
Data mart independen tidak bergantung pada gudang data pusat atau data mart lainnya. Setiap data mart mengumpulkan informasi dari sumbernya, bukan dari gudang data. Data mart independen cocok untuk perusahaan kecil, tetapi hanya departemen tertentu yang perlu mengakses dan menganalisis informasi.
Pro dan kontra
Perusahaan dapat mengatur data mart independen dengan relatif mudah. Namun, mengelola mereka mungkin sulit. Ini karena analis bisnis perlu melakukan pekerjaan administrasi basis data di setiap data mart. Sangat mudah untuk berbagi data antara data mart yang berbeda menggunakan strategi seperti berbagi data; departemen dapat membaca data departemen lain dan bahkan menambahkannya dengan data mereka sendiri. Namun, strategi katalog data yang kuat harus diterapkan untuk memastikan setiap departemen tahu apa yang mereka lihat.
Data mart hibrida
Data mart hibrida mengumpulkan informasi dari gudang data dan dari sumber eksternal. Hal ini memungkinkan perusahaan fleksibilitas untuk menguji sumber data independen sebelum mereka mengarahkan data ke gudang data.
Misalnya, Anda meluncurkan produk baru dan ingin menganalisis data penjualan awalnya. Data mart menggunakan informasi penjualan yang datang langsung dari perangkat lunak e-commerce dan mengambil catatan penjualan untuk produk lain dari data mart. Setelah produk menjadi perlengkapan permanen di toko Anda, Anda menyalurkan detail transaksi ke gudang data.
Apa itu struktur data mart?
Data mart menggunakan struktur ini untuk menyimpan dan mewakili informasi.
Bintang
Struktur bintang memiliki tabel fakta di tengahnya dan cabang ke beberapa tabel dimensi. Ini menghasilkan koneksi berbentuk bintang. Tabel fakta adalah tabel data yang berisi data yang diringkas yang dapat Anda gunakan untuk tujuan analitis. Sementara itu, tabel dimensi menyimpan informasi deskriptif dalam tabel fakta. Setiap tabel dimensi terhubung ke tabel fakta dengan kunci asing. Kunci asing adalah pengenal unik, seperti ID produk atau ID pemasok.
Misalnya, tabel fakta untuk transaksi penjualan memiliki kolom berikut:
- ID Penjualan
- ID Produk
- ID Pemasok
- Nilai penjualan
Tabel dimensi untuk produk menyimpan informasi berikut:
- ID Produk
- Nama produk
- Biaya produk
Tabel dimensi pemasok memiliki kolom berikut:
- ID Pemasok
- Nama pemasok
- Kota
Manfaat
Dalam struktur bintang, tabel dimensi didenormalisasi agar tidak meluas ke tabel tambahan. Ini berarti bahwa tabel dimensi mungkin berisi data yang berlebihan tetapi meningkatkan kecepatan pencarian dan pengambilan. Ini juga membutuhkan lebih sedikit ruang untuk menyimpan tabel dimensi.
Analis bisnis dapat menggunakan data mart berstruktur bintang untuk membuat kueri yang kompleks menjadi mudah. Ketika mereka mencari catatan penjualan tertentu, sistem manajemen data mencari melalui tabel fakta. Ketika sistem data mart menemukan catatan yang benar, ia menggunakan ID produk dan ID pemasok untuk meminta data dari tabel dimensi masing-masing.
Denormalisasi
Struktur yang didenormalisasi menyimpan semua data terkait dalam satu tabel. Struktur ini tidak memiliki sambungan kompleks antara tabel fakta dan tabel dimensi. Analis data menggunakan data mart yang didenormalisasi karena meningkatkan kecepatan kueri. Misalnya, pencarian catatan penjualan terjadi dalam satu tabel denormalisasi sebagai berikut:
- ID Penjualan
- Produk
- Nama produk
- Biaya produk
- Nama model
- Berat
- Ukuran
- Pemasok
- Nama pemasok
- Kota
- Nilai penjualan
Data mart yang didenormalisasi cocok untuk pelaporan waktu nyata karena pendekatan tabel tunggalnya. Namun, denormalisasi data mart menyebabkan redundansi data. Misalnya, nama produk yang sama mungkin muncul dalam beberapa catatan. Hal ini menyebabkan ruang penyimpanan tambahan dan biaya implementasi yang mahal.
Apa saja langkah-langkah dalam mengimplementasikan data mart?
Teknisi data cloud menyiapkan data mart dengan melakukan hal berikut:
- Meluncurkan platform data cloud-native mereka.
- Mengisi data mart dengan data bisnis. Mereka memastikan bahwa data memiliki format yang benar dan relevan dengan pengguna bisnis.
- Menyiapkan data mart sehingga beberapa pengguna dapat mengakses data darinya. Misalnya, mereka memasang dasbor pelaporan di data mart.
- Terus memantau, mengoptimalkan, dan menyelesaikan masalah saat data mart berjalan.
Bagaimana Anda mengimplementasikan data mart di AWS?
Perusahaan perlu memproses peningkatan volume data yang memperluas penyimpanan data mart konvensional hingga batasnya. Data mart yang diinstal pada server on-premise sulit untuk diskalakan. Arsitektur cloud menawarkan integrasi tingkat perusahaan yang lebih murah, lebih terukur, dan lebih mudah dikelola untuk data mart.
Amazon Redshift adalah solusi penggudangan data yang dapat Anda gunakan untuk mengimplementasikan data mart di cloud. Anda bisa mendapatkan wawasan terintegrasi dengan menjalankan analisis prediktif dan secara waktu nyata pada data yang kompleks dan berskala di seluruh basis data operasional, danau data, gudang data, dan ribuan set data pihak ketiga. Anda dapat secara otomatis membuat, melatih, dan melakukan deployment model machine learning (ML) dengan mudah. Anda dapat membuat data mart di Amazon Redshift dan menggunakannya untuk membuat keputusan yang lebih cerdas.
Amazon Redshift memiliki beberapa fitur utama yang menjadikannya solusi hebat untuk data mart Anda:
- Dengan Amazon Redshift Nirserver, pertimbangan untuk ukuran dan skala klaster ditangani untuk Anda.
- Karena berbagi data native, data di data mart dapat mengakses data di gudang data Anda atau dapat dibagikan ke gudang data.
Mulai menggunakan data mart dengan membuat akun AWS hari ini.