Apa itu masking data?

Masking data adalah proses menyembunyikan data dengan memodifikasi huruf dan angka aslinya. Karena persyaratan peraturan dan privasi, organisasi harus melindungi data sensitif yang mereka kumpulkan terkait pelanggan dan operasi mereka. Masking data akan membuat versi palsu dari data organisasi dengan mengubah informasi rahasia. Berbagai teknik digunakan untuk membuat perubahan yang realistis dan mirip secara struktural. Setelah data dilakukan masking, Anda tidak dapat merekayasa balik atau melacak kembali nilai data asli tanpa akses ke set data asli.

Apa saja kasus penggunaan masking data?

Teknik masking data mendukung upaya organisasi untuk memenuhi peraturan privasi data, seperti Peraturan Perlindungan Data Umum (GDPR). Anda dapat melindungi berbagai tipe data seperti informasi pengenal pribadi (PII), data keuangan, informasi kesehatan yang dilindungi (PHI), dan kekayaan intelektual.

Selanjutnya, kami akan menjelaskan beberapa kasus penggunaan masking data.

Pengembangan yang aman

Lingkungan pengembangan dan pengujian perangkat lunak memerlukan set data dunia nyata untuk tujuan pengujian. Namun, menggunakan data nyata akan menimbulkan masalah keamanan. Dengan masking data, developer dan penguji dapat bekerja menggunakan data uji realistis yang menyerupai aslinya, tetapi tanpa mengekspos informasi sensitif. Hal ini akan mengurangi risiko keamanan dalam siklus pengembangan dan pengujian.

Analitik dan penelitian

Dengan masking data, ilmuwan dan analis data dapat bekerja menggunakan set data yang besar tanpa mengorbankan privasi individu. Peneliti akan memperoleh wawasan dan tren berharga dari data sekaligus tetap memastikan perlindungan privasi. Misalnya, para ilmuwan dapat menggunakan set data anonim untuk mempelajari efektivitas obat baru, menganalisis hasil pengobatan, atau menyelidiki potensi efek samping.

Kolaborasi eksternal

Organisasi sering kali perlu berbagi data dengan partner, vendor, atau konsultan eksternal. Dengan melakukan masking bidang atau atribut tertentu, organisasi dapat berkolaborasi dengan pihak eksternal dan tetap melindungi data sensitif.

Pelatihan karyawan

Anda dapat menggunakan masking data untuk sesi pelatihan karyawan atau demonstrasi perangkat lunak. Dengan melakukan masking data sensitif, organisasi dapat memberikan contoh realistis tanpa mengekspos data asli pelanggan atau bisnis. Karyawan dapat belajar dan mempraktikkan keterampilan tanpa perlu mengakses data yang tidak terotorisasi.

Apa saja jenis masking data?

Selanjutnya, kami akan memberikan beberapa jenis masking data umum.

Masking data statis

Masking data statis adalah proses penerapan seperangkat aturan masking tetap ke data sensitif sebelum disimpan atau dibagikan. Ini biasanya digunakan untuk data yang tidak sering berubah atau data yang tetap bersifat statis dari waktu ke waktu. Anda terlebih dahulu menetapkan aturan lalu menerapkannya secara konsisten ke data. Hal ini akan memastikan diperolehnya masking yang konsisten di beberapa lingkungan.

Meskipun detailnya sangat kompleks, berikut adalah gambaran umum proses masking data statis:

  1. Mengidentifikasi dan memahami data sensitif
  2. Mendesain dan mengembangkan aturan masking
  3. Memilih algoritma masking data yang sesuai
  4. Menerapkan aturan masking ke data aktual

Anda kemudian dapat membagikan data yang dilakukan masking sesuai kebutuhan.

Masking data dinamis

Masking data dinamis menerapkan teknik masking secara waktu nyata. Masking data ini secara dinamis mengubah data sensitif yang ada saat pengguna mengakses atau melakukan kueri data tersebut. Masking data ini digunakan terutama untuk menerapkan keamanan data berbasis peran dalam aplikasi, seperti dukungan pelanggan atau penanganan rekam medis.

Masking data dinamis berfungsi sebagai berikut:

  1. Semua pengguna berkomunikasi dengan basis data melalui server proksi
  2. Saat pengguna meminta untuk membaca data, proksi basis data akan menerapkan aturan masking berdasarkan peran, hak istimewa, atau izin akses pengguna
  3. Pengguna resmi akan menerima data asli sedangkan pengguna yang tidak resmi akan menerima data yang telah dilakukan masking

Meskipun tidak memerlukan persiapan terlebih dahulu, proses ini dapat berdampak pada performa.

Masking data deterministik

Masking data deterministik memastikan bahwa nilai input yang sama secara konsisten dilakukan masking ke nilai output yang sama. Misalnya, jika suatu nama dilakukan masking sebagai "John" dalam satu instans, nama tersebut akan selalu dilakukan masking sebagai "John" di seluruh sistem.

Teknik masking deterministik sering kali melibatkan substitusi atau tokenisasi data, yaitu saat pemetaan yang konsisten dipertahankan antara kolom data asli dan nilai yang dilakukan masking.

Masking data cepat

Masking data cepat akan melakukan masking data sensitif dalam memori jadi tidak perlu menyimpan data yang diubah dalam basis data. Masking ini berguna dalam pipeline deployment yang berkelanjutan atau dalam skenario integrasi yang kompleks, yaitu saat data sering berpindah di antara lingkungan produksi dan nonproduksi. Pada tahap yang diperlukan dalam pipeline, aplikasi akan melakukan masking data lalu meneruskannya ke tahap berikutnya dalam pipeline.

Pengaburan statistik

Pengaburan data statistik melibatkan pengubahan nilai data sensitif, tetapi tetap mempertahankan properti dan hubungan statistik dalam data. Pengaburan ini memastikan data yang dilakukan masking mempertahankan keseluruhan distribusi, pola, dan korelasi data asli untuk analisis statistik yang akurat. Teknik pengaburan data statistik mencakup penerapan fungsi matematika atau algoritma pertubasi pada data.

Apa saja teknik masking data umum?

Ada beberapa algoritma yang dapat Anda gunakan untuk perlindungan data. Berikut adalah beberapa metode masking data umum.

Pengacakan

Dengan pengacakan, Anda dapat mengganti data sensitif dengan nilai yang dihasilkan secara acak yang tidak memiliki korelasi dengan data asli. Misalnya, Anda dapat mengganti nama, alamat, atau informasi identitas pribadi lainnya dengan nilai fiksi atau nilai yang dipilih secara acak.

Substitusi

Masking substitusi melibatkan penggantian data sensitif dengan data yang serupa, tetapi bersifat fiktif. Misalnya, Anda dapat mengganti nama aktual dengan nama dari daftar yang telah ditentukan. Anda juga dapat menggunakan algoritma untuk menghasilkan nomor kartu kredit yang serupa, tetapi palsu.

Shuffling

Dengan shuffling, Anda menyusun ulang nilai dalam suatu set data untuk mempertahankan properti statistik dan membuat catatan individu menjadi tidak dapat diidentifikasi. Teknik ini biasanya digunakan untuk mempertahankan hubungan dalam data.

Misalnya, dalam tabel data, Anda dapat melakukan shuffling data kolom secara acak sehingga nilai baris berubah. Dalam praktiknya, Anda dapat mempertahankan hubungan antara pelanggan dan transaksi mereka sekaligus mengganti nama dan detail kontak.

Enkripsi

Dengan masking enkripsi, Anda mengenkripsi data sensitif menggunakan algoritma kriptografi. Anda mengubah data menjadi format yang tidak dapat dibaca sehingga hanya pengguna resmi dengan kunci dekripsi yang dapat mengakses data asli. Teknik ini memberikan tingkat keamanan data yang lebih tinggi. Namun, hal ini akan memengaruhi performa kueri karena dekripsi diperlukan untuk analisis data.

Hashing

Hashing adalah teknik transformasi yang mengubah data menjadi string karakter dengan panjang tetap. Hashing biasanya digunakan untuk masking kata sandi atau informasi sensitif lainnya saat nilai asli tidak diperlukan dan Anda hanya perlu memverifikasi data.

Tokenisasi

Dengan tokenisasi, Anda mengganti data produksi dengan token atau nilai referensi yang dibuat secara acak. Anda menyimpan data asli di lokasi aman yang terpisah dan menggunakan token sebagai pengganti selama pemrosesan atau analisis. Tokenisasi membantu menjaga integritas data sekaligus meminimalkan risiko pengeksposan informasi sensitif.

Nulling

Nulling (atau pengosongan) adalah solusi masking data yang menggantikan data sensitif dengan nilai null atau spasi kosong. Solusi ini secara efektif menghapus data dari set data. Pendekatan ini cocok saat Anda ingin mempertahankan format atau struktur data, tetapi perlu menyembunyikan informasi tertentu.

Apa saja tantangan yang mungkin muncul dalam masking data?

Selanjutnya, kami akan membahas beberapa tantangan umum dalam masking data.

Preservasi atribut

Dalam penelitian dan analitik, masking data perlu mempertahankan atribut data aslinya untuk tipe data tertentu. Anda ingin memastikan alat masking data Anda mempertahankan tipe data asli atau mempertahankan frekuensi kategori data terkait.

Misalnya, jika alat mengubah representasi demografis statistik data pelanggan atau kategori kartu saat mengaburkan detail kartu kredit, ini dapat memengaruhi analitik. Preservasi atribut dapat menjadi tantangan tersendiri dalam proses masking data tertentu, seperti pengacakan atau tokenisasi.

Integritas semantik

Nilai palsu yang dihasilkan harus mematuhi aturan dan pembatasan bisnis yang terkait dengan berbagai tipe data. Misalnya, gaji harus berada dalam kisaran tertentu, dan nomor identifikasi nasional harus mengikuti format yang telah ditentukan. Mempertahankan integritas semantik memang sulit dilakukan. Namun, hal ini dapat memastikan agar data yang dilakukan masking tetap bermakna dan realistis.

Keunikan data

Saat data asli memerlukan keunikan, seperti nomor ID karyawan, teknik masking data harus memberikan nilai yang unik untuk menggantikan data asli. Jika keunikan di berbagai bidang kunci tidak ada, potensi konflik atau inkonsistensi mungkin akan muncul.

Integrasi dengan alur kerja yang sudah ada

Mengintegrasikan masking data ke dalam alur kerja yang sudah ada mungkin akan sulit dilakukan, terutama selama tahap awal implementasi. Karyawan mungkin akan mengalami ketidaknyamanan saat menyesuaikan diri dengan proses dan teknologi baru. Untuk memastikan integrasi yang lancar dan meminimalkan gangguan, organisasi Anda harus berfokus pada perencanaan yang matang, kolaborasi pemangku kepentingan, dan penanganan masalah pengguna.

Bagaimana AWS dapat mendukung kebutuhan masking data Anda?

Terdapat banyak penawaran Amazon Web Services (AWS) yang memiliki kemampuan masking data bawaan. Berikut beberapa contohnya:

  • Amazon Transcribe secara otomatis mengonversi ucapan menjadi teks dan dapat mengaburkan data sensitif seperti yang diminta.
  • Amazon Redshift menggunakan SQL untuk menganalisis data terstruktur dan semi-terstruktur di seluruh gudang data, basis data operasional, dan danau data. Layanan ini mendukung kontrol akses berbasis peran, keamanan tingkat baris, keamanan tingkat kolom, dan teknik masking data dinamis.
  • Amazon Simple Notification Service (Amazon SNS) adalah layanan notifikasi. Anda dapat menggunakannya untuk menentukan kebijakan perlindungan data yang dapat menemukan, melakukan masking, dan melindungi data sensitif dalam transmisi.

Kami juga memiliki panduan implementasi yang sudah ada untuk kebutuhan masking data kompleks. Misalnya, panduan Masking Data Kesehatan yang Didukung AI dapat membantu organisasi layanan kesehatan untuk mengidentifikasi dan melakukan masking data kesehatan dalam gambar atau teks. Panduan ini menggunakan layanan berikut:

Anda juga dapat memilih salah satu dari beberapa solusi masking data di AWS Marketplace yang telah dibuat sebelumnya. 

Mulai menggunakan masking data di AWS dengan membuat akun sekarang juga.

Langkah Berikutnya di AWS

Daftar untuk akun gratis

Dapatkan akses secara instan ke AWS Tingkat Gratis.

Daftar 
Mulai membangun di konsol

Mulai membangun di Konsol Manajemen AWS.

Masuk