Apa itu Manajemen Insiden?

Manajemen insiden (IM) adalah proses yang digunakan tim IT untuk merespons gangguan layanan yang tidak direncanakan. Gangguan tidak terduga terjadi karena insiden, seperti kehilangan atau degradasi konektivitas jaringan, tugas terjadwal (seperti tugas pencadangan) yang tidak dilakukan, atau API yang tidak responsif. Proses manajemen insiden mencoba mengembalikan operasi reguler layanan IT dengan cepat dan meminimalkan dampak bisnis. Dalam prosesnya, tim mendeteksi dan menyelidiki insiden, menyelesaikan masalah, dan mendokumentasikan langkah-langkah yang mereka ambil untuk memulihkan layanan.

Apa saja peristiwa yang membutuhkan manajemen insiden?

Istilah manajemen insiden tidak digunakan secara eksklusif di bidang IT. Di luar IT, Anda akan mendengar IM di bidang-bidang, seperti layanan darurat, manajemen peristiwa skala besar, dan operasi pabrik.

Untuk tujuan artikel ini, kami merujuk ke IM dalam konteks manajemen layanan IT (ITSM). Dalam konteks ini, manajemen insiden berfokus pada kegiatan manajemen mengenai kualitas layanan dan layanan pelanggan itu sendiri.

Berikutnya, kami membahas berbagai peristiwa IT dalam lingkup IM di ITSM.

Insiden

Dalam manajemen insiden, insiden dapat didefinisikan sebagai peristiwa tidak terduga yang menyebabkan penurunan kualitas layanan IT yang diharapkan atau disepakati. Skala insiden bisa kecil atau besar, dan Anda mungkin menunjukkan kekritisan. Misalnya, penurunan kualitas layanan bisa minimum dan terbatas pada lokasi geografis tertentu. Atau layanan mungkin mengalami pemadaman total di banyak wilayah.

Masalah

Masalah mengacu pada penyebab yang mendasari insiden, yang ditemukan setelah penyelidikan lebih lanjut dan diperlukan untuk penyelesaian insiden penuh. Misalnya, jika server web berjalan lambat, masalahnya mungkin adanya kesalahan konfigurasi router di pusat data atau kabel jaringan yang terputus di perimeter.

Perubahan

Dalam IM, perubahan mengacu pada saat layanan itu sendiri berubah untuk meningkatkan kualitas atau menambahkan fitur baru, misalnya. Selama periode perubahan, rollover harus ditangani dengan hati-hati untuk menghindari atau meminimalkan gangguan pada operasi bisnis normal. Hal ini termasuk memberi tahu klien tentang antisipasi atau potensi gangguan layanan.

Permintaan layanan

Permintaan layanan adalah permintaan yang diajukan oleh pelanggan dalam batas-batas ketentuan perjanjian penyedia-klien. Permintaan harus dilakukan tanpa mengganggu operasi normal.

Bagaimana cara kerja manajemen insiden?

Manajemen insiden menggunakan serangkaian proses terdokumentasi yang secara jelas menguraikan apa yang perlu dilakukan untuk meminimalkan dampak negatif dan durasi gangguan IT. Terlepas dari manajemen teknis tentang apa yang salah, manajemen insiden juga mencakup manajemen ekspektasi pelanggan, pengguna, dan pemangku kepentingan selama suatu insiden.

Untuk pelanggan, perjanjian tingkat layanan (SLA) secara jelas menentukan jaminan waktu aktif, waktu penyelesaian, dan saluran komunikasi yang diharapkan untuk insiden. SLA membutuhkan manajemen insiden yang komprehensif dari pihak penyedia layanan agar memenuhi syarat dan ketentuan SLA mereka.

Baca mengenai SLA »

Kerangka kerja manajemen insiden IT

Ada berbagai kerangka kerja yang digunakan organisasi untuk memodelkan IM mereka. Dua contoh adalah Manajemen Insiden dari Pustaka Infrastruktur IT (ITIL) 4 dan Kerangka Keamanan Siber dari National Institute of Standards and Technology (NIST). Kerangka kerja ini dapat digunakan apa adanya atau diperluas agar beradaptasi dengan lingkungan bisnis, layanan, dan standar komunikasi pelanggan dan pemangku kepentingan yang unik.

Perangkat lunak manajemen insiden sering digunakan untuk melakukan deployment kerangka kerja dalam suatu organisasi. Kerangka kerja yang tepat yang digunakan tergantung pada layanan yang ditawarkan.

Apa langkah-langkah dalam proses manajemen insiden?

Langkah-langkah yang terlibat dalam proses manajemen insiden tergantung pada kerangka kerja yang digunakan dalam organisasi. Selanjutnya, kami membahas langkah-langkah utama dalam banyak kerangka kerja siklus hidup manajemen insiden umum.

Identifikasi risiko

Mengidentifikasi aset penting, sistem, data, dan sumber daya lainnya menentukan di mana letak risiko terbesar bagi bisnis. Dalam konteks memberikan layanan kepada klien, identifikasi ini melibatkan identifikasi sistem dan aset mereka yang paling berharga.

Lindungi aset

Setelah aset diidentifikasi, organisasi memperkuat kontrol keamanan dan performa. Misalnya, aplikasi dapat dilakukan deployment di beberapa wilayah untuk ketersediaan berkelanjutan jika terjadi pemadaman regional.

Deteksi insiden

Sistem harus ada untuk memantau keadaan aset kritis sehingga setiap insiden dapat diidentifikasi secara waktu nyata. Organisasi harus proaktif dalam memantau anomali; biasanya organisasi tidak suka mengetahui adanya pemadaman dari laporan pelanggan. Penekanannya adalah pada remediasi proaktif.

Respons insiden

Setelah insiden terdeteksi, Anda harus segera menghentikan gangguan apa pun. Jika hal ini tidak memungkinkan, Anda dapat mengikuti proses untuk mengendalikan atau membatasi dampaknya. Anda mungkin juga harus mengaktifkan sistem sekunder sehingga operasi dapat dilanjutkan bahkan jika tidak ada perbaikan cepat. Sebagian besar sistem sekunder ini bisa jadi otomatis, tergantung pada sifat insiden dan alat manajemen insiden saat ini.

Pulihkan dari insiden

Pada fase pemulihan, analisis insiden dimulai. Anda menangkap pelajaran yang didapat, merumuskan rencana respons yang lebih baik, dan memulihkan masalah dan proses. Insiden besar mungkin memerlukan upaya pemulihan yang signifikan. Gambar berikut menunjukkan salah satu proses manajemen insiden yang digunakan Amazon Web Services (AWS).

Apa saja praktik terbaik manajemen insiden?

Praktik terbaik membantu organisasi untuk beroperasi pada tingkat yang paling matang dalam unit bisnis atau area strategis tertentu. Dengan mengikuti praktik terbaik dalam sistem manajemen insiden, Anda dapat memberikan layanan terbaik kepada pelanggan Anda.

Kembangkan kebijakan eskalasi

Anda harus dapat mengategorikan insiden sesuai dengan prioritas dan tingkat keparahannya untuk memandu jadwal, remediasi, dan investigasi. Anda harus memberlakukan kebijakan eskalasi saat respons insiden tidak berjalan seperti yang diharapkan atau jika terjadi insiden besar dengan prioritas atau tingkat keparahan yang tinggi. Tanpa kebijakan ini, tim Anda mungkin membuang waktu untuk memutuskan siapa yang harus dihubungi dan apa yang harus dilakukan.

Rencanakan komunikasi secara detail

Pemangku kepentingan, mulai dari tim IT hingga pengguna akhir Anda, harus terus mendapat informasi tentang status insiden. Penting juga untuk memiliki saluran komunikasi yang jelas sehingga mereka yang terkena dampak tahu ke mana untuk mendapatkan pembaruan atau melaporkan insiden baru. Dengan memiliki rencana komunikasi yang jelas, Anda dapat membangun kepercayaan dan menghindari terjadinya kesalahpahaman. Insiden kritis selalu ditangani dengan diplomasi.

Lakukan analisis akar penyebab

Setelah menyelesaikan suatu insiden, Anda harus melakukan analisis akar penyebab untuk memahami mengapa insiden itu terjadi sejak awal. Hal ini membantu mengidentifikasi celah atau kerentanan dalam sistem, yang dapat Anda atasi untuk mencegah insiden serupa pada masa mendatang. Pelajaran yang dipetik dari setiap insiden sangat membantu untuk terus meningkatkan infrastruktur dan proses IT.

Adopsi praktik rekayasa kekacauan

Rekayasa kekacauan adalah disiplin dalam rekayasa perangkat lunak di mana sistem sengaja mengalami gangguan, seperti kegagalan server, latensi jaringan, atau keterbatasan sumber daya. Membangun kekacauan ke dalam sistem menguji ketahanan mereka dan juga memperkuat respons insiden dan proses manajemen organisasi. Ini adalah teknik yang mirip dengan penerapan peretasan etis dalam manajemen insiden keamanan siber.

Bagaimana AWS dapat mendukung kebutuhan manajemen insiden Anda?

AWS memiliki berbagai layanan yang membantu organisasi memberikan manajemen insiden yang efektif dalam lingkungan AWS dan hibrida.

Deteksi dan Respons Insiden AWS menawarkan pemantauan proaktif dan manajemen insiden untuk beban kerja yang dipilih bagi pelanggan AWS Enterprise Support. Saat bekerja dengan para ahli, Anda menentukan metrik kritis, alarm, dan jadwal prioritas untuk sistem manajemen insiden IT guna mempercepat pemulihan jika terjadi insiden.

AWS Managed Services (AMS) membantu melindungi informasi organisasi Anda, serta infrastrukturnya, dengan respons insiden AWS dan kemampuan resolusi. AMS dapat digunakan sebagai cara untuk melakukan outsourcing manajemen insiden IT AWS Anda sehingga organisasi Anda dapat fokus pada bisnis inti. Berikut adalah hal dapat Anda lakukan dengan AMS:

Meminta bantuan terkait masalah operasional dan permintaan kapan pun melalui Pusat Dukungan AWS di konsol AWS
Mengakses dukungan 24/7 dengan waktu respons sesuai dengan Tingkat Layanan akun yang Anda pilih (Plus, Premium)
Menerima notifikasi proaktif peringatan dan pertanyaan penting menggunakan mekanisme yang sama

Sebagai bagian dari Kerangka Kerja AWS Well-Architected, kami juga memberikan panduan yang jelas untuk manajemen insiden cloud. Panduan ini adalah sumber daya yang baik untuk membantu merencanakan manajemen insiden bagi organisasi yang menawarkan layanan IT mereka sendiri yang menggunakan layanan cloud AWS. Panduan Respons Insiden Keamanan AWS adalah materi lain yang berguna untuk insiden terkait keamanan.

Mulai manajemen insiden di AWS dengan membuat akun sekarang juga.

Apa itu Manajemen Insiden?