Apa Itu OCR (Pengenalan Karakter Optik)?

Pengenalan Karakter Optik (OCR) adalah proses yang mengonversi gambar teks menjadi format teks yang dapat dibaca mesin. Misalnya, jika Anda memindai formulir atau tanda terima, komputer Anda akan menyimpan pindaian tersebut sebagai file citra. Anda tidak dapat menggunakan editor teks untuk mengedit, mencari, atau menghitung kata dalam file citra. Namun, Anda dapat menggunakan OCR untuk mengonversi gambar menjadi dokumen teks beserta kontennya yang disimpan sebagai data teks.

Mengapa OCR penting?

Sebagian besar alur kerja bisnis melibatkan penerimaan informasi dari media cetak. Formulir kertas, tagihan, dokumen hukum yang dipindai, dan kontrak tertulis adalah bagian dari proses bisnis. Dokumen dalam jumlah yang besar ini membutuhkan banyak waktu dan ruang agar dapat disimpan dan dikelola. Meskipun manajemen dokumen tanpa kertas adalah jalan keluarnya, pemindaian dokumen menjadi citra menciptakan tantangan. Proses tersebut membutuhkan intervensi manual dan dapat membosankan serta lambat.

Selain itu, mendigitalkan konten dokumen ini membuat teks di dalam file citra menjadi tersembunyi. Teks dalam citra tidak dapat diproses oleh perangkat lunak pengolah kata dengan cara yang sama seperti dokumen teks. Teknologi OCR memecahkan masalah dengan mengonversi citra teks menjadi data teks yang dapat dianalisis oleh perangkat lunak bisnis lainnya. Anda kemudian dapat menggunakan data tersebut untuk melakukan analitik, menyederhanakan operasi, mengotomatiskan proses, dan meningkatkan produktivitas.

Bagaimana cara kerja OCR?

Mesin OCR atau perangkat lunak OCR bekerja dengan menggunakan langkah-langkah berikut:

Akuisisi citra

Pemindai membaca dokumen dan mengonversinya menjadi data biner. Perangkat lunak OCR menganalisis citra yang dipindai dan mengklasifikasikan area terang sebagai latar belakang dan area gelap sebagai teks.

Prapemrosesan

Perangkat lunak OCR pertama-tama membersihkan citra dan menghilangkan kesalahan untuk mempersiapkannya agar dapat dibaca. Ini adalah beberapa teknik pembersihannya:

  • Sedikit memutar atau memiringkan dokumen yang dipindai untuk memperbaiki masalah penyelarasan selama pemindaian.
  • Menghilangkan noda atau menghapus setiap titik citra digital atau menghaluskan tepi citra teks.
  • Membersihkan kotak dan garis pada citra.
  • Pengenalan skrip untuk teknologi OCR multibahasa

Pengenalan teks

Dua tipe utama algoritme OCR atau proses perangkat lunak yang digunakan oleh perangkat lunak OCR dalam pengenalan teks disebut pencocokan pola dan ekstraksi fitur.

Pencocokan pola

Pencocokan pola bekerja dengan cara mengisolasi citra karakter, yang disebut glyph, dan membandingkannya dengan glyph serupa yang tersimpan. Pengenalan pola hanya berfungsi jika glyph yang disimpan memiliki font dan skala yang serupa dengan glyph input. Metode ini bekerja dengan baik saat digunakan pada pindaian citra dokumen yang telah diketik dalam font yang dikenal.

Ekstraksi fitur

Ekstraksi fitur memecah atau menguraikan glyph menjadi fitur seperti garis, loop tertutup, arah garis, dan perpotongan garis. Ekstraksi fitur kemudian menggunakan fitur-fitur ini untuk menemukan kecocokan terbaik atau kecocokan terdekat di antara berbagai glyph yang tersimpan.

Pascapemrosesan

Setelah analisis, sistem mengonversi data teks yang diekstraksi menjadi file yang terkomputerisasi. Beberapa sistem OCR dapat membuat file PDF beranotasi yang menyertakan versi dokumen sebelum dan sesudah dipindai.

Apa saja tipe-tipe OCR?

Ilmuwan data mengklasifikasikan berbagai tipe teknologi OCR berdasarkan penggunaan dan aplikasinya. Berikut adalah beberapa contohnya:

Perangkat lunak pengenalan karakter optik sederhana

Mesin OCR sederhana bekerja dengan menyimpan banyak font dan pola citra teks yang berbeda sebagai templat. Perangkat lunak OCR menggunakan algoritme pencocokan pola untuk membandingkan citra teks, karakter per karakter, ke basis data internalnya. Jika sistem mencocokkan teks melalui kata per kata, ini disebut pengenalan kata optik. Solusi ini memiliki keterbatasan karena ada font dan gaya tulisan tangan yang hampir tak terbatas, dan setiap tipe tidak dapat ditangkap dan disimpan dalam basis data.

Perangkat lunak pengenalan karakter cerdas

Sistem OCR modern menggunakan teknologi pengenalan karakter cerdas (ICR) untuk membaca teks dengan cara yang sama seperti yang dilakukan manusia. Sistem OCR modern menggunakan metode lanjutan yang melatih mesin untuk berperilaku seperti manusia dengan menggunakan perangkat lunak machine learning. Sistem machine learning yang disebut jaringan neural menganalisis teks melalui banyak tingkatan, memproses citra berulang kali. Sistem ini mencari atribut citra yang berbeda, seperti kurva, garis, persimpangan, dan loop, serta menggabungkan hasil dari semua tingkat analisis yang berbeda ini untuk mendapatkan hasil akhir. Meskipun ICR biasanya memproses citra satu karakter pada satu waktu, prosesnya cepat, dan hasil diperoleh dalam hitungan detik.

Pengenalan kata cerdas

Sistem pengenalan kata cerdas bekerja dengan prinsip yang sama seperti ICR, tetapi memproses citra kata secara keseluruhan alih-alih mempraproses citra menjadi karakter.

Pengenalan tanda optik

Pengenalan tanda optik mengidentifikasi logo, tanda air, dan simbol teks lainnya dalam dokumen.

Apa saja manfaat dari OCR?

Ilmuwan data mengklasifikasikan berbagai tipe teknologi OCR berdasarkan penggunaan dan aplikasinya. Berikut adalah beberapa contohnya:

Perangkat lunak pengenalan karakter optik sederhana

Mesin OCR sederhana bekerja dengan menyimpan banyak font dan pola citra teks yang berbeda sebagai templat. Perangkat lunak OCR menggunakan algoritme pencocokan pola untuk membandingkan citra teks, karakter per karakter, ke basis data internalnya. Jika sistem mencocokkan teks melalui kata per kata, ini disebut pengenalan kata optik. Solusi ini memiliki keterbatasan karena ada font dan gaya tulisan tangan yang hampir tak terbatas, dan setiap tipe tidak dapat ditangkap dan disimpan dalam basis data.

Perangkat lunak pengenalan karakter cerdas

Sistem OCR modern menggunakan teknologi pengenalan karakter cerdas (ICR) untuk membaca teks dengan cara yang sama seperti yang dilakukan manusia. Sistem OCR modern menggunakan metode lanjutan yang melatih mesin untuk berperilaku seperti manusia dengan menggunakan perangkat lunak machine learning. Sistem machine learning yang disebut jaringan neural menganalisis teks melalui banyak tingkatan, memproses citra berulang kali. Sistem ini mencari atribut citra yang berbeda, seperti kurva, garis, persimpangan, dan loop, serta menggabungkan hasil dari semua tingkat analisis yang berbeda ini untuk mendapatkan hasil akhir. Meskipun ICR biasanya memproses citra satu karakter pada satu waktu, prosesnya cepat, dan hasil diperoleh dalam hitungan detik.

Pengenalan kata cerdas

Sistem pengenalan kata cerdas bekerja dengan prinsip yang sama seperti ICR, tetapi memproses citra kata secara keseluruhan alih-alih mempraproses citra menjadi karakter.

Pengenalan tanda optik

Pengenalan tanda optik mengidentifikasi logo, tanda air, dan simbol teks lainnya dalam dokumen.

Apa saja manfaat dari OCR?

Berikut ini adalah manfaat utama dari teknologi OCR:

Teks yang dapat dicari

Bisnis dapat mengonversi dokumen yang sudah ada dan yang baru menjadi arsip pengetahuan yang dapat dicari sepenuhnya. Bisnis juga dapat memproses basis data teks secara otomatis menggunakan perangkat lunak analitik data untuk pemrosesan pengetahuan lebih lanjut.

Efisiensi operasional

Anda dapat meningkatkan efisiensi dengan menggunakan perangkat lunak OCR untuk mengintegrasikan alur kerja dokumen dan alur kerja digital dalam bisnis Anda secara otomatis. Berikut adalah beberapa contoh yang dapat dilakukan oleh perangkat lunak OCR:

  • Memindai formulir yang diisi dengan tulisan tangan untuk verifikasi, tinjauan, pengeditan, dan analisis otomatis. Pemindaian ini menghemat waktu yang diperlukan untuk pemrosesan dokumen dan entri data manual.
  • Mencari dokumen yang diperlukan dengan mencari istilah dalam basis data secara cepat sehingga Anda tidak perlu menyortir file secara manual di dalam kotak.
  • Mengonversi catatan tulisan tangan menjadi teks dan dokumen yang dapat diedit.
     

Solusi kecerdasan buatan

OCR sering menjadi bagian dari solusi kecerdasan buatan lain yang dapat diterapkan oleh bisnis. Misalnya, OCR memindai dan membaca plat nomor serta rambu jalan di mobil kemudi otomatis, mendeteksi logo merek di postingan media sosial, atau mengidentifikasi kemasan produk dalam gambar iklan. Teknologi kecerdasan buatan semacam itu membantu bisnis untuk membuat keputusan pemasaran dan operasional lebih baik yang dapat mengurangi pengeluaran serta meningkatkan pengalaman pelanggan.

Apa kegunaan OCR?

Berikut ini adalah beberapa kasus penggunaan OCR yang umum di berbagai industri:

Perbankan

Industri perbankan menggunakan OCR untuk memproses dan memverifikasi dokumen untuk dokumen pinjaman, cek deposito, dan transaksi keuangan lainnya. Verifikasi ini telah meningkatkan pencegahan penipuan dan meningkatkan keamanan transaksi. Misalnya, BlueVine adalah perusahaan teknologi keuangan yang menyediakan pembiayaan untuk usaha kecil dan menengah. BlueVine menggunakan Amazon Textract, layanan OCR berbasis cloud, untuk mengembangkan produk bagi usaha kecil di AS untuk mengakses pinjaman Program Perlindungan Paycheck (PPP) dengan cepat sebagai bagian dari paket stimulus bantuan COVID-19. Amazon Textract memproses dan menganalisis puluhan ribu formulir PPP per hari secara otomatis sehingga BlueVine dapat membantu beberapa ribu bisnis untuk mendapatkan dana, menghemat lebih dari 400.000 tugas dalam prosesnya.

Layanan Kesehatan

Industri pemeliharaan kesehatan menggunakan OCR untuk memproses catatan pasien, termasuk perawatan, tes, catatan rumah sakit, dan pembayaran asuransi. OCR membantu menyederhanakan alur kerja dan mengurangi pekerjaan manual di rumah sakit sembari tetap memperbarui catatan. Misalnya, nib Group menyediakan asuransi kesehatan dan medis untuk lebih dari satu juta warga Australia dan menerima ribuan klaim medis per hari. Pelanggan nib Group dapat mengambil foto dari tagihan medisnya dan mengirimkannya melalui aplikasi seluler nib. Amazon Textract memproses gambar-gambar ini secara otomatis sehingga perusahaan dapat menyetujui klaim lebih cepat.

Logistik

Perusahaan logistik menggunakan OCR untuk melacak label kemasan, tagihan, kuitansi, dan dokumen lainnya secara lebih efisien. Misalnya, Grup Foresight menggunakan Amazon Textract untuk mengotomatiskan pemrosesan faktur di SAP. Entri manual dari dokumen bisnis ini memakan waktu dan rawan kesalahan karena karyawan Foresight harus memasukkan data ke dalam beberapa sistem akuntansi. Dengan Amazon Textract, perangkat lunak Foresight dapat membaca karakter lebih akurat di berbagai tata letak, sehingga meningkatkan efisiensi bisnis.

Bagaimana cara AWS membantu Anda dengan OCR?

AWS menawarkan dua layanan yang dapat membantu Anda menerapkan OCR dalam bisnis:

Amazon Textract adalah layanan machine learning (ML) yang menggunakan OCR untuk mengekstrak teks, tulisan tangan, dan data secara otomatis dari dokumen yang dipindai seperti PDF. Amazon Textract dapat membaca ribuan dokumen yang berbeda dalam berbagai tata letak dan format dengan kecepatan tinggi. Saat mengekstraksi informasi dari dokumen, Amazon Textract mengembalikan skor kepercayaan untuk semua yang diidentifikasi sehingga Anda dapat membuat keputusan yang tepat mengenai cara dalam menggunakan hasilnya.

Amazon Rekognition dapat menganalisis jutaan gambar dan video dalam hitungan menit serta menambah tugas tinjauan visual manusia dengan kecerdasan buatan. Anda dapat menggunakan API Amazon Rekognition untuk mengekstraksi teks dari gambar dan video. Anda dapat mengekstraksi teks miring dan terdistorsi dari gambar dan video rambu lalu lintas, postingan media sosial, dan kemasan produk.

Mulai OCR di AWS dengan membuat akun AWS sekarang juga.

Langkah berikutnya di AWS