Catatan Belajar oleh : Reza Ervani bin Asmanu
Bismilahirrahmanirrahiim
Saat melakukan proses otomasi OCR yang sudah terintegrasi ke Maktabah Reza Ervani (selanjutnya penulis sebut MRE), saya mendapati ada beberapa kesalahan berulang yang disebabkan OCR tidak mengenali sebuah kata dengan baik. Baik karena teks dalam lembaran scan tidak jelas atau kata tersebut tidak terdaftar dalam trained data yang ada.
Contoh kata Al Quran sering muncul menjadi al Guran - karena huruf Q dikenali oleh OCR sebagai huruf G.
Dari sini muncul ide mengembangkan _Spelling Correction_ otomatis di MRE. Salah satunya menggunakan algoritma yang dikembankan oleh Peter Norvig
Dua tahapan penting dalam algoritma yang dia kembangkana adalah Tahap Mekanisme Seleksi dan Model Kandidat.
Model Kandidat ini dihitung dari kemunculan kata di suatu artikel (dia menggunakan buku The Adventures of Sherlock Holmes dari Project Guttenberg sebagai pemodelan, karena algoritma yang dia kembangkan adalah untuk _Spelling Correction_ dalam Bahasa Inggris.
Berangkat dari sini, muncul ide di benak saya untuk menyertakan algoritma Model Kandidat kata ini di setiap terjemahan yang dikerjakan di MRE, termasuk yang dikerjakan oleh AI.
Algoritma ini nanti akan menghitung jumlah kemunculan kata dalam suatu halaman, lalu mengakumulasikannya dari seluruh halaman yang sudah dimuat, untuk kemudian digunakan sebagai Model Kandidat di program _Spelling Correction_ MRE. Program _Spelling Correction_ ini selanjutnya akan saya coba untuk memperbaiki secara otomatis hasil OCR yang keliru di halaman-halaman MRE.
Karena cukup mudah membuat algoritma tersebut, saya akan buat dalam dua bahasa pemrogramman yakni PHP dan Python.
Nantikan informasi berikutnya dalam artikel berikutnya in sya Allah.
Semoga Allah Ta'ala memudahkan.
Allahumma faqihnaa fiddiin. Allahummarhamnaa bil Quraan