
Cara mengetahui apakah PDF Anda hasil scan
Tiga pemeriksaan cepat:- Seleksi teks. Coba pilih satu kata. Jika seluruh halaman menjadi satu persegi panjang yang dapat diseleksi, halamannya adalah gambar.
- Ukuran file. PDF teks 10 halaman biasanya 100 hingga 500 KB. PDF scan 10 halaman sering 5 hingga 30 MB karena setiap halaman adalah gambar resolusi tinggi.
- Artefak visual. Scan menunjukkan bintik-bintik, sedikit rotasi, tepi memudar, dan tekstur kertas yang terlihat. PDF born-digital memiliki huruf tajam dengan tepi anti-aliased dan tanpa noise latar.
- Bentuk kursor. Hover di atas teks. PDF digital membalik kursor Anda menjadi I-beam di atas teks dan panah di atas gambar. PDF hasil scan tetap berupa panah di mana saja - karena semuanya adalah gambar.
Apa yang sebenarnya dilakukan OCR
OCR adalah pengenalan pola untuk bentuk huruf. Engine melihat kelompok piksel, membandingkannya dengan model yang dilatih pada jutaan gambar glyph, dan mengeluarkan tebakan karakter terbaik beserta skor kepercayaan. Engine modern juga menggunakan konteks sekitar: jika 80% yakin kata berikutnya adalah "agreement" dan huruf ketiga ambigu antara "r" dan "n", ia memilih "r" karena "agreement" adalah kata nyata. Dua pengaturan menentukan akurasi lebih dari yang lain:- Bahasa sumber. Model yang dilatih bahasa Inggris pada dokumen Prancis salah membaca karakter beraksen dan bingung dengan kata-kata umum. Selalu atur bahasa secara eksplisit ketika alat menawarkannya.
- DPI sumber. 300 DPI adalah lantai praktis untuk OCR yang bersih. Scan 200 DPI bisa berfungsi untuk cetakan besar tetapi kesulitan dengan footnote kecil. Di bawah 150, akurasi runtuh dengan cepat.
Langkah demi langkah: PDF hasil scan ke Word

- Buka alat konversi PDF ke Word dan unggah scan Anda. Alat mendeteksi apakah OCR diperlukan secara otomatis ketika seleksi teks mengembalikan kosong.
- Pilih bahasa sumber agar pengenal menggunakan kamus yang tepat. Inggris, Spanyol, Jerman, Prancis, Italia, Portugis, Rusia, dan Polandia semua berperilaku jauh lebih baik ketika diatur secara eksplisit.
- Jalankan konversi. Scan 10 halaman memakan kira-kira 30 hingga 90 detik tergantung kompleksitas gambar. Arsip 100 halaman bisa berjalan beberapa menit.
- Unduh .docx dan buka di Word. Periksa halaman pertama terhadap PDF asli sebelum mempercayai sisanya.
Selalu simpan PDF hasil scan asli. Jika OCR mengacaukan halaman, Anda ingin bisa membandingkannya dengan sumber daripada menebak apa kata yang tidak terbaca seharusnya.Perlu diperiksa sekali sebelum mempercayai output: buka .docx di Word dan lihat tanda formatting (toggle dengan Ctrl+Shift+8 di Windows, Cmd+8 di macOS). Jika Anda melihat banyak tanda paragraf di akhir setiap baris - karena OCR mengira setiap baris visual adalah paragraf - Anda akan ingin memperbaikinya dengan find-and-replace sebelum mengedit. Solusinya sederhana: ganti tanda paragraf tunggal dengan spasi, lalu tanda paragraf ganda kembali menjadi tunggal. (Saya berpendapat trik Word tunggal ini menghemat lebih banyak waktu daripada pengaturan OCR mana pun.)
Ekspektasi akurasi yang realistis
Klaim pemasaran "akurasi 99%" mengasumsikan teks cetak bersih pada kertas putih di 300 DPI. Dokumen dunia nyata sangat bervariasi. Berikut yang sebenarnya bisa diharapkan:| Jenis dokumen | Akurasi OCR tipikal | Pembersihan dibutuhkan |
|---|---|---|
| Teks cetak bersih, dokumen modern | 95-99% | Minimal, sebagian besar tanda baca |
| Dokumen fax atau fotokopi | 80-90% | Proofreading per halaman |
| Cetakan mesin tik lama / pra-2000 | 75-90% | Proofreading berat, terutama untuk "1" vs "l" |
| Tulisan tangan | 30-70%, sangat bervariasi | Sering lebih cepat mengetik ulang |
| Tabel angka | Layout gagal sebagian besar waktu | Format ulang manual |
| Layout multi-kolom koran atau majalah | Teks benar, layout salah | Reflow ke kolom tunggal manual |
| Foto kamera halaman (pencahayaan baik) | 85-95% | Crop dan deskew dulu untuk hasil terbaik |
Pembersihan pra-OCR yang meningkatkan akurasi
Lima menit persiapan memotong waktu pembersihan pasca-OCR menjadi setengah:- Putar halaman miring. Engine OCR mengasumsikan teks horizontal. Halaman miring 90 derajat mengembalikan ngawur atau tidak ada apa-apa. Gunakan alat untuk memutar halaman miring terlebih dahulu sebelum OCR.
- Crop margin berlebih. Border putih lebar membingungkan analyzer layout sehingga mengira kolom tunggal Anda adalah dua. Crop marginnya ke tempat teks sebenarnya dimulai.
- Tingkatkan kontras. Scan memudar mendapat manfaat dari peningkatan kontras di software scanner Anda atau editor gambar mana pun sebelum disimpan ulang sebagai PDF. Teks hitam murni di atas latar putih murni adalah standar emas.
- Deskew. Halaman miring bahkan 2 hingga 3 derajat saja merusak akurasi. Sebagian besar software scanner memiliki opsi auto-deskew, dan layak dijalankan.
- Turunkan warna ke grayscale atau hitam-putih sebelum scan jika bisa. Tint warna (output fotokopi kantor tipikal yang kekuningan) menggeser kontras dengan cara yang membuat pengenal kacau.
- Lepas staples dan kerutan sebelum scan. Kedengarannya jelas, tetapi halaman terlipat menghasilkan garis berbayang yang dibaca OCR sebagai underscore atau border tabel.
Daftar pembersihan pasca-OCR
Setelah .docx mendarat, jalankan beberapa pass find-and-replace sebelum Anda mulai mengedit secara serius. Ini adalah kesalahan OCR paling umum di seluruh dokumen Inggris:rnsering menjadim, atau sebaliknya. Cari "rn" dan kata mirip "modern".l(L kecil) bingung dengan1(satu). Sangat umum di nomor invoice dan tanggal.0(nol) bingung denganO(o kapital) di dalam kode dan ID.- Smart quotes terbalik menjadi straight quotes atau sebaliknya, merusak kutipan.
- Em dash dikonversi menjadi dua hyphen atau hyphen-spasi-hyphen.
- Header dan footer dari setiap halaman bisa berakhir inline sebagai teks. Hapus sekali dan kunci header Word yang nyata sebagai gantinya.
- List berbutir dirender sebagai paragraf biasa diawali dengan literal "•" atau karakter "o" nyasar.
- Kata-kata berhyphen di akhir baris (mer-/chant pada baris berurutan) kadang bertahan ke dokumen Word sebagai hyphen sungguhan. Cari "- " (hyphen-spasi) dan bersihkan.
Kapan OCR tidak sepadan
Terkadang jawaban yang tepat adalah mengetik ulang daripada OCR-dan-bersihkan. Titik impas tergantung pada panjang dokumen dan kualitas sumber:- Di bawah satu halaman cetak bersih: Mengetik ulang sering lebih cepat daripada menjalankan OCR, mengunduh, membuka Word, dan proofing.
- Satu hingga sepuluh halaman cetak bersih: OCR menang, bahkan dengan pembersihan.
- Sepuluh atau lebih halaman kualitas fax buruk: OCR menang dalam waktu, tetapi pass pembersihan bisa membosankan. Rencanakan sebagai tugas nyata, bukan pekerjaan cepat lima menit.
- Apa pun yang ditulis tangan: Ketik ulang kecuali dokumen ratusan halaman dan alternatifnya adalah "tidak memilikinya secara digital sama sekali".
- Data numerik: Mengetik ulang angka lebih cepat daripada memverifikasi setiap digit output OCR, dan langkah verifikasi wajib jika akurasi penting.
FAQ
Mengapa dokumen Word saya keluar kosong setelah konversi?
Hampir selalu, Anda menjalankan konverter non-OCR pada PDF hasil scan. Konverter tidak menemukan layer teks, jadi menghasilkan dokumen Word dengan gambar halaman tertanam tetapi tanpa teks yang bisa diedit. Jalankan ulang file melalui jalur konversi yang OCR-enabled.
Apakah OCR bisa menangani catatan tulisan tangan?
Kadang, dengan buruk. OCR tulisan tangan membaik dengan model neural tetapi masih berkisar 30% hingga 70% akurasi pada tulisan tangan dunia nyata. Untuk apa pun yang penting, mengetik ulang biasanya lebih cepat daripada mengoreksi output OCR. Tulisan tangan cetak (seperti formulir diisi dengan huruf kapital) jauh lebih baik daripada cursive.
Bahasa apa saja yang didukung OCR?
Sebagian besar engine, termasuk yang digunakan Convertica, mencakup semua bahasa Eropa utama termasuk Inggris, Spanyol, Prancis, Jerman, Italia, Portugis, Rusia, Polandia, dan banyak lagi. Atur bahasa sumber secara eksplisit untuk skrip beraksen atau non-Latin. Dokumen multi-bahasa (Inggris dengan kutipan Prancis) bekerja paling baik ketika diatur ke bahasa dominan.
Mengapa tabel keluar sebagai teks acak?
OCR membaca kiri-ke-kanan, atas-ke-bawah, dan batas sel tabel mengacaukan alur itu. Angka dari baris 1 kolom 3 mungkin berakhir di sebelah baris 2 kolom 1. Untuk data tabular, mengonversi langsung ke Excel dan membangun ulang tabel di sana biasanya lebih cepat daripada memperbaikinya di Word.
Apakah konversi OCR rahasia?
Alat berbasis browser yang reputable memproses file dalam sesi sementara dan menghapusnya tak lama kemudian. Baca kebijakan privasi alat apa pun sebelum mengunggah dokumen sensitif. Untuk material yang sangat rahasia, pertimbangkan OCR lokal (Tesseract, ABBYY) alih-alih layanan web mana pun.
Berapa lama OCR untuk scan 50 halaman?
Kira-kira dua hingga lima menit pada layanan yang baik, tergantung resolusi gambar dan beban server. Scan pada 600 DPI memakan waktu jauh lebih lama daripada 300 DPI tanpa menghasilkan hasil lebih baik.
Coba sekarang
Berhenti mengetik ulang. Unggah scan Anda ke konverter PDF ke Word, atur bahasa sumber, dan Anda akan mengedit di Word satu menit kemudian. Cukup rencanakan pass proofreading cepat sebelum mengirim hasilnya.