
كيفية تمييز ما إذا كان PDF ممسوحا ضوئيا
ثلاثة فحوصات سريعة:- تحديد النص. حاول تحديد كلمة واحدة. إذا أصبحت الصفحة بأكملها مستطيلا واحدا قابلا للتحديد، فالصفحة صورة.
- حجم الملف. ملف PDF نصي من 10 صفحات عادة 100 إلى 500 KB. ملف PDF ممسوح من 10 صفحات غالبا 5 إلى 30 MB لأن كل صفحة هي صورة عالية الدقة.
- القطع المرئية. تظهر المسوحات تنقطا، ودورانا طفيفا، وحوافا باهتة، ونسيج ورق مرئيا. ملفات PDF رقمية المنشأ بها أحرف واضحة بحواف مصقولة وبدون ضوضاء خلفية.
- شكل المؤشر. حوّم فوق النص. يقلب PDF الرقمي مؤشرك إلى عمود-I فوق النص وسهم فوق الصور. يبقى PDF الممسوح كسهم في كل مكان - لأن كل شيء صورة.
ما يفعله OCR فعلا
OCR هو تعرف على الأنماط لأشكال الحروف. ينظر المحرك إلى مجموعات البكسلات، ويقارنها بنموذج مدرب على ملايين صور المحارف، ويصدر حرفا مخمنا بأفضل حالاته مع درجة ثقة. تستخدم المحركات الحديثة أيضا السياق المحيط: إذا كان متأكدا بنسبة 80% أن الكلمة التالية هي "agreement" والحرف الثالث غامض بين "r" و "n"، فإنه يختار "r" لأن "agreement" كلمة حقيقية. هناك إعدادان يحركان الدقة أكثر من أي شيء آخر:- لغة المصدر. نموذج مدرب على الإنجليزية على مستند فرنسي يخطئ في الأحرف ذات العلامات ويربك الكلمات الشائعة. اضبط اللغة دائما بشكل صريح عندما تعرض الأداة ذلك.
- دقة DPI للمصدر. 300 DPI هو الحد العملي لـ OCR نظيف. مسوحات 200 DPI يمكن أن تعمل للطباعة الكبيرة لكنها تكافح مع الحواشي السفلية الصغيرة. تحت 150، تنهار الدقة بسرعة.
خطوة بخطوة: PDF ممسوح إلى Word

- افتح أداة تحويل PDF إلى Word وارفع مسحك. تكتشف الأداة ما إذا كان OCR لازما تلقائيا عندما يعود تحديد النص فارغا.
- حدد لغة المصدر بحيث يستخدم المعرف القاموس الصحيح. تتصرف الإنجليزية والإسبانية والألمانية والفرنسية والإيطالية والبرتغالية والروسية والبولندية بشكل أفضل ملحوظ عند ضبطها بشكل صريح.
- شغّل التحويل. مسح من 10 صفحات يستغرق نحو 30 إلى 90 ثانية حسب تعقيد الصورة. أرشيف من 100 صفحة قد يستغرق عدة دقائق.
- نزّل .docx وافتحه في Word. تحقق من الصفحة الأولى مقابل PDF الأصلي قبل الوثوق بالباقي.
احتفظ دائما بـ PDF الممسوح الأصلي. إذا شوّش OCR صفحة، فأنت تريد أن تكون قادرا على مقارنتها بالمصدر بدلا من تخمين ما كان يجب أن تكون عليه الكلمة غير المقروءة.يستحق التحقق مرة قبل الوثوق بالناتج: افتح .docx في Word وانظر إلى علامات التنسيق (بدّلها بـ Ctrl+Shift+8 على Windows، Cmd+8 على macOS). إذا رأيت الكثير من علامات الفقرات في نهاية كل سطر - لأن OCR ظن أن كل سطر مرئي فقرة - ستحتاج إلى إصلاح ذلك بـ بحث-واستبدال قبل التحرير. الإصلاح بسيط: استبدل علامات الفقرة المفردة بمسافة، ثم علامات الفقرة المزدوجة بمفردة. (أرى أن هذه الحيلة الواحدة في Word توفر وقتا أكثر من أي إعداد OCR.)
توقعات دقة واقعية
ادعاءات التسويق "دقة 99%" تفترض نصا مطبوعا نظيفا على ورق أبيض بدقة 300 DPI. تتفاوت المستندات الواقعية بشكل كبير. إليك ما يجب توقعه فعلا:| نوع المستند | دقة OCR النموذجية | التنظيف اللازم |
|---|---|---|
| نص مطبوع نظيف، مستند حديث | 95-99% | الحد الأدنى، علامات ترقيم في الغالب |
| مستند مرسل بالفاكس أو منسوخ ضوئيا | 80-90% | تدقيق صفحة بصفحة |
| طباعة قديمة بالآلة الكاتبة / قبل 2000 | 75-90% | تدقيق مكثف، خاصة لـ "1" مقابل "l" |
| كتابة يدوية | 30-70%، متغير جدا | أسرع غالبا إعادة الكتابة |
| جداول الأرقام | التخطيط يفشل في معظم الأوقات | إعادة تنسيق يدوية |
| تخطيط جريدة أو مجلة متعدد الأعمدة | النص صحيح، التخطيط خاطئ | إعادة الانسياب إلى عمود واحد يدويا |
| صورة كاميرا لصفحة (إضاءة جيدة) | 85-95% | اقتص وعدّل الإمالة أولا للحصول على أفضل النتائج |
تنظيف ما قبل OCR يعزز الدقة
خمس دقائق من الإعداد تخفض وقت تنظيف ما بعد OCR إلى النصف:- قم بتدوير الصفحات الجانبية. تفترض محركات OCR نصا أفقيا. تعيد الصفحة المدارة 90 درجة هراء أو لا شيء. استخدم أداة لـ تدوير الصفحات الجانبية أولا قبل OCR.
- اقتص الهوامش الزائدة. الحدود البيضاء العريضة تربك محلل التخطيط ليظن أن عمودك الواحد عمودان. اقتص الهوامش إلى حيث يبدأ النص فعلا.
- زد التباين. تستفيد المسوحات الباهتة من تعزيز التباين في برنامج الماسح الضوئي أو أي محرر صور قبل إعادة الحفظ كـ PDF. نص أسود نقي على خلفية بيضاء نقية هو المعيار الذهبي.
- عدّل الإمالة. الصفحات المائلة بحتى 2 إلى 3 درجات تضر بالدقة. لدى معظم برامج الماسح الضوئي خيار تعديل الإمالة التلقائي، ويستحق التشغيل.
- أسقط اللون إلى تدرج رمادي أو أبيض-وأسود قبل المسح إن استطعت. الصبغات الملونة (الناتج النموذجي ذو اللون الأصفر للناسخات المكتبية) تغير التباين بطرق ترهق المعرف.
- أزل الدبابيس والتجاعيد قبل المسح. يبدو واضحا، لكن الصفحات المطوية تنتج خطوطا مظللة يقرأها OCR كشرطات سفلية أو حدود جدول.
قائمة تحقق لتنظيف ما بعد OCR
بمجرد وصول .docx، شغّل بضع جولات بحث-واستبدال قبل البدء في التحرير بجدية. هذه أكثر أخطاء OCR شيوعا في المستندات الإنجليزية:- غالبا ما تصبح
rnm، أو العكس. ابحث عن "rn" وأشباه "modern". - يخلط
l(l صغيرة) بـ1(واحد). شائع خاصة في أرقام الفواتير والتواريخ. - يخلط
0(صفر) بـO(o كبيرة) داخل الرموز والمعرفات. - الاقتباسات الذكية تنقلب إلى مستقيمة أو العكس، مما يكسر الاقتباسات.
- تتحول شرطات em إلى شرطتين أو شرطة-مسافة-شرطة.
- قد تنتهي الرؤوس والتذييلات من كل صفحة سطريا كنص. احذفها مرة واحدة وأقفل رأس Word حقيقيا بدلا منها.
- قوائم نقطية تُعرض كفقرات عادية مسبوقة بحرف "•" حرفي أو حرف "o" تائه.
- الكلمات المقطوعة بشرطة في نهاية السطر (mer-/chant على أسطر متتالية) تنجو أحيانا في مستند Word كشرطات حقيقية. ابحث عن "- " (شرطة-مسافة) ونظف.
متى لا يستحق OCR
أحيانا تكون الإجابة الصحيحة هي إعادة الكتابة بدلا من OCR-والتنظيف. تعتمد نقطة التعادل على طول المستند وجودة المصدر:- أقل من صفحة واحدة من طباعة نظيفة: غالبا ما تكون إعادة الكتابة أسرع من تشغيل OCR والتنزيل وفتح Word والتدقيق.
- صفحة إلى عشر صفحات من طباعة نظيفة: يفوز OCR، حتى مع التنظيف.
- عشر صفحات أو أكثر من جودة فاكس سيئة: يفوز OCR في الوقت، لكن جولة التنظيف يمكن أن تكون مملة. خطط لها كمهمة حقيقية، وليست مهمة سريعة من خمس دقائق.
- أي شيء مكتوب بخط اليد: أعد الكتابة ما لم يكن المستند مئات الصفحات والبديل هو "عدم امتلاكه رقميا على الإطلاق".
- البيانات الرقمية: إعادة كتابة الأرقام أسرع من التحقق من كل رقم في ناتج OCR، وخطوة التحقق إلزامية إذا كانت الدقة مهمة.
الأسئلة الشائعة
لماذا يخرج مستند Word فارغا بعد التحويل؟
دائما تقريبا، شغّلت محولا بدون OCR على PDF ممسوح. لم يجد المحول طبقة نصية، لذا أنتج مستند Word مع صور الصفحة المضمنة لكن بدون نص قابل للتحرير. أعد تشغيل الملف عبر مسار تحويل ممكّن بـ OCR.
هل يستطيع OCR التعامل مع ملاحظات مكتوبة بخط اليد؟
أحيانا، بشكل سيء. تحسن OCR للكتابة اليدوية مع النماذج العصبية لكنه لا يزال يتراوح من 30% إلى 70% دقة على الكتابة اليدوية الواقعية. لأي شيء مهم، إعادة الكتابة عادة أسرع من تصحيح ناتج OCR. الكتابة اليدوية بأحرف الطباعة (مثل نموذج مملوء بأحرف كبيرة) تعمل أفضل بكثير من الكتابة المتصلة.
أي اللغات يدعمها OCR؟
تغطي معظم المحركات، بما في ذلك التي تستخدمها Convertica، جميع اللغات الأوروبية الكبرى بما في ذلك الإنجليزية والإسبانية والفرنسية والألمانية والإيطالية والبرتغالية والروسية والبولندية وغيرها الكثير. اضبط لغة المصدر بشكل صريح للنصوص ذات العلامات أو غير اللاتينية. المستندات متعددة اللغات (الإنجليزية مع مقاطع فرنسية مقتبسة) تعمل أفضل عند ضبطها على اللغة المهيمنة.
لماذا تخرج الجداول كنص مشوش؟
يقرأ OCR من اليسار إلى اليمين، من الأعلى إلى الأسفل، وحدود خلايا الجدول تربك ذلك التدفق. قد تنتهي الأرقام من الصف 1 العمود 3 بجوار الصف 2 العمود 1. للبيانات الجدولية، التحويل المباشر إلى Excel وإعادة بناء الجدول هناك عادة أسرع من إصلاحه في Word.
هل تحويل OCR سري؟
تعالج الأدوات المتصفحية الموثوقة الملف في جلسة مؤقتة وتحذفه بعد ذلك بفترة قصيرة. اقرأ سياسة الخصوصية لأي أداة قبل رفع مستندات حساسة. للمواد السرية للغاية، فكّر في OCR محلي (Tesseract، ABBYY) بدلا من أي خدمة ويب.
كم يستغرق OCR لمسح من 50 صفحة؟
نحو دقيقتين إلى خمس دقائق على خدمة جيدة، حسب دقة الصورة وحمل الخادم. تستغرق المسوحات بدقة 600 DPI وقتا أطول ملحوظا من 300 DPI دون إنتاج نتائج أفضل.
جرّبه الآن
توقف عن إعادة الكتابة. ارفع مسحك إلى محول PDF إلى Word، اضبط لغة المصدر، وستحرر في Word بعد دقيقة. فقط خطط لجولة تدقيق سريعة قبل شحن النتيجة.