انتقل إلى المحتوى الرئيسي
أدلة إرشادية

كيفية تحويل PDF ممسوح ضوئيا إلى مستند Word قابل للتحرير (مع نصائح OCR)

إبريل 28, 2026
كيفية تحويل PDF ممسوح ضوئيا إلى مستند Word قابل للتحرير (مع نصائح OCR)
جرّب هذا على PDF أمامك: انقر واسحب عبر فقرة كما لو كنت ستنسخ النص. إذا أبرز مؤشرك كلمات فردية، فإن PDF رقمي ومحول قياسي يعمل. إذا أبرز مستطيلا كبيرا حول الصفحة بأكملها، فلديك مسح ضوئي، مما يعني أن كل صفحة هي في الأساس صورة من ورقة، وأي أداة عادية لـ PDF-إلى-Word ستعيد إليك مستند Word مليئا بالصور، لا بالنص. هنا يأتي دور OCR. التعرف الضوئي على الحروف يقرأ البكسلات ويعيد بناءها كحروف وكلمات وفقرات حقيقية. عند تنفيذه جيدا، تحصل على ‎.docx‎ قابل للتحرير. عند تنفيذه بشكل سيء، تحصل على نص مشوش وعليك تنظيف الفواصل والمسافات وأخطاء rn-مقابل-m لمدة ساعة. الفرق في الغالب في ملف المصدر وبضعة أمور يمكنك التحكم بها.
محول PDF إلى Word من Convertica يقبل مستندا ممسوحا ضوئيا للمعالجة بـ OCR

كيفية تمييز ما إذا كان PDF ممسوحا ضوئيا

ثلاثة فحوصات سريعة:
  • تحديد النص. حاول تحديد كلمة واحدة. إذا أصبحت الصفحة بأكملها مستطيلا واحدا قابلا للتحديد، فالصفحة صورة.
  • حجم الملف. ملف PDF نصي من 10 صفحات عادة 100 إلى 500 KB. ملف PDF ممسوح من 10 صفحات غالبا 5 إلى 30 MB لأن كل صفحة هي صورة عالية الدقة.
  • القطع المرئية. تظهر المسوحات تنقطا، ودورانا طفيفا، وحوافا باهتة، ونسيج ورق مرئيا. ملفات PDF رقمية المنشأ بها أحرف واضحة بحواف مصقولة وبدون ضوضاء خلفية.
  • شكل المؤشر. حوّم فوق النص. يقلب PDF الرقمي مؤشرك إلى عمود-I فوق النص وسهم فوق الصور. يبقى PDF الممسوح كسهم في كل مكان - لأن كل شيء صورة.
توجد ملفات PDF هجينة أيضا، حيث مسح شخص ما عقدا ثم ألحق صفحة توقيع رقمية المنشأ. يتخطى OCR الصفحة الرقمية (لا حاجة) ويعالج فقط الممسوحة. قم بإجراء اختبار تحديد النص على عدة صفحات مختلفة من أي ملف كبير قبل افتراض أن الكل من نوع واحد.

ما يفعله OCR فعلا

OCR هو تعرف على الأنماط لأشكال الحروف. ينظر المحرك إلى مجموعات البكسلات، ويقارنها بنموذج مدرب على ملايين صور المحارف، ويصدر حرفا مخمنا بأفضل حالاته مع درجة ثقة. تستخدم المحركات الحديثة أيضا السياق المحيط: إذا كان متأكدا بنسبة 80% أن الكلمة التالية هي "agreement" والحرف الثالث غامض بين "r" و "n"، فإنه يختار "r" لأن "agreement" كلمة حقيقية. هناك إعدادان يحركان الدقة أكثر من أي شيء آخر:
  • لغة المصدر. نموذج مدرب على الإنجليزية على مستند فرنسي يخطئ في الأحرف ذات العلامات ويربك الكلمات الشائعة. اضبط اللغة دائما بشكل صريح عندما تعرض الأداة ذلك.
  • دقة DPI للمصدر. 300 DPI هو الحد العملي لـ OCR نظيف. مسوحات 200 DPI يمكن أن تعمل للطباعة الكبيرة لكنها تكافح مع الحواشي السفلية الصغيرة. تحت 150، تنهار الدقة بسرعة.
عامل ثالث لا يفكر فيه الناس كثيرا: التباين. يعمل OCR على الفرق بين الحبر والخلفية. نسخة ضوئية باهتة من نسخة ضوئية يمكن أن تكون لها دقة اسمية 300 DPI ولا تزال تنتج عجينة لأن نسبة التباين منخفضة جدا للمحرك ليجد حواف الحروف. تتعامل المحركات الحديثة مع هذا أفضل من القديمة، لكن إصدارات Tesseract القديمة (أي شيء قبل الإصدار 4.0، الصادر في 2018) لا تزال تكافح على المدخلات منخفضة التباين.

خطوة بخطوة: PDF ممسوح إلى Word

تحويل PDF-إلى-Word مدعوم بـ OCR يحوّل مسحا إلى ‎.docx‎ قابل للتحرير
  1. افتح أداة تحويل PDF إلى Word وارفع مسحك. تكتشف الأداة ما إذا كان OCR لازما تلقائيا عندما يعود تحديد النص فارغا.
  2. حدد لغة المصدر بحيث يستخدم المعرف القاموس الصحيح. تتصرف الإنجليزية والإسبانية والألمانية والفرنسية والإيطالية والبرتغالية والروسية والبولندية بشكل أفضل ملحوظ عند ضبطها بشكل صريح.
  3. شغّل التحويل. مسح من 10 صفحات يستغرق نحو 30 إلى 90 ثانية حسب تعقيد الصورة. أرشيف من 100 صفحة قد يستغرق عدة دقائق.
  4. نزّل ‎.docx‎ وافتحه في Word. تحقق من الصفحة الأولى مقابل PDF الأصلي قبل الوثوق بالباقي.
احتفظ دائما بـ PDF الممسوح الأصلي. إذا شوّش OCR صفحة، فأنت تريد أن تكون قادرا على مقارنتها بالمصدر بدلا من تخمين ما كان يجب أن تكون عليه الكلمة غير المقروءة.
يستحق التحقق مرة قبل الوثوق بالناتج: افتح ‎.docx‎ في Word وانظر إلى علامات التنسيق (بدّلها بـ Ctrl+Shift+8 على Windows، Cmd+8 على macOS). إذا رأيت الكثير من علامات الفقرات في نهاية كل سطر - لأن OCR ظن أن كل سطر مرئي فقرة - ستحتاج إلى إصلاح ذلك بـ بحث-واستبدال قبل التحرير. الإصلاح بسيط: استبدل علامات الفقرة المفردة بمسافة، ثم علامات الفقرة المزدوجة بمفردة. (أرى أن هذه الحيلة الواحدة في Word توفر وقتا أكثر من أي إعداد OCR.)

توقعات دقة واقعية

ادعاءات التسويق "دقة 99%" تفترض نصا مطبوعا نظيفا على ورق أبيض بدقة 300 DPI. تتفاوت المستندات الواقعية بشكل كبير. إليك ما يجب توقعه فعلا:
نوع المستند دقة OCR النموذجية التنظيف اللازم
نص مطبوع نظيف، مستند حديث 95-99% الحد الأدنى، علامات ترقيم في الغالب
مستند مرسل بالفاكس أو منسوخ ضوئيا 80-90% تدقيق صفحة بصفحة
طباعة قديمة بالآلة الكاتبة / قبل 2000 75-90% تدقيق مكثف، خاصة لـ "1" مقابل "l"
كتابة يدوية 30-70%، متغير جدا أسرع غالبا إعادة الكتابة
جداول الأرقام التخطيط يفشل في معظم الأوقات إعادة تنسيق يدوية
تخطيط جريدة أو مجلة متعدد الأعمدة النص صحيح، التخطيط خاطئ إعادة الانسياب إلى عمود واحد يدويا
صورة كاميرا لصفحة (إضاءة جيدة) 85-95% اقتص وعدّل الإمالة أولا للحصول على أفضل النتائج
أي شخص يعد بـ 99% على مستند مرسل بالفاكس إما لم يختبره أو يبيع شيئا. اضبط توقعاتك على "سأحتاج للتدقيق"، وليس "أستطيع شحن هذا خاما". مشكلة محددة: أرقام الفواتير ورموز المراجع هي حيث تؤذي أخطاء OCR أكثر. رقم مقروء خطأ في فقرة من نص الجسم مغفور؛ رقم مقروء خطأ في "Invoice 1023841" يمكن أن يقيد دفعة لحساب خاطئ. تحقق دائما من المعرفات الرقمية في ناتج OCR مقابل الأصل.

تنظيف ما قبل OCR يعزز الدقة

خمس دقائق من الإعداد تخفض وقت تنظيف ما بعد OCR إلى النصف:
  • قم بتدوير الصفحات الجانبية. تفترض محركات OCR نصا أفقيا. تعيد الصفحة المدارة 90 درجة هراء أو لا شيء. استخدم أداة لـ تدوير الصفحات الجانبية أولا قبل OCR.
  • اقتص الهوامش الزائدة. الحدود البيضاء العريضة تربك محلل التخطيط ليظن أن عمودك الواحد عمودان. اقتص الهوامش إلى حيث يبدأ النص فعلا.
  • زد التباين. تستفيد المسوحات الباهتة من تعزيز التباين في برنامج الماسح الضوئي أو أي محرر صور قبل إعادة الحفظ كـ PDF. نص أسود نقي على خلفية بيضاء نقية هو المعيار الذهبي.
  • عدّل الإمالة. الصفحات المائلة بحتى 2 إلى 3 درجات تضر بالدقة. لدى معظم برامج الماسح الضوئي خيار تعديل الإمالة التلقائي، ويستحق التشغيل.
  • أسقط اللون إلى تدرج رمادي أو أبيض-وأسود قبل المسح إن استطعت. الصبغات الملونة (الناتج النموذجي ذو اللون الأصفر للناسخات المكتبية) تغير التباين بطرق ترهق المعرف.
  • أزل الدبابيس والتجاعيد قبل المسح. يبدو واضحا، لكن الصفحات المطوية تنتج خطوطا مظللة يقرأها OCR كشرطات سفلية أو حدود جدول.

قائمة تحقق لتنظيف ما بعد OCR

بمجرد وصول ‎.docx‎، شغّل بضع جولات بحث-واستبدال قبل البدء في التحرير بجدية. هذه أكثر أخطاء OCR شيوعا في المستندات الإنجليزية:
  • غالبا ما تصبح rn m، أو العكس. ابحث عن "rn" وأشباه "modern".
  • يخلط l (l صغيرة) بـ 1 (واحد). شائع خاصة في أرقام الفواتير والتواريخ.
  • يخلط 0 (صفر) بـ O (o كبيرة) داخل الرموز والمعرفات.
  • الاقتباسات الذكية تنقلب إلى مستقيمة أو العكس، مما يكسر الاقتباسات.
  • تتحول شرطات em إلى شرطتين أو شرطة-مسافة-شرطة.
  • قد تنتهي الرؤوس والتذييلات من كل صفحة سطريا كنص. احذفها مرة واحدة وأقفل رأس Word حقيقيا بدلا منها.
  • قوائم نقطية تُعرض كفقرات عادية مسبوقة بحرف "•" حرفي أو حرف "o" تائه.
  • الكلمات المقطوعة بشرطة في نهاية السطر (mer-/chant على أسطر متتالية) تنجو أحيانا في مستند Word كشرطات حقيقية. ابحث عن "- " (شرطة-مسافة) ونظف.
تحتاج الجداول دائما تقريبا إلى إعادة بناء يدوية. إذا كان المصدر يحتوي على بيانات تفضل أن تكون في جدول بيانات على أي حال، فقد يكون أسرع استخراج البيانات إلى Excel بدلا من ذلك وتجاوز Word كليا للأقسام الرقمية. تستحق فقرة منفصلة: التوقيعات والأختام لا تنجو من OCR. تأتي كصور صغيرة مضمنة، مقطوعة غالبا، ومفقودة أحيانا كليا. إذا كانت القيمة القانونية للمستند تعتمد على توقيع، فإن نسخة Word المعالجة بـ OCR هي نسخة عمل، وليست نسخة موثوقة. احتفظ بـ PDF الأصلي كسجل قانوني.

متى لا يستحق OCR

أحيانا تكون الإجابة الصحيحة هي إعادة الكتابة بدلا من OCR-والتنظيف. تعتمد نقطة التعادل على طول المستند وجودة المصدر:
  • أقل من صفحة واحدة من طباعة نظيفة: غالبا ما تكون إعادة الكتابة أسرع من تشغيل OCR والتنزيل وفتح Word والتدقيق.
  • صفحة إلى عشر صفحات من طباعة نظيفة: يفوز OCR، حتى مع التنظيف.
  • عشر صفحات أو أكثر من جودة فاكس سيئة: يفوز OCR في الوقت، لكن جولة التنظيف يمكن أن تكون مملة. خطط لها كمهمة حقيقية، وليست مهمة سريعة من خمس دقائق.
  • أي شيء مكتوب بخط اليد: أعد الكتابة ما لم يكن المستند مئات الصفحات والبديل هو "عدم امتلاكه رقميا على الإطلاق".
  • البيانات الرقمية: إعادة كتابة الأرقام أسرع من التحقق من كل رقم في ناتج OCR، وخطوة التحقق إلزامية إذا كانت الدقة مهمة.
شيء آخر يستحق المعرفة عن السرية: السجل الطبي الممسوح أو نص شهادة تدلي بها وتعالجها بـ OCR عبر خدمة ويب قد عاش الآن لفترة وجيزة على خادم شخص آخر، حتى لو حذف ذلك الخادم على الفور. للمستندات المغطاة بـ HIPAA، أو بيانات الفئة الخاصة بـ GDPR، أو الامتياز بين المحامي والعميل، شغّل OCR محليا بـ Tesseract أو أداة سطح مكتب مثل ABBYY FineReader. ضريبة الإعداد لخمس دقائق تستحق راحة البال.

الأسئلة الشائعة

لماذا يخرج مستند Word فارغا بعد التحويل؟

دائما تقريبا، شغّلت محولا بدون OCR على PDF ممسوح. لم يجد المحول طبقة نصية، لذا أنتج مستند Word مع صور الصفحة المضمنة لكن بدون نص قابل للتحرير. أعد تشغيل الملف عبر مسار تحويل ممكّن بـ OCR.

هل يستطيع OCR التعامل مع ملاحظات مكتوبة بخط اليد؟

أحيانا، بشكل سيء. تحسن OCR للكتابة اليدوية مع النماذج العصبية لكنه لا يزال يتراوح من 30% إلى 70% دقة على الكتابة اليدوية الواقعية. لأي شيء مهم، إعادة الكتابة عادة أسرع من تصحيح ناتج OCR. الكتابة اليدوية بأحرف الطباعة (مثل نموذج مملوء بأحرف كبيرة) تعمل أفضل بكثير من الكتابة المتصلة.

أي اللغات يدعمها OCR؟

تغطي معظم المحركات، بما في ذلك التي تستخدمها Convertica، جميع اللغات الأوروبية الكبرى بما في ذلك الإنجليزية والإسبانية والفرنسية والألمانية والإيطالية والبرتغالية والروسية والبولندية وغيرها الكثير. اضبط لغة المصدر بشكل صريح للنصوص ذات العلامات أو غير اللاتينية. المستندات متعددة اللغات (الإنجليزية مع مقاطع فرنسية مقتبسة) تعمل أفضل عند ضبطها على اللغة المهيمنة.

لماذا تخرج الجداول كنص مشوش؟

يقرأ OCR من اليسار إلى اليمين، من الأعلى إلى الأسفل، وحدود خلايا الجدول تربك ذلك التدفق. قد تنتهي الأرقام من الصف 1 العمود 3 بجوار الصف 2 العمود 1. للبيانات الجدولية، التحويل المباشر إلى Excel وإعادة بناء الجدول هناك عادة أسرع من إصلاحه في Word.

هل تحويل OCR سري؟

تعالج الأدوات المتصفحية الموثوقة الملف في جلسة مؤقتة وتحذفه بعد ذلك بفترة قصيرة. اقرأ سياسة الخصوصية لأي أداة قبل رفع مستندات حساسة. للمواد السرية للغاية، فكّر في OCR محلي (Tesseract، ABBYY) بدلا من أي خدمة ويب.

كم يستغرق OCR لمسح من 50 صفحة؟

نحو دقيقتين إلى خمس دقائق على خدمة جيدة، حسب دقة الصورة وحمل الخادم. تستغرق المسوحات بدقة 600 DPI وقتا أطول ملحوظا من 300 DPI دون إنتاج نتائج أفضل.

جرّبه الآن

توقف عن إعادة الكتابة. ارفع مسحك إلى محول PDF إلى Word، اضبط لغة المصدر، وستحرر في Word بعد دقيقة. فقط خطط لجولة تدقيق سريعة قبل شحن النتيجة.