
कैसे बताएँ कि आपका PDF scanned है
तीन quick checks:- Text selection. एक single word select करने की कोशिश करें। अगर पूरा page एक selectable rectangle बन जाता है, page एक image है।
- File size. 10-page text PDF usually 100 to 500 KB होता है। 10-page scanned PDF अक्सर 5 to 30 MB होता है क्योंकि हर page high-resolution image है।
- Visual artifacts. Scans speckle, slight rotation, faded edges, और visible paper texture दिखाते हैं। Born-digital PDFs में anti-aliased edges और कोई background noise नहीं होता।
- Cursor shape. Text पर hover करें। Digital PDF आपके cursor को text पर I-beam में और images पर arrow में flip करता है। Scanned PDF हर जगह arrow रहता है - क्योंकि सब कुछ image है।
OCR असल में क्या करता है
OCR letterforms के लिए pattern recognition है। Engine pixels के clusters देखता है, उन्हें millions of glyph images पर trained model से compare करता है, और best-guess character के साथ confidence score emit करता है। Modern engines surrounding context भी use करते हैं: अगर यह 80% sure है कि अगला word "agreement" है और तीसरा letter "r" और "n" के बीच ambiguous है, तो "r" pick करता है क्योंकि "agreement" real word है। Accuracy को सबसे ज़्यादा drive करने वाली दो settings:- Source language. French document पर English-trained model accented characters misread करता है और common words confuse करता है। Tool offer करे तो language हमेशा explicitly set करें।
- Source DPI. 300 DPI clean OCR के लिए practical floor है। 200 DPI scans big print के लिए काम कर सकते हैं लेकिन small footnotes के साथ struggle करते हैं। 150 के नीचे, accuracy fast collapse होती है।
Step-by-step: scanned PDF to Word

- PDF को Word में convert tool खोलें और अपना scan upload करें। Tool automatically detect करता है कि OCR ज़रूरी है जब text selection empty return करती है।
- Source language select करें ताकि recognizer सही dictionary use करे। English, Spanish, German, French, Italian, Portuguese, Russian, और Polish सभी noticeably better behave करते हैं जब explicitly set हों।
- Conversion run करें। 10-page scan image complexity के depending पर लगभग 30 to 90 seconds लेता है। 100-page archive कई minutes चल सकता है।
- .docx download करें और इसे Word में open करें। बाकी पर भरोसा करने से पहले first page को original PDF के against spot-check करें।
हमेशा original scanned PDF रखें। अगर OCR कोई page mangle करता है, आप source से compare कर सकें इसके लिए, unreadable word क्या होना चाहिए था इसका guess न करें।Output पर भरोसा करने से पहले एक बार check करने योग्य: .docx को Word में open करें और formatting marks देखें (Windows पर Ctrl+Shift+8, macOS पर Cmd+8 से toggle करें)। अगर आप हर line के end पर lots of paragraph marks देखते हैं - क्योंकि OCR ने सोचा कि हर visual line एक paragraph है - editing से पहले find-and-replace से इसे fix करें। Fix simple है: single paragraph marks को space से replace करें, फिर double paragraph marks को वापस single में। (मेरा कहना है यह single Word trick किसी भी OCR setting से ज़्यादा time बचाती है।)
Realistic accuracy expectations
"99% accuracy" के marketing claims clean printed text on white paper at 300 DPI assume करते हैं। Real-world documents wildly vary करते हैं। यहाँ क्या actually expect करें:| Document type | Typical OCR accuracy | Cleanup needed |
|---|---|---|
| Clean printed text, modern document | 95-99% | Minimal, ज़्यादातर punctuation |
| Faxed या photocopied document | 80-90% | Page-by-page proofreading |
| पुराने typewritten / pre-2000 print | 75-90% | Heavy proofreading, especially "1" vs "l" के लिए |
| Handwriting | 30-70%, highly variable | अक्सर retype करना faster |
| Numbers की Tables | Layout ज़्यादातर समय fail होता है | Manual reformatting |
| Multi-column newspaper या magazine layout | Text right, layout wrong | Manually single column में reflow |
| Page की Camera photo (good lighting) | 85-95% | Best results के लिए पहले Crop और deskew |
Pre-OCR cleanup जो accuracy boost करता है
पाँच minutes की prep post-OCR cleanup time को आधा कर देती है:- Sideways pages rotate करें. OCR engines horizontal text assume करते हैं। 90-degree-off page gibberish या nothing return करता है। OCR से पहले sideways pages पहले rotate करने के लिए tool use करें।
- Excess margins crop करें. Wide white borders layout analyzer को confuse करते हैं कि आपका single column दो हैं। Text actually जहाँ शुरू होता है वहाँ तक margins crop करें।
- Contrast बढ़ाएँ. Faded scans को PDF के रूप में re-saving से पहले scanner software या किसी image editor में contrast boost से benefit होता है। Pure white background पर pure black text gold standard है।
- Deskew. 2 to 3 degrees से tilt pages भी accuracy hurt करते हैं। ज़्यादातर scanner software में auto-deskew option है, और यह run करने योग्य है।
- Scanning से पहले colour को grayscale या black-and-white पर drop करें अगर कर सकें। Colour tints (typical yellow-tinged office photocopier output) contrast को ऐसे shift करते हैं जो recogniser को throw off करता है।
- Scanning से पहले staples और crinkles remove करें. Obvious लगता है, लेकिन folded pages shadowed lines produce करते हैं जिन्हें OCR underscores या table borders के रूप में misread करता है।
Post-OCR cleanup checklist
जब .docx आ जाए, गंभीरता से editing शुरू करने से पहले कुछ find-and-replace passes run करें। ये English documents में सबसे common OCR errors हैं:rnअक्सरmबन जाता है, या vice versa। "rn" और "modern" lookalikes के लिए search करें।l(lowercase L)1(one) के साथ confused। Especially invoice numbers और dates में common।0(zero)O(capital o) के साथ codes और IDs के अंदर confused।- Smart quotes straight quotes में या vice versa flipped, quotations breaking।
- Em dashes दो hyphens या hyphen-space-hyphen में converted।
- हर page से Headers और footers inline text के रूप में end हो सकते हैं। उन्हें एक बार delete करें और real Word header lock down करें।
- Bulleted lists plain paragraphs के रूप में rendered जो literal "•" या stray "o" character से prefixed हैं।
- Hyphenated line-end words (consecutive lines पर mer-/chant) कभी-कभी actual hyphens के रूप में Word doc में survive करते हैं। "- " (hyphen-space) के लिए search करें और clean up करें।
कब OCR worth नहीं है
कभी-कभी सही answer OCR-and-clean के बजाय retype करना है। Break-even point document length और source quality पर depend करता है:- Clean print के एक page से कम: Retyping अक्सर OCR run करने, download करने, Word open करने, और proofing से faster है।
- Clean print के एक से दस pages: OCR जीतता है, cleanup के साथ भी।
- Bad fax quality के दस या ज़्यादा pages: OCR time पर जीतता है, लेकिन cleanup pass tedious हो सकता है। इसे real task की तरह plan करें, quick five-minute job नहीं।
- कुछ भी handwritten: Retype करें जब तक document hundreds of pages का न हो और alternative "इसे digitally बिल्कुल नहीं रखना" हो।
- Numerical data: Numbers retype करना OCR output के हर digit verify करने से faster है, और verification step mandatory है अगर accuracy matter करती है।
FAQ
Conversion के बाद मेरा Word doc blank क्यों आता है?
लगभग हमेशा, आपने scanned PDF पर non-OCR converter run किया। Converter को कोई text layer नहीं मिला, इसलिए उसने page images embedded लेकिन कोई editable text के बिना Word doc produce किया। File को OCR-enabled conversion path से re-run करें।
क्या OCR handwritten notes handle कर सकता है?
कभी-कभी, badly. Handwriting OCR neural models के साथ improve हुआ है लेकिन अब भी real-world handwriting पर 30% to 70% accuracy range करता है। Important कुछ भी के लिए, retyping आम तौर पर OCR output correct करने से faster है। Block-printed handwriting (capitals में filled form की तरह) cursive से बहुत better करता है।
OCR कौन सी languages support करता है?
ज़्यादातर engines, including Convertica जो use करता है, सभी major European languages cover करते हैं including English, Spanish, French, German, Italian, Portuguese, Russian, Polish, और कई और। Accented या non-Latin scripts के लिए source language explicitly set करें। Mixed-language documents (English with quoted French passages) dominant language पर set होने पर best काम करते हैं।
Tables scrambled text के रूप में क्यों आ रही हैं?
OCR left-to-right, top-to-bottom पढ़ता है, और table cell boundaries उस flow को confuse करते हैं। Row 1 column 3 के numbers row 2 column 1 के बगल में end हो सकते हैं। Tabular data के लिए, सीधे Excel में convert करना और table को वहाँ rebuild करना आम तौर पर Word में fix करने से faster है।
क्या OCR conversion confidential है?
Reputable browser-based tools file को temporary session में process करते हैं और इसे shortly after delete करते हैं। Sensitive documents upload करने से पहले किसी भी tool की privacy policy पढ़ें। Highly confidential material के लिए, web service के बजाय local OCR (Tesseract, ABBYY) consider करें।
50-page scan के लिए OCR कितना time लेता है?
Image resolution और server load पर depending पर good service पर लगभग दो से पाँच minutes। 600 DPI पर scans 300 DPI से noticeably लंबा time लेते हैं बिना better results produce किए।
अभी try करें
Retyping बंद करें। अपना scan PDF to Word converter पर upload करें, source language set करें, और एक minute बाद आप Word में editing कर रहे होंगे। बस result ship करने से पहले quick proofreading pass plan करें।