
Jak rozpoznać, czy twój PDF to skan
Trzy szybkie testy:- Zaznaczanie tekstu. Spróbuj zaznaczyć pojedyncze słowo. Jeśli cała strona staje się jednym zaznaczalnym prostokątem, strona jest obrazem.
- Rozmiar pliku. 10-stronicowy tekstowy PDF waży zwykle 100-500 KB. 10-stronicowy zeskanowany PDF często waży 5-30 MB, bo każda strona to obraz w wysokiej rozdzielczości.
- Artefakty wizualne. Skany pokazują plamki, lekkie obroty, wyblakłe krawędzie i widoczną fakturę papieru. Born-digital PDF-y mają ostre litery z antyaliasowanymi krawędziami i bez tła z szumem.
- Kształt kursora. Najedź na tekst. Cyfrowy PDF zmienia kursor na pionową kreskę (I-beam) nad tekstem i strzałkę nad obrazami. Zeskanowany PDF wszędzie zostawia strzałkę — bo wszystko jest obrazem.
Co właściwie robi OCR
OCR to rozpoznawanie wzorców liter. Silnik patrzy na skupiska pikseli, porównuje je z modelem wytrenowanym na milionach obrazów glifów i wystawia najbardziej prawdopodobny znak razem z poziomem pewności. Nowoczesne silniki używają też kontekstu: jeśli z 80% pewnością kolejne słowo to „umowa", a trzecia litera waha się między „o" a „a", wybierze „o", bo „umowa" to istniejące słowo. Dwa ustawienia decydują o dokładności mocniej niż cokolwiek innego:- Język źródła. Model wytrenowany na angielskim, puszczony na francuskim dokumencie, pomyli akcentowane znaki i poplącze zwykłe słowa. Zawsze ustawiaj język wprost, jeśli narzędzie to umożliwia.
- DPI źródła. 300 DPI to praktyczna podłoga dla czystego OCR. Skany 200 DPI poradzą sobie z dużym drukiem, ale poległą na małych przypisach. Poniżej 150 dokładność leci na łeb na szyję.
Krok po kroku: zeskanowany PDF do Worda

- Otwórz narzędzie konwersji PDF do Word i wgraj swój skan. Narzędzie samo wykrywa, że potrzeba OCR, kiedy zaznaczanie tekstu nic nie zwraca.
- Wybierz język źródłowy, żeby silnik użył właściwego słownika. Polski, angielski, hiszpański, niemiecki, francuski, włoski, portugalski i rosyjski wyraźnie zachowują się lepiej, kiedy ustawisz je wprost.
- Uruchom konwersję. 10-stronicowy skan zajmuje mniej więcej 30-90 sekund w zależności od złożoności obrazu. 100-stronicowe archiwum może zająć kilka minut.
- Pobierz .docx i otwórz go w Wordzie. Sprawdź pierwszą stronę względem oryginalnego PDF-a, zanim zaufasz reszcie.
Zawsze zachowuj oryginalny zeskanowany PDF. Jeśli OCR poturbuje stronę, lepiej mieć z czym ją porównać, niż zgadywać, co miało być w nieczytelnym słowie.Warto sprawdzić jedną rzecz, zanim zaufasz wynikowi: otwórz .docx w Wordzie i włącz znaczniki formatowania (Ctrl+Shift+8 w Windowsie, Cmd+8 w macOS). Jeśli widzisz mnóstwo znaczników akapitu na końcu każdej linii — bo OCR uznał, że każda wizualna linia to akapit — popraw to find-and-replace przed właściwą edycją. Naprawa jest prosta: zamień pojedyncze znaczniki akapitu na spację, a potem podwójne z powrotem na pojedyncze. (Twierdzę, że ta jedna sztuczka w Wordzie oszczędza więcej czasu niż dowolne ustawienie OCR.)
Realistyczne oczekiwania co do dokładności
Marketingowe „99% dokładności" zakłada czysty wydruk na białym papierze w 300 DPI. Dokumenty z prawdziwego życia są bardzo różne. Oto czego naprawdę się spodziewać:| Typ dokumentu | Typowa dokładność OCR | Potrzebne poprawki |
|---|---|---|
| Czysty drukowany tekst, nowoczesny dokument | 95-99% | Minimalne, głównie interpunkcja |
| Dokument z faksu lub kserokopia | 80-90% | Korekta strona po stronie |
| Stary maszynopis / druk sprzed 2000 r. | 75-90% | Gruntowna korekta, zwłaszcza „1" vs „l" |
| Pismo odręczne | 30-70%, bardzo zmienne | Często szybciej przepisać |
| Tabele z liczbami | Układ przeważnie poległ | Ręczne odtworzenie formatu |
| Wielokolumnowy układ gazety albo magazynu | Tekst dobrze, układ źle | Ręczne ułożenie w jednej kolumnie |
| Zdjęcie strony z telefonu (dobre światło) | 85-95% | Najpierw przytnij i wyrównaj dla najlepszych efektów |
Przygotowanie przed OCR, które podnosi dokładność
Pięć minut przygotowania skraca poprawki po OCR o połowę:- Obróć strony położone na boku. Silniki OCR zakładają tekst poziomy. Strona przekręcona o 90 stopni zwraca bełkot albo nic. Skorzystaj z narzędzia, żeby obrócić strony położone na boku przed OCR.
- Przytnij nadmiarowe marginesy. Szerokie białe brzegi mylą analizator układu, który widzi w jednej kolumnie dwie. Przytnij marginesy do miejsca, gdzie naprawdę zaczyna się tekst.
- Zwiększ kontrast. Wyblakłym skanom pomaga podbicie kontrastu w sterowniku skanera albo dowolnym edytorze obrazu przed ponownym zapisem do PDF. Czarny tekst na białym tle to złoty standard.
- Wyrównaj przekrzywienie (deskew). Strony przekrzywione nawet o 2-3 stopnie psują dokładność. Większość oprogramowania skanera ma opcję auto-deskew i warto ją włączyć.
- Zejdź z koloru na skalę szarości lub czarno-biały przy skanowaniu, jeśli możesz. Kolorowe odcienie (typowy żółtawy efekt biurowej kserokopiarki) przesuwają kontrast w sposób, który dezorientuje silnik.
- Usuń zszywki i zagniecenia przed skanowaniem. Brzmi oczywisto, ale złożone strony produkują zacienione linie, które OCR rozpoznaje jako podkreślenia albo krawędzie tabel.
Lista kontrolna porządków po OCR
Gdy .docx wyląduje, zrób kilka przejść find-and-replace, zanim na serio zaczniesz edytować. To najczęstsze błędy OCR w polskich dokumentach:rnczęsto staje sięmi odwrotnie. Szukaj „rn" oraz słów wyglądających jak „modern".l(małe L) mylone z1(jedynka). Szczególnie częste w numerach faktur i datach.0(zero) mylone zO(wielkie o) wewnątrz kodów i identyfikatorów.- Polskie znaki diakrytyczne tracone albo mylone:
łzamieniane nat,ąnaa,ęnae. Zwłaszcza na słabszych skanach. - Cudzysłowy „smart" zamieniane na proste i odwrotnie, łamiąc cytaty.
- Pauzy konwertowane na dwa łączniki albo łącznik-spacja-łącznik.
- Nagłówki i stopki z każdej strony potrafią wlecieć inline jako tekst. Skasuj je raz i ustaw prawdziwy nagłówek Worda.
- Listy punktowane renderowane jako zwykłe akapity z dosłownym „•" albo zabłąkanym „o" na początku.
- Słowa łamane na końcu wiersza („handlu-/jąca" w sąsiednich wersach) przeżywają w Wordzie jako prawdziwe łączniki. Wyszukaj „- " (łącznik-spacja) i posprzątaj.
Kiedy OCR się nie opłaca
Czasem właściwą odpowiedzią jest przepisanie zamiast OCR-i-poprawiania. Punkt opłacalności zależy od długości dokumentu i jakości źródła:- Mniej niż jedna strona czystego druku: Przepisanie jest często szybsze niż OCR, pobieranie, otwieranie Worda i korekta.
- Od jednej do dziesięciu stron czystego druku: OCR wygrywa, nawet z poprawkami.
- Dziesięć i więcej stron słabej jakości faksu: OCR wygrywa czasowo, ale przejście korekty jest mozolne. Zaplanuj to jako prawdziwe zadanie, nie pięciominutową robotę.
- Cokolwiek odręcznego: Przepisz, chyba że dokument ma setki stron, a alternatywą jest „w ogóle nie mieć go cyfrowo".
- Dane liczbowe: Przepisanie liczb jest szybsze niż weryfikacja każdej cyfry z OCR, a krok weryfikacji jest obowiązkowy, kiedy dokładność ma znaczenie.
FAQ
Dlaczego mój dokument Worda po konwersji jest pusty?
Niemal zawsze dlatego, że puściłeś konwerter bez OCR na zeskanowany PDF. Konwerter nie znalazł warstwy tekstowej, więc wyprodukował dokument Worda z osadzonymi obrazami stron, ale bez edytowalnego tekstu. Przepuść plik przez ścieżkę z OCR.
Czy OCR poradzi sobie z odręcznymi notatkami?
Czasem, słabo. OCR pisma odręcznego poprawił się dzięki modelom neuronowym, ale wciąż waha się od 30 do 70% dokładności na pismach z prawdziwego świata. Przy czymkolwiek istotnym przepisanie jest zwykle szybsze niż poprawianie wyniku OCR. Pismo „drukowane" (np. formularz wypełniony wielkimi literami) wychodzi znacznie lepiej niż pochyłe.
Jakie języki obsługuje OCR?
Większość silników, w tym ten używany przez Convertica, pokrywa wszystkie najważniejsze języki europejskie, łącznie z polskim, angielskim, hiszpańskim, francuskim, niemieckim, włoskim, portugalskim, rosyjskim i wieloma innymi. Dla znaków diakrytycznych albo pisma niełacińskiego ustaw język wprost. Dokumenty mieszane (polski z cytatem po angielsku) działają najlepiej, gdy ustawisz je na język dominujący.
Dlaczego tabele wychodzą jako pomieszany tekst?
OCR czyta od lewej do prawej, z góry na dół, a granice komórek tabel mącą ten ciąg. Liczby z wiersza 1 kolumny 3 mogą wylądować obok wiersza 2 kolumny 1. Dla danych tabelarycznych konwersja prosto do Excela i odbudowa tabeli tam są zwykle szybsze niż naprawa w Wordzie.
Czy konwersja OCR jest poufna?
Renomowane narzędzia przeglądarkowe przetwarzają plik w tymczasowej sesji i kasują go wkrótce po. Przeczytaj politykę prywatności narzędzia przed wgraniem wrażliwych dokumentów. Dla mocno poufnych materiałów rozważ OCR lokalny (Tesseract, ABBYY) zamiast jakiegokolwiek serwisu webowego.
Ile trwa OCR 50-stronicowego skanu?
Mniej więcej dwie do pięciu minut na dobrym serwisie, w zależności od rozdzielczości obrazu i obciążenia serwera. Skany w 600 DPI trwają zauważalnie dłużej niż w 300 DPI bez lepszego wyniku.
Wypróbuj teraz
Przestań przepisywać. Wgraj swój skan do konwertera PDF do Word, ustaw język źródłowy, a minutę później będziesz już edytować w Wordzie. Tylko zaplanuj sobie szybkie przejście korekty, zanim wyślesz wynik dalej.