Przejdź do głównej treści
Poradniki

Jak skonwertować zeskanowany PDF na edytowalny dokument Word (z poradami OCR)

Kwiecień 28, 2026
Jak skonwertować zeskanowany PDF na edytowalny dokument Word (z poradami OCR)
Spróbuj na PDF-ie, który masz przed sobą: kliknij i przeciągnij kursorem przez akapit, jakbyś chciał skopiować tekst. Jeśli kursor podświetla pojedyncze słowa, PDF jest cyfrowy i standardowy konwerter zadziała. Jeśli zaznacza wielki prostokąt wokół całej strony, masz skan, czyli każda strona jest w zasadzie zdjęciem kartki, a normalne narzędzie PDF-do-Word zwróci ci dokument Worda pełen obrazków, a nie tekstu. W tym miejscu wchodzi OCR. Optyczne rozpoznawanie znaków odczytuje piksele i odtwarza je jako prawdziwe litery, słowa i akapity. Dobrze zrobione daje edytowalny .docx. Źle zrobione zostawia bełkot i godzinę poprawiania przecinków, spacji i pomyłek typu rn-zamiast-m. Różnica tkwi głównie w pliku źródłowym i kilku rzeczach, na które masz wpływ.
Konwerter Convertica PDF do Word przyjmujący zeskanowany dokument do OCR

Jak rozpoznać, czy twój PDF to skan

Trzy szybkie testy:
  • Zaznaczanie tekstu. Spróbuj zaznaczyć pojedyncze słowo. Jeśli cała strona staje się jednym zaznaczalnym prostokątem, strona jest obrazem.
  • Rozmiar pliku. 10-stronicowy tekstowy PDF waży zwykle 100-500 KB. 10-stronicowy zeskanowany PDF często waży 5-30 MB, bo każda strona to obraz w wysokiej rozdzielczości.
  • Artefakty wizualne. Skany pokazują plamki, lekkie obroty, wyblakłe krawędzie i widoczną fakturę papieru. Born-digital PDF-y mają ostre litery z antyaliasowanymi krawędziami i bez tła z szumem.
  • Kształt kursora. Najedź na tekst. Cyfrowy PDF zmienia kursor na pionową kreskę (I-beam) nad tekstem i strzałkę nad obrazami. Zeskanowany PDF wszędzie zostawia strzałkę — bo wszystko jest obrazem.
Istnieją też PDF-y hybrydowe, kiedy ktoś zeskanował kontrakt, a potem dokleił born-digital stronę z podpisem. OCR pomija stronę cyfrową (nie ma potrzeby) i przetwarza tylko skany. Zanim założysz, że cały duży plik jest jednego typu, zrób test z zaznaczaniem na kilku różnych stronach.

Co właściwie robi OCR

OCR to rozpoznawanie wzorców liter. Silnik patrzy na skupiska pikseli, porównuje je z modelem wytrenowanym na milionach obrazów glifów i wystawia najbardziej prawdopodobny znak razem z poziomem pewności. Nowoczesne silniki używają też kontekstu: jeśli z 80% pewnością kolejne słowo to „umowa", a trzecia litera waha się między „o" a „a", wybierze „o", bo „umowa" to istniejące słowo. Dwa ustawienia decydują o dokładności mocniej niż cokolwiek innego:
  • Język źródła. Model wytrenowany na angielskim, puszczony na francuskim dokumencie, pomyli akcentowane znaki i poplącze zwykłe słowa. Zawsze ustawiaj język wprost, jeśli narzędzie to umożliwia.
  • DPI źródła. 300 DPI to praktyczna podłoga dla czystego OCR. Skany 200 DPI poradzą sobie z dużym drukiem, ale poległą na małych przypisach. Poniżej 150 dokładność leci na łeb na szyję.
Trzeci czynnik, o którym ludzie rzadko myślą: kontrast. OCR pracuje na różnicy między atramentem a tłem. Wyblakła kserokopia kserokopii może mieć nominalne 300 DPI i wciąż produkować papkę, bo kontrast jest za niski, by silnik znalazł krawędzie liter. Nowoczesne silniki radzą sobie z tym lepiej niż starsze, ale stare buildy Tesseracta (cokolwiek przed wersją 4.0 z 2018 roku) wciąż się duszą na słabym kontraście.

Krok po kroku: zeskanowany PDF do Worda

Konwersja PDF-do-Word z OCR zamieniająca skan w edytowalny .docx
  1. Otwórz narzędzie konwersji PDF do Word i wgraj swój skan. Narzędzie samo wykrywa, że potrzeba OCR, kiedy zaznaczanie tekstu nic nie zwraca.
  2. Wybierz język źródłowy, żeby silnik użył właściwego słownika. Polski, angielski, hiszpański, niemiecki, francuski, włoski, portugalski i rosyjski wyraźnie zachowują się lepiej, kiedy ustawisz je wprost.
  3. Uruchom konwersję. 10-stronicowy skan zajmuje mniej więcej 30-90 sekund w zależności od złożoności obrazu. 100-stronicowe archiwum może zająć kilka minut.
  4. Pobierz .docx i otwórz go w Wordzie. Sprawdź pierwszą stronę względem oryginalnego PDF-a, zanim zaufasz reszcie.
Zawsze zachowuj oryginalny zeskanowany PDF. Jeśli OCR poturbuje stronę, lepiej mieć z czym ją porównać, niż zgadywać, co miało być w nieczytelnym słowie.
Warto sprawdzić jedną rzecz, zanim zaufasz wynikowi: otwórz .docx w Wordzie i włącz znaczniki formatowania (Ctrl+Shift+8 w Windowsie, Cmd+8 w macOS). Jeśli widzisz mnóstwo znaczników akapitu na końcu każdej linii — bo OCR uznał, że każda wizualna linia to akapit — popraw to find-and-replace przed właściwą edycją. Naprawa jest prosta: zamień pojedyncze znaczniki akapitu na spację, a potem podwójne z powrotem na pojedyncze. (Twierdzę, że ta jedna sztuczka w Wordzie oszczędza więcej czasu niż dowolne ustawienie OCR.)

Realistyczne oczekiwania co do dokładności

Marketingowe „99% dokładności" zakłada czysty wydruk na białym papierze w 300 DPI. Dokumenty z prawdziwego życia są bardzo różne. Oto czego naprawdę się spodziewać:
Typ dokumentu Typowa dokładność OCR Potrzebne poprawki
Czysty drukowany tekst, nowoczesny dokument 95-99% Minimalne, głównie interpunkcja
Dokument z faksu lub kserokopia 80-90% Korekta strona po stronie
Stary maszynopis / druk sprzed 2000 r. 75-90% Gruntowna korekta, zwłaszcza „1" vs „l"
Pismo odręczne 30-70%, bardzo zmienne Często szybciej przepisać
Tabele z liczbami Układ przeważnie poległ Ręczne odtworzenie formatu
Wielokolumnowy układ gazety albo magazynu Tekst dobrze, układ źle Ręczne ułożenie w jednej kolumnie
Zdjęcie strony z telefonu (dobre światło) 85-95% Najpierw przytnij i wyrównaj dla najlepszych efektów
Każdy, kto obiecuje 99% na dokumencie z faksu, albo go nie testował, albo coś sprzedaje. Ustaw oczekiwania na „będę musiał skorygować", nie na „mogę wysłać surowiec dalej". Konkretna pułapka: numery faktur i kody referencyjne to miejsca, gdzie błędy OCR bolą najmocniej. Przeoczona cyfra w akapicie tekstu jest do wybaczenia; przeoczona cyfra w „Faktura 1023841" potrafi wpłacić pieniądze na zły rachunek. Zawsze konfrontuj numeryczne identyfikatory w wyniku OCR z oryginałem.

Przygotowanie przed OCR, które podnosi dokładność

Pięć minut przygotowania skraca poprawki po OCR o połowę:
  • Obróć strony położone na boku. Silniki OCR zakładają tekst poziomy. Strona przekręcona o 90 stopni zwraca bełkot albo nic. Skorzystaj z narzędzia, żeby obrócić strony położone na boku przed OCR.
  • Przytnij nadmiarowe marginesy. Szerokie białe brzegi mylą analizator układu, który widzi w jednej kolumnie dwie. Przytnij marginesy do miejsca, gdzie naprawdę zaczyna się tekst.
  • Zwiększ kontrast. Wyblakłym skanom pomaga podbicie kontrastu w sterowniku skanera albo dowolnym edytorze obrazu przed ponownym zapisem do PDF. Czarny tekst na białym tle to złoty standard.
  • Wyrównaj przekrzywienie (deskew). Strony przekrzywione nawet o 2-3 stopnie psują dokładność. Większość oprogramowania skanera ma opcję auto-deskew i warto ją włączyć.
  • Zejdź z koloru na skalę szarości lub czarno-biały przy skanowaniu, jeśli możesz. Kolorowe odcienie (typowy żółtawy efekt biurowej kserokopiarki) przesuwają kontrast w sposób, który dezorientuje silnik.
  • Usuń zszywki i zagniecenia przed skanowaniem. Brzmi oczywisto, ale złożone strony produkują zacienione linie, które OCR rozpoznaje jako podkreślenia albo krawędzie tabel.

Lista kontrolna porządków po OCR

Gdy .docx wyląduje, zrób kilka przejść find-and-replace, zanim na serio zaczniesz edytować. To najczęstsze błędy OCR w polskich dokumentach:
  • rn często staje się m i odwrotnie. Szukaj „rn" oraz słów wyglądających jak „modern".
  • l (małe L) mylone z 1 (jedynka). Szczególnie częste w numerach faktur i datach.
  • 0 (zero) mylone z O (wielkie o) wewnątrz kodów i identyfikatorów.
  • Polskie znaki diakrytyczne tracone albo mylone: ł zamieniane na t, ą na a, ę na e. Zwłaszcza na słabszych skanach.
  • Cudzysłowy „smart" zamieniane na proste i odwrotnie, łamiąc cytaty.
  • Pauzy konwertowane na dwa łączniki albo łącznik-spacja-łącznik.
  • Nagłówki i stopki z każdej strony potrafią wlecieć inline jako tekst. Skasuj je raz i ustaw prawdziwy nagłówek Worda.
  • Listy punktowane renderowane jako zwykłe akapity z dosłownym „•" albo zabłąkanym „o" na początku.
  • Słowa łamane na końcu wiersza („handlu-/jąca" w sąsiednich wersach) przeżywają w Wordzie jako prawdziwe łączniki. Wyszukaj „- " (łącznik-spacja) i posprzątaj.
Tabele prawie zawsze trzeba odbudować ręcznie. Jeśli źródło zawiera dane, które i tak chcesz mieć w arkuszu, często szybciej wyciągnąć je do Excela i pominąć Worda dla części liczbowych. Osobny akapit dla podpisów i pieczątek: nie przeżywają OCR. Wchodzą jako małe osadzone obrazy, często przycięte, czasem całkiem zgubione. Jeśli wartość prawna dokumentu zależy od podpisu, twoja wersja Worda po OCR jest kopią roboczą, a nie autorytatywną. Trzymaj oryginalny PDF jako wersję kanoniczną.

Kiedy OCR się nie opłaca

Czasem właściwą odpowiedzią jest przepisanie zamiast OCR-i-poprawiania. Punkt opłacalności zależy od długości dokumentu i jakości źródła:
  • Mniej niż jedna strona czystego druku: Przepisanie jest często szybsze niż OCR, pobieranie, otwieranie Worda i korekta.
  • Od jednej do dziesięciu stron czystego druku: OCR wygrywa, nawet z poprawkami.
  • Dziesięć i więcej stron słabej jakości faksu: OCR wygrywa czasowo, ale przejście korekty jest mozolne. Zaplanuj to jako prawdziwe zadanie, nie pięciominutową robotę.
  • Cokolwiek odręcznego: Przepisz, chyba że dokument ma setki stron, a alternatywą jest „w ogóle nie mieć go cyfrowo".
  • Dane liczbowe: Przepisanie liczb jest szybsze niż weryfikacja każdej cyfry z OCR, a krok weryfikacji jest obowiązkowy, kiedy dokładność ma znaczenie.
Jeszcze jedno o poufności: zeskanowana dokumentacja medyczna albo protokół przesłuchania, które puścisz przez serwis webowy, krótko zamieszka na cudzym serwerze, nawet jeśli ten serwer szybko ją skasuje. Dla dokumentów objętych RODO, danymi szczególnej kategorii albo tajemnicą adwokacką uruchamiaj OCR lokalnie — Tesseractem albo desktopowym narzędziem w stylu ABBYY FineReader. Pięciominutowy podatek na konfigurację jest wart spokoju ducha.

FAQ

Dlaczego mój dokument Worda po konwersji jest pusty?

Niemal zawsze dlatego, że puściłeś konwerter bez OCR na zeskanowany PDF. Konwerter nie znalazł warstwy tekstowej, więc wyprodukował dokument Worda z osadzonymi obrazami stron, ale bez edytowalnego tekstu. Przepuść plik przez ścieżkę z OCR.

Czy OCR poradzi sobie z odręcznymi notatkami?

Czasem, słabo. OCR pisma odręcznego poprawił się dzięki modelom neuronowym, ale wciąż waha się od 30 do 70% dokładności na pismach z prawdziwego świata. Przy czymkolwiek istotnym przepisanie jest zwykle szybsze niż poprawianie wyniku OCR. Pismo „drukowane" (np. formularz wypełniony wielkimi literami) wychodzi znacznie lepiej niż pochyłe.

Jakie języki obsługuje OCR?

Większość silników, w tym ten używany przez Convertica, pokrywa wszystkie najważniejsze języki europejskie, łącznie z polskim, angielskim, hiszpańskim, francuskim, niemieckim, włoskim, portugalskim, rosyjskim i wieloma innymi. Dla znaków diakrytycznych albo pisma niełacińskiego ustaw język wprost. Dokumenty mieszane (polski z cytatem po angielsku) działają najlepiej, gdy ustawisz je na język dominujący.

Dlaczego tabele wychodzą jako pomieszany tekst?

OCR czyta od lewej do prawej, z góry na dół, a granice komórek tabel mącą ten ciąg. Liczby z wiersza 1 kolumny 3 mogą wylądować obok wiersza 2 kolumny 1. Dla danych tabelarycznych konwersja prosto do Excela i odbudowa tabeli tam są zwykle szybsze niż naprawa w Wordzie.

Czy konwersja OCR jest poufna?

Renomowane narzędzia przeglądarkowe przetwarzają plik w tymczasowej sesji i kasują go wkrótce po. Przeczytaj politykę prywatności narzędzia przed wgraniem wrażliwych dokumentów. Dla mocno poufnych materiałów rozważ OCR lokalny (Tesseract, ABBYY) zamiast jakiegokolwiek serwisu webowego.

Ile trwa OCR 50-stronicowego skanu?

Mniej więcej dwie do pięciu minut na dobrym serwisie, w zależności od rozdzielczości obrazu i obciążenia serwera. Skany w 600 DPI trwają zauważalnie dłużej niż w 300 DPI bez lepszego wyniku.

Wypróbuj teraz

Przestań przepisywać. Wgraj swój skan do konwertera PDF do Word, ustaw język źródłowy, a minutę później będziesz już edytować w Wordzie. Tylko zaplanuj sobie szybkie przejście korekty, zanim wyślesz wynik dalej.