
Как понять, что у вас сканированный Пдф
Три быстрые проверки:- Выделение текста. Попробуйте выделить одно слово. Если вся страница превращается в один прямоугольник — это изображение.
- Размер файла. Текстовый PDF на 10 страниц обычно весит 100-500 КБ. Сканированный — часто 5-30 МБ, потому что каждая страница — это картинка высокого разрешения.
- Визуальные артефакты. На сканах видны крапинки, лёгкий перекос, выцветшие края, фактура бумаги. У born-digital PDF буквы чёткие, со сглаживанием, и фоновых шумов нет.
- Форма курсора. Наведите курсор на текст. В цифровом PDF над текстом курсор превращается в I-beam, над картинками — в стрелку. В сканированном везде остаётся стрелка, потому что всё — картинки.
Что на самом деле делает OCR
OCR — это распознавание паттернов в формах букв. Движок смотрит на кластеры пикселей, сравнивает их с моделью, обученной на миллионах изображений глифов, и выдаёт наиболее вероятный символ вместе с оценкой уверенности. Современные движки используют ещё и контекст: если он на 80% уверен, что следующее слово — «договор», а третья буква неоднозначна между «о» и «а», он выберет «о», потому что «договор» — реальное слово. Точность сильнее всего зависит от двух настроек:- Язык исходника. Английская модель на русском документе путает кириллицу и часто встречающиеся слова. Всегда указывайте язык явно, если инструмент это позволяет.
- DPI исходника. 300 DPI — практический минимум для чистого OCR. 200 DPI работают для крупного шрифта, но плывут на мелких сносках. Ниже 150 — точность валится стремительно.
Пошагово: сканированный PDF в Word

- Откройте инструмент конвертации PDF в Word и загрузите свой скан. Инструмент сам определяет, нужен ли OCR — по тому, что выделение текста ничего не возвращает.
- Выберите язык исходника, чтобы распознаватель использовал правильный словарь. Английский, испанский, немецкий, французский, итальянский, португальский, русский и польский заметно лучше работают, когда язык указан явно.
- Запустите конвертацию. Скан на 10 страниц обрабатывается примерно за 30-90 секунд в зависимости от сложности. Архив на 100 страниц — несколько минут.
- Скачайте .docx и откройте в Word. Прежде чем доверять остальному, выборочно сверьте первую страницу с оригинальным PDF.
Всегда сохраняйте оригинальный сканированный PDF. Если OCR испортит страницу, вы хотите иметь возможность сравнить её с источником, а не угадывать, что было написано в нечитаемом слове.Стоит проверить ещё одну вещь, прежде чем доверять выводу: откройте .docx в Word и включите отображение знаков форматирования (Ctrl+Shift+8 в Windows, Cmd+8 на macOS). Если в конце каждой строки висит знак абзаца — потому что OCR посчитал каждую визуальную строку отдельным абзацем — стоит поправить это find-and-replace до того, как начнёте редактировать. Лекарство простое: замените одиночные знаки абзаца на пробел, потом двойные — обратно на одиночные. (По-моему, этот один Word-приём экономит больше времени, чем любая настройка OCR.)
Реалистичные ожидания по точности
Маркетинговые «99% точности» подразумевают чистый печатный текст на белой бумаге при 300 DPI. Реальные документы разнятся сильно. Вот что ждать на самом деле:| Тип документа | Типичная точность OCR | Сколько править |
|---|---|---|
| Чистый печатный текст, современный документ | 95-99% | Минимум, в основном пунктуация |
| Факс или ксерокопия | 80-90% | Постраничная вычитка |
| Старая машинопись / печать до 2000-х | 75-90% | Тяжёлая вычитка, особенно «1» против «l» |
| Рукопись | 30-70%, очень разнится | Часто быстрее перенабрать |
| Таблицы с числами | Чаще всего ломается вёрстка | Ручное переформатирование |
| Многоколоночная вёрстка газеты или журнала | Текст норм, вёрстка нет | Вручную свести в одну колонку |
| Фото листа на телефон (хороший свет) | 85-95% | Сначала кадрировать и выровнять |
Подготовка перед OCR, которая повышает точность
Пять минут подготовки сокращают время доводки вдвое:- Поверните боковые страницы. OCR-движки рассчитывают на горизонтальный текст. Страница, повёрнутая на 90 градусов, возвращает кашу или пустоту. Сначала поверните боковые страницы.
- Обрежьте лишние поля. Широкие белые края сбивают анализатор вёрстки — он начинает считать одну колонку двумя. Обрежьте поля до того места, где начинается реальный текст.
- Поднимите контраст. Выцветшие сканы выигрывают от подъёма контраста в драйвере сканера или любом графическом редакторе перед сохранением в PDF. Чёрный текст на белом фоне — золотой стандарт.
- Выровняйте перекос. Страницы с наклоном даже в 2-3 градуса теряют точность. У большинства программ сканирования есть авто-deskew — стоит включить.
- Снимайте в оттенках серого или ч/б, если получается. Цветные оттенки (типичный желтоватый офисный ксерокс) сдвигают контраст так, что распознаватель спотыкается.
- Уберите скрепки и расправьте складки до сканирования. Звучит банально, но согнутые страницы дают тёмные полосы, которые OCR принимает за подчёркивания или линии таблиц.
Чек-лист доводки после OCR
Когда .docx готов, прогоните пару проходов find-and-replace до того, как сесть за реальное редактирование. Вот самые частые ошибки OCR в русских и английских документах:rnчасто становитсяmи наоборот. Поищите «rn» и слова, похожие на «modern». В русском похожая беда — «н» путается с «и» и «п».l(строчная L) путается с1(единицей). Особенно в номерах счетов и датах.0(ноль) путается сO(большой буквой O) внутри кодов и идентификаторов.- Типографские кавычки превращаются в прямые и наоборот, ломая цитирование.
- Длинное тире становится двумя дефисами или «дефис-пробел-дефис».
- Колонтитулы с каждой страницы могут оказаться обычным текстом в потоке. Удалите их один раз и сделайте нормальный Word-колонтитул.
- Маркированные списки превращаются в обычные абзацы, начинающиеся с буквального «•» или приблудной «o».
- Слова, перенесённые по слогам в конце строки (мер-/чант на двух строках), иногда выживают в Word с настоящими дефисами. Поищите «- » (дефис с пробелом) и зачистите.
Когда OCR не стоит того
Иногда правильный ответ — перенабрать руками, а не «прогнать OCR и почистить». Точка безубыточности зависит от объёма и качества источника:- Меньше одной страницы чистой печати: часто перенабрать быстрее, чем загрузить, дождаться OCR, скачать, открыть Word и вычитать.
- 1-10 страниц чистой печати: OCR выигрывает, даже с доводкой.
- 10+ страниц плохого факса: OCR выигрывает по времени, но доводка — это не «пять минут». Закладывайте полноценную задачу.
- Любая рукопись: перенабирать, если только документ не на сотни страниц и альтернатива — «вообще не иметь в цифре».
- Числовые данные: перенабрать числа быстрее, чем сверять каждую цифру OCR-выхода, а сверка обязательна, если точность важна.
FAQ
Почему Ворд-документ после конвертации пустой?
Почти всегда — потому что вы прогнали сканированный PDF через конвертер без OCR. Конвертер не нашёл слой текста и выдал Word-документ со встроенными картинками страниц, но без редактируемого текста. Прогоните файл через путь конвертации с OCR.
OCR справляется с рукописными заметками?
Иногда — плохо. Распознавание рукописи улучшилось с приходом нейронных моделей, но точность на реальных рукописях колеблется от 30% до 70%. Для важных документов перенабрать обычно быстрее, чем править OCR. Печатные буквы (как в форме, заполненной заглавными) распознаются заметно лучше, чем курсив.
Какие языки поддерживает OCR?
Большинство движков, включая тот, что использует Convertica, покрывают все основные европейские языки: английский, испанский, французский, немецкий, итальянский, португальский, русский, польский и многие другие. Для текстов с диакритикой или некириллических/нелатинских скриптов задавайте язык явно. Смешанные документы (английский с цитатами на французском) лучше всего работают, когда указан доминирующий язык.
Почему таблицы получаются перепутанным текстом?
OCR читает слева направо, сверху вниз, а границы ячеек ломают этот поток. Числа из строки 1 колонки 3 могут оказаться рядом со строкой 2 колонки 1. Для табличных данных конвертация сразу в Excel и сборка таблицы там обычно быстрее, чем починка её в Word.
OCR-конвертация конфиденциальна?
Уважающие себя браузерные инструменты обрабатывают файл во временной сессии и быстро его удаляют. Перед загрузкой чувствительных документов читайте политику приватности конкретного инструмента. Для очень конфиденциального контента рассмотрите локальный OCR (Tesseract, ABBYY) вместо веб-сервиса.
Сколько идёт OCR на 50-страничный скан?
Примерно 2-5 минут на хорошем сервисе, в зависимости от разрешения и нагрузки серверов. Сканы на 600 DPI идут заметно дольше 300 DPI, не давая лучшего результата.
Попробуйте сейчас
Перестаньте перенабирать. Загрузите скан в конвертер PDF в Word, выберите язык исходника — и через минуту вы уже редактируете в Word. Только заложите время на быструю вычитку перед отправкой.