
Cómo saber si tu PDF está escaneado
Tres comprobaciones rápidas:- Selección de texto. Intenta seleccionar una sola palabra. Si toda la página se convierte en un único rectángulo seleccionable, la página es una imagen.
- Tamaño del archivo. Un PDF de texto de 10 páginas suele pesar entre 100 y 500 KB. Un PDF escaneado de 10 páginas suele pesar entre 5 y 30 MB porque cada página es una imagen de alta resolución.
- Artefactos visuales. Los escaneos muestran moteado, ligera rotación, bordes desvaídos y textura del papel visible. Los PDF nativos digitales tienen letras nítidas con bordes suavizados y sin ruido de fondo.
- La forma del cursor. Pasa el cursor sobre el texto. Un PDF digital cambia el cursor a forma de I sobre el texto y a flecha sobre las imágenes. Un PDF escaneado se queda como flecha en todas partes, porque todo es una imagen.
Qué hace realmente el OCR
El OCR es reconocimiento de patrones aplicado a las formas de las letras. El motor mira agrupaciones de píxeles, las compara con un modelo entrenado con millones de imágenes de glifos y emite el carácter más probable junto con una puntuación de confianza. Los motores modernos también usan el contexto: si está un 80% seguro de que la siguiente palabra es «agreement» y la tercera letra es ambigua entre «r» y «n», elige «r» porque «agreement» es una palabra real. Dos ajustes determinan la precisión más que ningún otro:- Idioma de origen. Un modelo entrenado en inglés sobre un documento en francés interpreta mal los caracteres acentuados y confunde palabras comunes. Define siempre el idioma de forma explícita cuando la herramienta lo permita.
- DPI de origen. 300 DPI es el mínimo práctico para un OCR limpio. Los escaneos a 200 DPI pueden funcionar con tipografía grande pero sufren con notas al pie pequeñas. Por debajo de 150, la precisión cae en picado.
Paso a paso: PDF escaneado a Word

- Abre la herramienta para convertir PDF a Word y sube tu escaneo. La herramienta detecta automáticamente si hace falta OCR cuando la selección de texto vuelve vacía.
- Selecciona el idioma de origen para que el reconocedor use el diccionario adecuado. Inglés, español, alemán, francés, italiano, portugués, ruso y polaco se comportan claramente mejor cuando se definen de forma explícita.
- Ejecuta la conversión. Un escaneo de 10 páginas tarda entre 30 y 90 segundos según la complejidad de la imagen. Un archivo de 100 páginas puede tardar varios minutos.
- Descarga el .docx y ábrelo en Word. Revisa la primera página contra el PDF original antes de fiarte del resto.
Conserva siempre el PDF escaneado original. Si el OCR destroza una página, querrás compararla con la fuente en lugar de adivinar qué decía la palabra ilegible.Una comprobación útil antes de fiarte del resultado: abre el .docx en Word y mira las marcas de formato (actívalas con Ctrl+Mayús+8 en Windows, Cmd+8 en macOS). Si ves muchas marcas de párrafo al final de cada línea —porque el OCR pensó que cada línea visual era un párrafo— querrás arreglarlo con un buscar y reemplazar antes de empezar a editar. La solución es simple: sustituye las marcas de párrafo simples por un espacio y luego las dobles vuelven a ser simples. (Diría que este único truco de Word ahorra más tiempo que cualquier ajuste de OCR.)
Expectativas realistas de precisión
Las afirmaciones de marketing del tipo «99% de precisión» asumen texto impreso limpio sobre papel blanco a 300 DPI. Los documentos del mundo real varían muchísimo. Esto es lo que cabe esperar de verdad:| Tipo de documento | Precisión típica del OCR | Limpieza necesaria |
|---|---|---|
| Texto impreso limpio, documento moderno | 95-99% | Mínima, sobre todo puntuación |
| Documento enviado por fax o fotocopiado | 80-90% | Revisión página a página |
| Mecanografía antigua / impresión anterior a 2000 | 75-90% | Revisión exhaustiva, sobre todo «1» frente a «l» |
| Escritura a mano | 30-70%, muy variable | A menudo es más rápido teclear de nuevo |
| Tablas de números | El diseño falla la mayoría de las veces | Reformateo manual |
| Diseño multicolumna de periódico o revista | Texto bien, diseño mal | Reordenar a columna única manualmente |
| Foto con cámara de una página (buena luz) | 85-95% | Recortar y enderezar primero para mejores resultados |
Limpieza previa al OCR que mejora la precisión
Cinco minutos de preparación reducen a la mitad el tiempo de limpieza posterior al OCR:- Rota las páginas que estén de lado. Los motores de OCR asumen texto horizontal. Una página girada 90 grados devuelve galimatías o nada. Usa una herramienta para rotar primero las páginas de lado antes del OCR.
- Recorta los márgenes excesivos. Los bordes blancos anchos confunden al analizador de diseño y le hacen creer que tu única columna son dos. Recorta los márgenes hasta donde realmente empiece el texto.
- Aumenta el contraste. Los escaneos desvaídos se benefician de un aumento de contraste en el software del escáner o en cualquier editor de imagen antes de volver a guardarlos como PDF. Texto en negro puro sobre fondo blanco puro es el ideal.
- Endereza la imagen. Páginas inclinadas incluso 2 o 3 grados perjudican la precisión. La mayoría del software de escáner tiene una opción de enderezado automático y vale la pena ejecutarla.
- Pasa de color a escala de grises o blanco y negro antes de escanear si puedes. Los tintes de color (la salida típica amarillenta de la fotocopiadora de oficina) desplazan el contraste de formas que despistan al reconocedor.
- Quita las grapas y arrugas antes de escanear. Suena obvio, pero las páginas dobladas producen líneas de sombra que el OCR confunde con guiones bajos o bordes de tabla.
Lista de comprobación posterior al OCR
Cuando llegue el .docx, ejecuta unas cuantas pasadas de buscar y reemplazar antes de empezar a editar en serio. Estos son los errores de OCR más habituales en documentos en inglés:rna menudo se convierte enm, o al revés. Busca «rn» y palabras parecidas a «modern».l(ele minúscula) se confunde con1(uno). Especialmente común en números de factura y fechas.0(cero) confundido conO(o mayúscula) dentro de códigos e identificadores.- Comillas tipográficas convertidas en rectas o al revés, lo que rompe las citas.
- Rayas largas convertidas en dos guiones o en guion-espacio-guion.
- Los encabezados y pies de cada página pueden acabar en línea como texto. Bórralos una vez y configura un encabezado real de Word.
- Listas con viñetas renderizadas como párrafos planos prefijados con un «•» literal o con una «o» suelta.
- Las palabras partidas con guion al final de línea (mer-/cante en líneas consecutivas) a veces sobreviven en el documento de Word como guiones reales. Busca «- » (guion-espacio) y limpia.
Cuándo no merece la pena el OCR
A veces la respuesta correcta es teclear de nuevo en lugar de hacer OCR y limpiar. El punto de equilibrio depende de la longitud del documento y de la calidad de la fuente:- Menos de una página de impresión limpia: teclearla suele ser más rápido que ejecutar OCR, descargar, abrir Word y revisar.
- De una a diez páginas de impresión limpia: el OCR gana, incluso con limpieza.
- Diez o más páginas de mala calidad de fax: el OCR gana en tiempo, pero la pasada de limpieza puede ser tediosa. Plantéala como una tarea real, no como un trabajo rápido de cinco minutos.
- Cualquier cosa escrita a mano: teclea de nuevo a menos que el documento tenga cientos de páginas y la alternativa sea «no tenerlo en formato digital».
- Datos numéricos: teclear los números es más rápido que verificar cada dígito del resultado del OCR, y la verificación es obligatoria si la precisión importa.
FAQ
¿Por qué mi documento de Word sale en blanco después de la conversión?
Casi siempre porque pasaste un PDF escaneado por un conversor sin OCR. El conversor no encontró capa de texto, así que produjo un documento de Word con las imágenes de página incrustadas pero sin texto editable. Vuelve a procesar el archivo por una ruta de conversión que tenga OCR.
¿El OCR puede con notas escritas a mano?
A veces, mal. El OCR de escritura a mano ha mejorado con modelos neuronales pero sigue moviéndose entre el 30% y el 70% de precisión sobre escritura real. Para cualquier cosa importante, teclear de nuevo suele ser más rápido que corregir el resultado del OCR. La letra de imprenta (como un formulario rellenado en mayúsculas) sale mucho mejor que la cursiva.
¿Qué idiomas admite el OCR?
La mayoría de los motores, incluido el que usa Convertica, cubren todos los grandes idiomas europeos, entre ellos inglés, español, francés, alemán, italiano, portugués, ruso, polaco y muchos más. Define el idioma de origen de forma explícita para alfabetos con tildes o no latinos. Los documentos multilingües (inglés con pasajes citados en francés) funcionan mejor cuando se ajustan al idioma dominante.
¿Por qué las tablas salen como texto desordenado?
El OCR lee de izquierda a derecha y de arriba abajo, y los bordes de celda confunden ese flujo. Los números de la fila 1 columna 3 pueden acabar junto a los de la fila 2 columna 1. Para datos tabulares, convertir directamente a Excel y reconstruir la tabla allí suele ser más rápido que arreglarlo en Word.
¿La conversión por OCR es confidencial?
Las herramientas de navegador de buena reputación procesan el archivo en una sesión temporal y lo borran poco después. Lee la política de privacidad de cualquier herramienta antes de subir documentos sensibles. Para material altamente confidencial, considera un OCR local (Tesseract, ABBYY) en lugar de cualquier servicio web.
¿Cuánto tarda el OCR en un escaneo de 50 páginas?
Aproximadamente entre dos y cinco minutos en un buen servicio, según la resolución de la imagen y la carga del servidor. Los escaneos a 600 DPI tardan claramente más que los de 300 DPI sin producir mejores resultados.
Pruébalo ahora
Deja de teclear de nuevo. Sube tu escaneo al conversor de PDF a Word, define el idioma de origen y un minuto después estarás editando en Word. Solo planifica una pasada rápida de revisión antes de enviar el resultado.