Quitar saltos de párrafo en textos escaneados
A veces cuando tenemos un texto que ha pasado por OCR nos encontramos con que el texto está “cortado” cada media línea para mantener el formato original, lo que complica las cosas, porque borrar estos saltos de párrafo uno por uno es eterno y no deberíamos ocupar el tiempo en cosas que podemos hacer automáticamente (o casi).
Propongo dos opciones:
1) Dentro de Word ponemos la vista normal con todas las marcas (Herramientas > Opciones > Ver > Marcas de Formato > Todas) y vamos a ver en nuestro texto un montón de caracteres “raros”. Aparecerá el símbolo (¶), que es el que nos interesa y representa el salto de párrafo.
Ahora hay que ir a Edición > Reemplazar y colocar en el campo Buscar: ” ^p “, que es el “código” para decirle a Word que busque los saltos de párrafo (el símbolo ¶).
A continuación ponemos un espacio donde dice “Reemplazar con” y listo: podemos “Reemplazar todos” o “Reemplazar” de a uno, según nuestra necesidad.
2) En una Web que se llama Text Fixer puede encontrar una aplicación donde se puede quitar los saltos de párrafo con sólo copiar el texto.
Lo mismo puede hacerse con los saltos de línea con el código “^l” (que en el documento se ve con un símbolo de una flecha con curva apuntando hacia la izquierda, similar a la que encontramos en el teclado en la tecla “Enter”).
N.




No sé a que se refiere con “sitio web” por eso no lo pongo.Me ha salido sin saber por que el signo de carácter de párrafo y no no logro quitarle. Gracias
Para quitarle, tienes que ir a Herramientas > Opciones > Ver > Marcas de Formato y desmarcar la opción “Todas”.
Lo de sitio Web es en caso de que tengas un blog, un perfil o una página personal.
Saludos.
NAtalia
Hola Natalia, gracias por la info. Puedo aportar con una idea simple también útil para textos convertidos de PDF o escaneados.
Generalmente se vuelven lentísimos para trabajar ya que al convertirlos se llenan de espacios (a veces hasta cuatro)y tabulaciones. En vista normal podemos ver que el doc que a la vista estaba perfecto es en realidad un verdadero desorden.
Se eliminan de la misma manera que las marcas de parrafo.
El “Find” hacemos dos espacios con la barra espaciadora y en “Replace” hacemos un espacio. Luego sin miedo “Replace all” varias veces hasta que de 0.
Para las tabulaciones, simplemente se copia la tabulación en “Find”, y ponemos un espacio en el Cuadro “Replace”. En este caso conviene eliminar de a una ya que hay tabulaciones que SI tienen que estar. Todo esto hay que hacerlo por supuesto con la vista normal.
¡Espero les sirva!
Gracias, Guillermo, por tu aporte.
Natalia
!HOLI! y GRACIAS!!!!!!
Muchas veces me han aparecido y lo elimine de casualidad. Pero me molestan muchoooooooooooooooo.
Ahora se el modo y te lo agradezco. !GRACIAS MIL!!!
Continúa con tu buena disposición para los naboleti como yo.
Otra vez GRACIAS!!!!
**Soni**
Excelentes las indicaciones, ya las hemos puesto en práctica.