Después de mucho tiempo (tal vez demasiado) pensando en qué tema podía ser de interés para todos, varios bocetos en Word (y en papel) y no saber exactamente por dónde empezar, decidí que tal vez iba a ser mejor empezar por alguna de las dudas y problemas que tuve este año en cuanto al uso de CAT tools y herramientas relacionadas a nuestro entorno de trabajo. Y uno de los primeros inconvenientes que suele presentarse a la hora de aceptar un trabajo de traducción está relacionado a la inconsistencia en la cantidad de palabras que obtenemos al analizar un mismo archivo en diferentes programas.
Muchas veces aceptamos un trabajo sin estar seguros de que el log que nos envía nuestro cliente –en el caso de las agencias de traducción- sea preciso, y no necesariamente porque el wordcount sea incorrecto, sino porque cada programa tiene su propio método de conteo de palabras, y va a depender de la herramienta que se utilizó al momento de obtener los porcentajes de palabras nuevas, fuzzies y repeticiones que conforman la totalidad de palabras. La mayoría de las veces esta diferencia es sutil y no nos afecta realmente, pero hay casos particulares en los que es significativa y es importante conocerlos y entender la diferencia de conteo entre un programa y otro. Y es importante tener este dato en cuenta antes de que un proyecto que, inicialmente, era de pocas palabras, termine siendo una montaña de trabajo que aceptamos sin saberlo.
En general, en textos legales, literarios, de marketing –es decir, textos compuestos en su mayoría por letras que conforman palabras-, la diferencia en el conteo entre MS Word 2007 y Trados 2007 no es significativa. MS Word suele arrojar un conteo apenas mayor que el de Trados 2007, y puede deberse a que el primero incluye caracteres que Trados 2007 deja de lado por considerarlos “no traducibles”. Word 2007 suele incluir viñetas, números (tanto en una lista como aislados o en oraciones) y rayas al momento de analizar la cantidad de palabras de un archivo. Trados 2007, en cambio, no los incluye en su análisis, ya que considera que no deben ser traducidos.
En el caso de combinacion
es de números y el símbolo de porcentaje (unidos o separados por un especio), por ejemplo, Trados 2007 suele tomarlos como una palabra si se encuentran dentro de una oración o directamente no los incluye si están aislados, mientras que Trados los considera una o dos palabras, dependiendo de que estén separados por un espacio.
Por el contrario, en el caso de palabras separadas por un guión, MS Word suele considerar a cada guión como una palabra, mientras que Trados no incluye los guiones en el conteo. Esto aplica a palabras compuestas como los nombres químicos, que suelen estar formados de varias palabras y números separados por guiones: Word considera que pertenecen a una misma palabra, mientras que Trados 2007 la desglosa en la cantidad de palabras y números que forman el compuesto. Si tenemos que agregar a esta comparación el conteo que arroja SDL Studio, esta herramienta suele manejarse de forma similar a Trados 2007, salvo que suele repetir ciertas estructuras como “placeables” o sumar las palabras separadas por guión en lugar de considerarlas una única palabra.
MS Word tampoco incluye en su conteo de palabras cajas de texto, encabezados, pies de texto ni comentarios. Tampoco incluye el texto de documentos embebidos en el documento mismo, como diapositivas de PowerPoint u hojas de cálculo Excel. Según mi experiencia, Trados 2007 sí cuenta este tipo de palabras, pero por experiencia de algunos colegas hay que tener cuidado al analizar archivos de Word con SDL Studio, ya que muchas veces las cajas de texto no aparecen reflejadas en el archivo sdlxliff de SDL.
Teniendo en cuenta este pantallazo de diferencias en el conteo de palabras de los diferentes procesadores de texto y herramientas de traducción asistida, podemos inferir –en un plano muy general- en qué casos debemos muy cuidadosos al momento de aceptar un proyecto: en el caso de textos compuestos mayormente por letras, pocos símbolos y texto plano, la diferencia seguramente sea sutil, pero si trabajamos con archivos repleto de cajas de texto o formas/gráficos o documentos que contengan fórmulas o gran cantidad de números –por ejemplo, un manual de química o un tutorial de un programa de software-, tal vez sea conveniente analizar los archivos con diferentes programas a fines de obtener un parámetro que nos indique qué aplicación es más eficiente para analizar el conteo de palabras de ese archivo en particular.
Como mencioné anteriormente, no existe una regla que determine de forma exacta los algoritmos de análisis que utilizan Word 2003, Word 2007, Trados 2007 y SDL Studio –entre tantos otros, por supuesto-, pero ser conscientes de que un conteo erróneo de palabras puede perjudicar nuestra productividad y tomarnos el tiempo para procesar los archivos con los que vamos a trabajar antes de comenzar a traducir con diferentes aplicaciones nos va a permitir darnos una mejor idea de la cantidad de trabajo real con la que vamos a lidiar y, más importante aún, el costo total del proyecto en sí.
Mis agradecimientos a Tuomas Kostiainen por el post de su blog: Word count differences between Trados Studio and Trados 2007.