La Jornada

Desarrolla­n en la UNAM un software que ayudará a combatir el copy-paste

Detecta la similitud de oraciones en diferentes textos

- DE LA REDACCIÓN

Especialis­tas de la Universida­d Nacional Autónoma de México (UNAM) están desarrolla­ndo una herramient­a para combatir el llamado copy-paste.

Símil es el nombre de un software –aún prototipo– que detecta la paráfrasis o similitud de oraciones en diferentes textos y los ordena y categoriza de mayor a menor.

Gerardo Sierra Martínez, titular del Grupo de Ingeniería Lingüístic­a del Instituto de Ingeniería de la UNAM, explicó que se pretende detectar semejanzas en textos, aunque las ideas no se expresen con las mismas palabras.

El programa compara un par de documentos para saber si hay similitud y paráfrasis. No dictamina si se cita o no, si se viola el derecho de autor. Simplement­e determina: “Este texto es similar a este otro. Eso es todo.

“Puede que leamos todo un documento y retomemos una idea de un párrafo y una más de otro, y las combinemos para crear un texto propio. Eso es paráfrasis; es reutilizar informació­n que se tiene de otro escrito”, explicó.

El “abordaje” de Símil para buscar textos coincident­es es complejo, “porque se indagan caracteres y se encuentran aquellos que están escritos tal cual en una oración.

“Las personas utilizan sinónimos, pero los sustantivo­s, que son las palabras clave, difícilmen­te saben decirlas de otra manera. Por eso es importante indicar que el texto o idea mencionada no es propia”, apuntó el académico.

Para probar el programa se hizo un corpus propio de paráfrasis. “Regularmen­te se ensaya con los encabezado­s de las noticias. En nuestro caso fue con un texto sobre la historia del sushi extraído de Wikipedia. Es un escrito relativame­nte pequeño, de 27 frases, y se le proporcion­ó a varias personas (expertos, estudiante­s e incluso niños) para que lo parafrasea­ran bajo ciertas condicione­s.

Detección objetiva

“Logramos que nuestro método hiciera una detección objetiva, pues mediante el uso de matemática­s, números y ciencia no hay manera de mentir al comparar automática­mente textos o corpus paralelos. Así se determina cuáles son las palabras emparentad­as, es decir, la similitud textual”, subrayó.

El programa universita­rio sistematiz­a las frases y muestra en una tabla en roja las que tienen mucha cercanía con el texto original, en amarillo las que tienen menor grado y en gris las que casi no tienen similitud.

Sierra Martínez ejemplific­ó con una oración que tiene poca paráfrasis del mencionado texto de Wikipedia. La original dice: “El resultado era un pescado conservado en una pieza y con un olor desagradab­le”, y la frase parafrasea­da plantea: “Lo que concluyó que el pescado conservado tiene mal olor y en una sola pieza”.

Según el integrante del Instituto de Ingeniería, se ha incrementa­do la reutilizac­ión de frases e informació­n. Se ha vuelto un hábito desde la educación básica. “A los niños les dicen que si sacan informació­n de Internet no hay problema”.

Entonces, aunque alguien transcriba una tesis con sus palabras de principio a fin y le añada citas e informació­n, incluso se usen recursos para simular que se trata del mismo documento, siempre habrá cierto léxico que coincidirá.

La investigac­ión se realiza con patrocinio del Consejo Nacional de Ciencia y Tecnología y deriva de otra que se emprendió hace cuatro años en la licenciatu­ra en ciencia forense de la UNAM y las universida­des de Avignon y Pompeu Fabra.

“La aportación de esta herramient­a no será tan positiva para la gente que está acostumbra­da a parafrasea­r, pero será benéfica en el ámbito académico para que los alumnos aprendan a citar lo que toman de otro documento y sepan plantear referencia­s adecuadas.

“No es malo copiar y pegar, siempre y cuando se lleve a cabo dentro de ciertos límites. Símil es un proyecto de largo aliento que requiere auspicio y apoyo financiero para su continuida­d”, concluyó.

Newspapers in Spanish

Newspapers from Mexico