MÁS DEL 50%

Según un estudio, la mayor parte de la web es contenido basura traducido por IA

Los expertos advierten de que la mayor parte de los textos que vemos hoy en día en la web han sido mal traducidos a uno o más idiomas, generalmente mediante una máquina.

No compartas nunca información por InternetPhoto-by-LinkedIn-Sales-Solutions-on-Unsplash

Un nuevo estudio asegura que gran cantidad de la información que encontramos en internet es contenido basura traducido automáticamente en los idiomas predominantes, principalmente el inglés, que se han traducido en muchos otros idiomas en forma automática a través de Inteligencia Artificial (IA).

Investigadores del laboratorio de inteligencia artificial de Amazon Web Services descubrieron que más de la mitad de los textos que hay en la web se han traducido a dos o más idiomas, a menudo con una calidad cada vez peor debido a una traducción automática deficiente, lo que genera serias preocupaciones sobre la formación de grandes modelos de lenguaje.

En la investigación, publicada en arXiv, los expertos generaron un corpus de 6,38 mil millones de oraciones extraídas de la web. Se observaron patrones de paralelismo multidireccional, que describe conjuntos de oraciones que son traducciones directas entre sí en tres o más idiomas. Se descubrió que la mayor parte de internet está traducida, ya que el 57,1% de las oraciones del corpus eran paralelas en varios sentidos en al menos tres idiomas.

Además, el estudio también encontró que el contenido traducido se compone mayormente de oraciones más cortas y "más predecibles" de entre 5 y 10 palabras. Debido a lo cortas que eran las frases, a los investigadores les resultó difícil caracterizar su calidad. Sin embargo, "buscar las frases en la web fue esclarecedor", afirmó el estudio. "La gran mayoría provino de artículos que caracterizamos como de baja calidad, que requerían poca o ninguna experiencia o esfuerzo previo para su creación, sobre temas como ser tomado más en serio en el trabajo, tener cuidado con sus elecciones, decidir ser feliz...".

Los investigadores argumentaron que el sesgo de selección hacia oraciones cortas de artículos de baja calidad se debía a que "el contenido de baja calidad (probablemente producido para generar ingresos publicitarios) se traducía a través de Inteligencia Artificial en masa a muchos idiomas de menores recursos (probablemente nuevamente con el propósito de generar publicidad". También sugiere que dichos datos se originan en inglés y se traducen a otros idiomas.

"Esto significa que una gran parte de Internet en idiomas de menores recursos está mal traducida por máquinas, lo que plantea interrogantes para el desarrollo de grandes modelos lingüísticos en esos idiomas", concluyeron los investigadores.