Fotografía de archivo de una pantalla con el sitio web del ChatGPT de OpenAI. (Foto: EFE/Rayner Peña R)

Los algoritmos que se usan para detectar artículos redactados por inteligencia artificial tienden a calificar como tales a textos escritos por personas cuyo primer idioma no es el inglés, según un estudio que publicoo esta semana la revista de ciencias informáticas Patterns.

Las herramientas de inteligencia artificial (IA) como ChatGPT de OpenAI, pueden componer artículos, resolver problemas matemáticos y de ciencias y producir codificación para computadoras.

El incremento constante de las capacidades de estas herramientas preocupa a los docentes, que han de evaluar escritos de sus alumnos, y a editores de publicaciones especializadas y académicas, que pueden recibir artículos redactados por IA.

«Nuestra recomendación es que debemos ser extremadamente cuidadosos y, quizá, deberíamos evitar el uso de estos detectores tanto como sea posible», señaló el autor del estudio, James Zou, de la Universidad de Stanford, en California.

Para su investigación, Zou y su equipo pusieron a prueba siete algoritmos conocidos como transformadores preentrenados generativos, o GPT, que supuestamente identifican si un texto fue producido por un ser humano o una computadora.

Los GPT elegidos analizaron 91 ensayos en inglés escritos por personas cuyo primer idioma no es el inglés para la prueba TOEFL, ampliamente reconocida en la evaluación del conocimiento y habilidad para el uso de la lengua inglesa.

Los GPT calificaron erróneamente como producidos por IA a más de la mitad de los ensayos, y uno de los detectores marcó a casi el 98 % de los textos como escritos por IA, señaló el informe.

Por comparación, los GPT fueron capaces de clasificar correctamente como producidos por seres humanos a más del 90 % de los ensayos escritos por estudiantes estadounidenses de octavo grado.

Zou, profesor de Ciencias de Datos Biométricos, Computación e Ingeniería Eléctrica, explicó que los algoritmos de los GPT operan evaluando la llamada perplejidad del texto, es decir cuán sorprendente sea la elección de palabras en un ensayo.

«Si tú usas palabras comunes en inglés, los detectores te asignan un puntaje bajo de perplejidad y eso hace que el texto, probablemente, sea clasificado como producto de IA. Pero si usas palabras más complejas y rebuscadas, entonces es probable que el algoritmo clasifique al texto como escrito por un humano», añadió.

Esto se debe al hecho de que los modelos grandes de lenguaje, como ChatGPT, están programados para generar textos con un bajo nivel de perplejidad a fin de simular mejor la forma en que habla el humano promedio, expuso el autor.

«Esto puede tener consecuencias significativas si esos detectores se usan para revisar cosas como las solicitudes de empleo, los ensayos de ingreso a la universidad o tareas asignadas en la escuela secundaria», puntualizó.

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí