Los científicos afirman que más del 99 por ciento de identificación de ChatGPT • The Register

Aparentemente, los académicos han entrenado un algoritmo de aprendizaje automático para detectar artículos científicos generados por ChatGPT y afirman que el software tiene una precisión de más del 99 por ciento.

Los modelos de IA generativa han mejorado drásticamente en la imitación de la escritura humana en un corto período de tiempo, lo que dificulta que las personas sepan si el texto fue producido por una máquina o por un humano. Los profesores y disertantes han expresado su preocupación de que los estudiantes que usan las herramientas estén cometiendo plagio o aparentemente haciendo trampa usando un código generado por una máquina.

Sin embargo, el software diseñado para detectar texto generado por IA a menudo no es confiable. Los expertos han advertido contra el uso de estas herramientas para evaluar el trabajo.

Un equipo de investigadores dirigido por la Universidad de Kansas pensó que sería útil desarrollar una forma de detectar la escritura científica generada por IA, específicamente escrita en el estilo de los trabajos de investigación que normalmente se aceptan y publican en las revistas académicas.

«En este momento, hay algunos problemas bastante evidentes con la escritura de IA», dijo Heather Desaire, primera autora de un artículo publicado en la revista. Informes celulares Ciencias físicas, y profesor de química en la Universidad de Kansas, en un comunicado. «Uno de los mayores problemas es que reúne texto de muchas fuentes y no hay ningún tipo de verificación de precisión; es como el juego Two Truths and a Lie».

Desaire y sus colegas compilaron conjuntos de datos para entrenar y probar un algoritmo para clasificar artículos escritos por científicos y por ChatGPT. Seleccionaron 64 artículos de «perspectivas», un estilo específico de artículo publicado en revistas científicas, que representan una amplia gama de temas, desde biología hasta física, y pidieron a ChatGPT que generara párrafos que describieran la misma investigación para crear 128 artículos falsos. AI produjo un total de 1.276 párrafos y los utilizó para entrenar al clasificador.

A continuación, el equipo compiló dos conjuntos de datos más, cada uno con 30 artículos de perspectivas reales y 60 artículos escritos por ChatGPT, con un total de 1210 párrafos para probar el algoritmo.

Los experimentos iniciales informaron que el clasificador pudo discernir entre la escritura científica real de humanos y los documentos generados por IA el 100 por ciento de las veces. Sin embargo, la precisión en el nivel de párrafo individual se redujo ligeramente, al 92 por ciento, según se afirma.

Creen que su clasificador es efectivo, porque se centra en una variedad de diferencias estilísticas entre la escritura humana y la de IA. Es más probable que los científicos tengan un vocabulario más rico y escriban párrafos más largos que contengan palabras más diversas que las máquinas. También usan signos de puntuación como signos de interrogación, corchetes, punto y coma con más frecuencia que ChatGPT, a excepción de los signos de voz que se usan para las comillas.

ChatGPT también es menos preciso y no proporciona información específica sobre figuras u otros nombres científicos en comparación con los humanos. Los artículos de ciencia real también usan un lenguaje más equívoco, como «sin embargo», «pero», «aunque», así como «esto» y «porque».

Los resultados, sin embargo, deben tomarse con pinzas. No está claro cuán robusto es el algoritmo frente a estudios que han sido ligeramente editados por humanos a pesar de haber sido escritos principalmente por ChatGPT, o frente a artículos reales de otras revistas científicas.

«Dado que el objetivo clave de este trabajo era un estudio de prueba de concepto, el alcance del trabajo fue limitado y se necesitan estudios de seguimiento para determinar el alcance de la aplicabilidad de este enfoque», escribieron los investigadores en su artículo. «Por ejemplo, el tamaño del conjunto de prueba (180 documentos, ~1200 párrafos) es pequeño, y un conjunto de prueba más grande definiría más claramente la precisión del método en esta categoría de ejemplos de escritura».

El registro ha pedido a Desaire un comentario. ®