31 de enero de 2023

Nuevo clasificador de IA para detectar textos generados por IA

Cargando…

A partir del 20 de julio de 2023, el clasificador de IA dejará de estar disponible a causa de su bajo índice de precisión. Estamos trabajando para incorporar actuar según el feedback recibido y, en la actualidad, investigamos técnicas de identificación de la procedencia de los textos más eficaces. Además, nos hemos comprometido a desarrollar y desplegar mecanismos que permitan a los usuarios comprender si el contenido de audio o visual está generado por IA.

Hemos entrenado un clasificador para que distinga entre el texto escrito por un humano y el texto generado por la IA de diferentes proveedores. Si bien resulta imposible detectar de forma fiable todo el texto generado por IA, creemos que unos buenos clasificadores permitirán mitigar las falsas afirmaciones de que un humano ha escrito un texto que, en realidad, está generado por IA: por ejemplo, las campañas de desinformación automatizadas⁠, el uso de herramientas de IA para fines de deshonestidad académica o hacer pasar a un chatbot de IA por un ser humano.

Nuestro clasificador no es completamente fiable. En nuestras evaluaciones en un «conjunto de desafíos» de textos en inglés, nuestro clasificador identifica correctamente el 26 % de los textos generados por IA (verdaderos positivos) como «probablemente generados por IA», mientras que etiqueta de forma incorrecta como texto generado por IA un texto escrito por humanos el 9 % de las veces (falsos positivos). La fiabilidad de nuestro clasificador, generalmente, mejora a medida que aumenta la longitud del texto de entrada. En comparación con el clasificador que lanzamos previamente⁠(se abre en una ventana nueva), este nuevo clasificador es significativamente más fiable con textos que provienen de los sistemas de IA más recientes.

Así pues, hemos puesto este clasificador a disposición del público para obtener comentarios sobre la utilidad de herramientas imperfectas como esta. Continuaremos trabajando en la detección de texto generado por IA y, en el futuro, esperamos poder compartir métodos mejorados.

Prueba nuestro clasificador gratuito en desarrollo:

Prueba el clasificador(se abre en una ventana nueva)

Limitaciones

Nuestro clasificador cuenta con un importante número de limitaciones. Por ello, no debe usarse como herramienta principal para tomar decisiones, sino como apoyo a otros métodos para detectar la procedencia de un texto.

El clasificador es poco fiable en textos cortos (con menos de mil caracteres). De hecho, en ocasiones, el clasificador etiqueta incorrectamente hasta los textos más largos.
A veces, nuestro clasificador etiqueta un texto escrito por un ser humano como texto generado por IA incorrectamente, pero con seguridad.
Recomendamos usar el clasificador solo para textos en inglés. En otros idiomas, su rendimiento es mucho peor, además de no ser fiable en código.
Los textos muy predecibles no pueden investigarse de forma fiable. Por ejemplo, es imposible predecir si una lista de los mil primeros números primos está generada por la IA o escrita por humanos, puesto que la respuesta correcta es siempre la misma.
Se puede editar el texto generado por IA para eludir al clasificador. Los clasificadores como el nuestro se pueden actualizar y volver a entrenar en función de los ataques que tengan éxito, pero no queda claro si la detección supone una ventaja a largo plazo.
Es bien sabido que los clasificadores basados en redes neuronales están mal calibrados cuando se utilizan con datos distintos a los de su entrenamiento. A veces, para entradas que son muy diferentes de los textos que hemos usado en nuestro conjunto de entrenamiento, el clasificador se muestra extremadamente seguro en una predicción errónea.

El entrenamiento del clasificador

Nuestro clasificador es un modelo lingüístico ajustado en base a un conjunto de datos formado por pares de textos escritos por humanos y textos generados por IA sobre el mismo tema. Primero, hemos recopilado este conjunto de datos a partir de diversas fuentes que creemos que están escritas por humanos, como los datos de preentrenamiento y las demostraciones humanas de los prompts enviados a InstructGPT⁠. Luego, hemos dividido cada texto en un prompt y en una respuesta. A partir de estos prompts, hemos generado respuestas que provienen de una gran variedad de modelos lingüísticos entrenados por nosotros y por otras organizaciones. Para nuestra aplicación web, hemos ajustado el umbral de confianza para mantener la tasa de falsos positivos lo más baja posible. Dicho de otra manera, solo marcamos el texto como probablemente escrito por IA si el clasificador tiene mucha confianza en ello.

El impacto en los educadores y la petición de información

Somos conscientes de que la identificación de textos generados con IA ha sido un importante tema de debate entre los educadores. Asimismo, es igualmente importante reconocer los límites y el impacto de los clasificadores de texto generados por IA en el aula. Hemos desarrollado un recurso preliminar⁠(se abre en una ventana nueva) sobre el uso de ChatGPT para educadores en el que se describen algunos de los usos, las limitaciones y las consideraciones asociados. Aunque este recurso se centre en los educadores, esperamos que nuestro clasificador y las herramientas de clasificación asociadas también tengan repercusión en los periodistas, los investigadores de desinformación y otros grupos.

Estamos poniéndonos en contacto con educadores de los Estados Unidos para conocer qué ven en sus aulas y debatir sobre las funciones y limitaciones de ChatGPT, y seguiremos ampliando nuestro alcance según vayamos aprendiendo. Estas conversaciones son importantes, puesto que una parte de nuestra misión es desplegar grandes modelos lingüísticos de manera segura y en contacto directo con las comunidades afectadas.

Si alguna de estas cuestiones te afecta directamente (incluidos profesores, administradores, padres, alumnos y proveedores de servicios educativos, entre otros), envíanos tus comentarios mediante este formulario⁠(se abre en una ventana nueva). Los comentarios directos sobre el recurso preliminar⁠(se abre en una ventana nueva) son muy útiles, y también agradecemos cualquier tipo de recurso que los educadores hayan desarrollado o encontrado útil (por ejemplo, directrices de cursos, actualizaciones en el código de honor y la política, herramientas interactivas o programas de alfabetización de la IA).

Autores

Jan Hendrik Kirchner, Lama Ahmad, Scott Aaronson y Jan Leike

Contribuidores

Michael Lampe, Joanne Jang, Pamela Mishkin, Andrew Mayne, Henrique Ponde de Oliveira Pinto, Valerie Balcom, Michelle Pokrass, Jeff Belgum, Madelaine Boyd, Heather Schmidt, Sherwin Wu, Logan Kilpatrick y Thomas Degry