31 de enero de 2023

Nuevo clasificador de IA para indicar texto escrito con IA

Cargando...

A partir del 20 de julio de 2023, el clasificador de IA ya no está disponible debido a su baja tasa de precisión. Estamos trabajando para incorporar comentarios y actualmente estamos investigando técnicas de procedencia más efectivas de texto; asimismo, nos comprometimos a desarrollar e implementar mecanismos que permitan a los usuarios comprender si el contenido visual o de audio es generado con IA.

Entrenamos un clasificador para distinguir entre texto escrito por un humano y texto escrito con IA de una variedad de proveedores. Aunque es imposible detectar de forma confiable todo el texto escrito con IA, creemos que los buenos clasificadores pueden informar mitigaciones de reclamaciones falsas de que un humano escribió texto generado con IA: por ejemplo, llevar a cabo campañas automáticas de desinformación⁠, usar herramientas de IA para deshonestidad académica y posicionar un chatbot de IA como humano.

Nuestro clasificador no es completamente confiable. En nuestras evaluaciones sobre un «conjunto de desafíos» de textos en inglés, nuestro clasificador identifica correctamente el 26 % de texto escrito con IA (verdaderos positivos) como «probablemente escrito con IA» mientras que etiqueta incorrectamente texto escrito por humano como escrito con IA el 9 % de las veces (falsos positivos). Por lo general, la confiabilidad del clasificador mejora a medida que aumenta la longitud de texto de entrada. En comparación con nuestro clasificador lanzado previamente⁠(se abre en una nueva ventana), este nuevo clasificador es significativamente más confiable que texto de sistemas de IA más recientes.

Proporcionamos este clasificador públicamente para obtener comentarios sobre si las herramientas imperfectas como esta son útiles. Nuestro trabajo en detección de texto generado con IA continuará y esperamos compartir métodos mejorados a futuro.

Prueba tú mismo nuestro clasificador en proceso de desarrollo:

Prueba el clasificador(se abre en una nueva ventana)

Limitaciones

Nuestro clasificador tiene varias limitaciones importantes. No se debe usar como una herramienta de toma de decisiones primaria, sino como un complemento a otros métodos para determinar la fuente de un fragmento de texto.

El clasificador es poco confiable en textos cortos (por debajo de 1000 caracteres). El clasificador incluso a veces etiqueta incorrectamente textos más largos.
A veces nuestro clasificador etiquetará incorrectamente pero con confianza el texto escrito por humanos como escrito con IA.
Recomendamos usar el clasificador solo para texto en inglés. Se desempeña bastante peor en otros idiomas y no es confiable en el código.
El texto que es muy predecible no se puede identificar con confianza. Por ejemplo, es imposible predecir si una lista de los primeros 1000 números primos fue escrita con IA o por humanos dado que la respuesta correcta es siempre la misma.
El texto escrito con IA se puede editar para evadir el clasificador. Los clasificadores como el nuestro se pueden actualizar en función de ataques exitosos, pero es poco claro si la detección tiene una ventaja a largo plazo.
Se sabe que los clasificadores en función de redes neuronales se calibran de forma deficiente fuera de sus datos de entrenamiento. Para entradas que son muy diferentes del texto en nuestro conjunto de entrenamiento, el clasificador a veces es sumamente confiable en una predicción errónea.

Cómo entrenar al clasificador

Nuestro clasificador es un modelo de lenguaje de ajuste fino en un conjunto de datos de pares de texto escrito por humanos y texto escrito con IA en el mismo tema. Recopilamos este conjunto de datos de una variedad de fuentes que consideramos que escribieron humanos, como los datos de preentrenamiento y las demostraciones humanas en indicaciones presentadas en InstructGPT⁠. Dividimos cada texto en una indicación y una respuesta. En estas indicaciones generamos respuestas a partir de una variedad de modelos de idiomas diferentes entrenados por nosotros y otras organizaciones. Para nuestra aplicación web, ajustamos el umbral de confianza para mantener la tasa de falsos positivos baja; en otras palabras, solo marcamos texto como «probablemente escrito con IA» si el clasificador tenía mucha seguridad.

Impacto en educadores y solicitud de entradas

Reconocemos que identificar texto escrito con IA ha sido un punto importante de debate entre educadores e igual de importante es reconocer los límites e impactos de los clasificadores de texto generado con IA en el aula. Hemos desarrollado un recurso preliminar⁠(se abre en una nueva ventana) sobre el uso de ChatGPT para educadores, lo que describe algunos de los usos así como también sus limitaciones y consideraciones asociadas. Aunque este recurso se centra en educadores, esperamos que nuestro clasificador y herramientas asociadas a este tengan un impacto en los periodistas, investigadores de desinformación e información falsa y otros grupos.

Interactuamos con educadores en los Estados Unidos para saber lo que observan en sus aulas y debatir sobre las capacidades y limitaciones de ChatGPT. Continuaremos ampliando nuestro alcance a medida que obtenemos información. Estas son conversaciones importantes que debemos mantener como parte de nuestra misión para implementar grandes modelos de lenguaje de forma segura, en contacto directo con comunidades afectadas.

Si estos asuntos te afectan de forma directa (incluidos maestros, administradores, padres, estudiantes y proveedores de servicios educativos, entre otros), déjanos tus comentarios a través de este formulario⁠(se abre en una nueva ventana). Los comentarios directos sobre el recurso preliminar⁠(se abre en una nueva ventana) son útiles. También recibimos de buena manera cualquier recurso que los educadores estén desarrollando o les resulten útiles (p. ej., guías para cursos, códigos de honor y actualizaciones de políticas, herramientas interactivas, programas de alfabetización de IA).

Autores

Jan Hendrik Kirchner, Lama Ahmad, Scott Aaronson y Jan Leike

Contribuidores

Michael Lampe, Joanne Jang, Pamela Mishkin, Andrew Mayne, Henrique Ponde de Oliveira Pinto, Valerie Balcom, Michelle Pokrass, Jeff Belgum, Madelaine Boyd, Heather Schmidt, Sherwin Wu, Logan Kilpatrick, Thomas Degry