Ir al contenido principal
OpenAI

20 de junio de 2024

Publicación

Un enfoque multidisciplinar para detectar contenido no deseado en el mundo real

Cargando…

Presentamos un enfoque multidisciplinar para diseñar un sistema de clasificación de lenguaje natural potente y eficaz con el fin de moderar contenido real. El éxito de un sistema de este tipo depende de que se definan y ejecuten los pasos meticulosamente. Esto incluye diseñar las taxonomías del contenido y etiquetar las instrucciones, hacer controles de calidad de los datos, instaurar un proceso de aprendizaje activo para detectar eventos poco frecuentes y una serie de métodos para conseguir un modelo robusto y evitar la sobreoptimización. Hemos entrenado nuestro sistema de moderación para que detecte una gran variedad de categorías de contenido indeseado, entre los cuales se encuentran contenido de tipo sexual o contenido que incita al odio, la violencia, las autolesiones y el acoso. Este enfoque se extrapola a un amplio abanico de taxonomías de contenido y puede servir para crear clasificadores de contenido de alta calidad cuyo rendimiento supere el de los modelos estándar.

Autores

Todor Markov, Chong Zhang, Sandhini Agarwal, Tyna Eloundou, Teddy Lee, Steven Adler, Angela Jiang y Lilian Weng