20 de junio de 2024

Enfoque holístico para la detección de contenido no deseado en el mundo real

Cargando...

Presentamos un enfoque holístico para construir un sistema de clasificación de lenguaje natural que sea sólido y útil para la moderación de contenido real. El éxito de este sistema radica en una cadena de pasos diseñados y ejecutados cuidadosamente, que incluyen el diseño de clasificaciones de contenido e instrucciones de etiquetado, el control de calidad de los datos y el proceso de aprendizaje activo para capturar eventos inusuales, además de una variedad de métodos para darle solidez al modelo y evitar el sobreajuste. Nuestro sistema de moderación está entrenado para detectar un amplio conjunto de categorías de contenido no deseado, como contenido de carácter sexual, de odio, violencia, autolesión y acoso. Este enfoque se generaliza a una gran variedad de clasificaciones de contenido y se puede usar para crear clasificadores de contenido de alta calidad que superan a los modelos disponibles.

Autores

Todor Markov, Chong Zhang, Sandhini Agarwal, Tyna Eloundou, Teddy Lee, Steven Adler, Angela Jiang y Lilian Weng