Un enfoque multidisciplinar para detectar contenido no deseado en el mundo real
Presentamos un enfoque multidisciplinar para diseñar un sistema de clasificación de lenguaje natural potente y eficaz con el fin de moderar contenido real. El éxito de un sistema de este tipo depende de que se definan y ejecuten los pasos meticulosamente. Esto incluye diseñar las taxonomías del contenido y etiquetar las instrucciones, hacer controles de calidad de los datos, instaurar un proceso de aprendizaje activo para detectar eventos poco frecuentes y una serie de métodos para conseguir un modelo robusto y evitar la sobreoptimización. Hemos entrenado nuestro sistema de moderación para que detecte una gran variedad de categorías de contenido indeseado, entre los cuales se encuentran contenido de tipo sexual o contenido que incita al odio, la violencia, las autolesiones y el acoso. Este enfoque se extrapola a un amplio abanico de taxonomías de contenido y puede servir para crear clasificadores de contenido de alta calidad cuyo rendimiento supere el de los modelos estándar.