Sí, pero: En los últimos años, los estudios han demostrado que estos conjuntos de datos pueden contener graves deficiencias. Por ejemplo, ImageNet contiene etiquetas racistas y sexistas, así como fotografías de rostros de personas obtenidas sin consentimiento. El último estudio ahora aborda otro problema: muchas de las etiquetas son simplemente incorrectas. Un hongo se llama cuchara, una rana se llama gato y una nota alta de Ariana Grande se llama pipa. El kit de prueba ImageNet tiene una tasa estimada de fallas en la etiqueta del 5,8%. El kit de prueba para QuickDraw, una compilación de dibujos a mano, tiene una tasa de error estimada del 10,1%.

¿Cómo se midió? Cada uno de los 10 conjuntos de datos que se utilizan para evaluar modelos tiene un conjunto de datos correspondiente que se utiliza para entrenar esos modelos. Los investigadores, los ex alumnos del MIT Curtis G. Northcutt y Anish Athalye y el alumno Jonas Mueller, utilizaron los conjuntos de datos de entrenamiento para desarrollar un modelo de aprendizaje automático y luego lo usaron para predecir las etiquetas en los datos de prueba. Si el modelo no coincidía con la etiqueta original, el punto de datos se marcó para verificación manual. Se pidió a cinco revisores humanos de Amazon Mechanical Turk que votaran sobre la etiqueta, el modelo o el original, que creían que era correcta. Si la mayoría de los revisores humanos estaban de acuerdo con el modelo, se consideró que la etiqueta original era un error y luego se corrigió.

¿Eso es importante? Si. Los investigadores examinaron 34 modelos cuyo rendimiento se había medido previamente con el kit de prueba ImageNet. Luego volvieron a medir cada modelo usando los aproximadamente 1,500 ejemplos que se encontraron con etiquetas de datos incorrectas. Descubrieron que los modelos que no funcionaban tan bien en el original incorrecto Las etiquetas fueron algunos de los mejores resultados después de que se corrigieron. En particular, los modelos más simples parecían tener mejores resultados en los datos corregidos que los modelos más complicados utilizados por gigantes tecnológicos como Google para el reconocimiento de imágenes que se consideran los mejores en el campo. En otras palabras, podemos tener una sensación inflada de cuán grandes son estos modelos complicados debido a datos de prueba defectuosos.

¿Ahora que? Northcutt está animando al campo de la IA a crear conjuntos de datos más limpios para evaluar modelos y rastrear el progreso del campo. También recomienda a los investigadores que mejoren la higiene de sus datos cuando trabajen con sus propios datos. De lo contrario, dice, «si tiene un conjunto de datos ruidoso y varios modelos que prueba y los va a implementar en el mundo real», podría terminar eligiendo el modelo incorrecto. Con este fin, ha hecho que el código que utilizó en su estudio para corregir errores de etiquetas esté disponible como una solución de código abierto. Dice que ya lo utilizan algunas grandes empresas tecnológicas.

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí