El resultado es un gran avance para una técnica conocida como aprendizaje por imitación, en la que las redes neuronales se entrenan para realizar tareas al observar a los humanos realizarlas. El aprendizaje por imitación se puede utilizar para entrenar la IA, controlar brazos robóticos, conducir automóviles o navegar por sitios web.

Hay una gran cantidad de videos en línea que muestran a personas haciendo diferentes tareas. Al desbloquear este recurso, los investigadores esperan hacer por el aprendizaje por imitación lo que GPT-3 hizo por los grandes modelos de lenguaje. «En los últimos años, hemos visto el surgimiento de este paradigma GPT-3, donde las increíbles capacidades provienen de grandes modelos entrenados en grandes porciones de Internet», dice Bowen Baker de OpenAI, uno de los equipos detrás del nuevo bot de Minecraft. «Gran parte de eso se debe a que estamos modelando lo que la gente hace cuando se conecta».

El problema con los enfoques existentes para el aprendizaje por imitación es que las demostraciones en video deben etiquetarse en cada paso: realizar esta acción hará esto, realizar esta acción hará aquello, y así sucesivamente. Anotar a mano de esta manera es mucho trabajo y, como resultado, estos conjuntos de datos tienden a ser pequeños. Baker y sus colegas querían encontrar una forma de convertir los millones de videos disponibles en línea en un nuevo conjunto de datos.

El enfoque del equipo, llamado Video Pre-Training (VPT), ​​evita el cuello de botella del aprendizaje por imitación entrenando otra red neuronal para etiquetar automáticamente los videos. Primero contrataron trabajadores colectivos para jugar Minecraft y grabaron los clics del teclado y del mouse junto con el video de sus pantallas. Esto les dio a los investigadores 2000 horas de juego de Minecraft anotado, que usaron para entrenar un modelo para hacer coincidir las acciones con el resultado en pantalla. Por ejemplo, hacer clic en el botón del mouse en una situación determinada hará que el personaje mueva su hacha.

El siguiente paso fue usar este modelo para generar etiquetas de acción para 70 000 horas de video sin etiquetar de toda la web y luego entrenar al bot de Minecraft en este conjunto de datos más grande.

«El video es un recurso de capacitación con mucho potencial», dice Peter Stone, director ejecutivo de Sony AI America, quien anteriormente trabajó en el aprendizaje por imitación.

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí