El problema es que los tipos de datos que normalmente se usan para entrenar modelos de lenguaje podrían agotarse en un futuro cercano, ya en un futuro cercano, según un artículo de investigadores de Epoch, una organización de investigación y pronóstico de IA que aún no se ha comparado. Año 2026 revisado. El problema surge del hecho de que los investigadores necesitan encontrar más y más textos para entrenarlos a medida que construyen modelos más poderosos con mayores capacidades. Los principales investigadores de modelos de lenguaje están cada vez más preocupados de que se queden sin este tipo de datos, dice Teven Le Scao, investigador de la firma de IA Hugging Face que no participó en el trabajo de Epoch.

El problema se debe en parte al hecho de que los investigadores de inteligencia artificial del habla filtran los datos que utilizan para entrenar modelos en dos categorías: alta calidad y baja calidad. La línea entre las dos categorías puede ser borrosa, dice Pablo Villalobos, colaborador de Epoch y autor principal del artículo, pero los textos de la primera se consideran mejor escritos y, a menudo, son escritos por escritores profesionales.

Los datos de categorías de baja calidad consisten en texto como publicaciones en redes sociales o comentarios en sitios como 4chan, y estos ejemplos superan con creces a los de alta calidad. Los investigadores suelen entrenar modelos solo con datos que se encuentran en la categoría de alta calidad, ya que ese es el tipo de lenguaje que los modelos están diseñados para reproducir. Este enfoque ha arrojado algunos resultados impresionantes para modelos de lenguaje grandes como GPT-3.

Según Swabha Swayamdipta, profesora de aprendizaje automático que se especializa en calidad de conjuntos de datos en la Universidad del Sur de California, una forma de superar estas limitaciones de datos sería reevaluar lo que se define como calidad «baja» y «alta». Si la escasez de datos empuja a los investigadores de IA a incorporar conjuntos de datos más diversos en el proceso de capacitación, habría un «beneficio neto» para los modelos de lenguaje, dice Swayamdipta.

Los investigadores también pueden encontrar formas de extender la vida útil de los datos utilizados para entrenar modelos de lenguaje. Actualmente, debido a las limitaciones de rendimiento y costo, estos modelos solo se entrenan una vez con los mismos datos. Pero es posible entrenar un modelo varias veces con los mismos datos, dice Swayamdipta.

Algunos investigadores creen que grande no es igual a mejor cuando se trata de modelos de lenguaje. Percy Liang, profesor de ciencias de la computación en la Universidad de Stanford, dice que hay evidencia de que hacer que los modelos sean más eficientes puede mejorar sus capacidades, no solo aumentar su tamaño. «Hemos visto cómo los modelos más pequeños entrenados con datos de mayor calidad pueden superar a los modelos más grandes entrenados con datos de menor calidad», explica.

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí