Explorando las Novedades en los Modelos de Lenguaje a Gran Escala (LLMS)
En los últimos años, hemos sido testigos de avances significativos en el campo de procesamiento del lenguaje natural, impulsados por lo que se conoce como Modelos de Lenguaje a Gran Escala (LLMS).
18 de diciembre de 2023
En los últimos años, hemos sido testigos de avances significativos en el campo de procesamiento del lenguaje natural, impulsados por lo que se conoce como Modelos de Lenguaje a Gran Escala (LLMS). Estos modelos, alimentados por redes neuronales con miles de millones de parámetros, han revolucionado la forma en que abordamos las tareas relacionadas con el procesamiento del lenguaje.
¿Qué son los LLMS?
Un Modelo de Lenguaje a Gran Escala es un modelo de lenguaje conformado por una red neuronal con numerosos parámetros, a menudo en el orden de miles de millones de pesos o más. Su entrenamiento se realiza mediante el aprendizaje auto-supervisado, basado en grandes cantidades de texto no etiquetado. La llegada de los LLMS alrededor de 2018 ha desplazado el enfoque de investigación en procesamiento del lenguaje natural, alejándose del paradigma anterior de entrenar modelos especializados supervisados para tareas específicas.
Propiedades de los LLMS
Aunque el término "modelo de lenguaje a gran escala" no tiene una definición formal, generalmente se refiere a modelos de aprendizaje profundo con un conteo de parámetros del orden de miles de millones o más. Estos modelos son de propósito general y destacan en una amplia gama de tareas, a diferencia de los modelos especializados entrenados para una tarea específica. A pesar de ser entrenados en tareas simples, como predecir la siguiente palabra en una oración, los LLMS capturan gran parte de la sintaxis y semántica del lenguaje humano.
Alucinaciones y Habilidades Emergentes
En el ámbito de la inteligencia artificial, las "alucinaciones" en los LLMS se refieren a respuestas confiadas que no parecen justificarse por los datos de entrenamiento del modelo. Estos modelos también exhiben habilidades emergentes, donde en tareas específicas, su rendimiento no mejora significativamente hasta que alcanzan una cierta escala, medida por la computación utilizada en el entrenamiento. Estas habilidades emergentes, impredecibles en modelos más simples, incluyen desde aritmética de múltiples pasos hasta la capacidad de tomar exámenes universitarios.
Arquitectura y Entrenamiento
Los LLMS han adoptado principalmente la arquitectura transformer, que se ha convertido en la técnica estándar de aprendizaje profundo para datos secuenciales. Aunque inicialmente se utilizaban arquitecturas recurrentes, como LSTM, los transformer han demostrado ser más eficaces. Estos modelos se entrenan de manera no supervisada en texto no anotado, utilizando tareas como predecir la siguiente palabra en una oración. El costo computacional de entrenar estos modelos, que puede llegar a trillones de parámetros, es considerable.
Aplicación en Tareas Específicas
Entre 2018 y 2020, la práctica estándar para aprovechar un LLMS en una tarea específica de procesamiento del lenguaje natural era el ajuste fino del modelo con un entrenamiento adicional específico para esa tarea. Sin embargo, modelos más potentes, como GPT-3, han demostrado la capacidad de resolver tareas sin entrenamiento adicional mediante técnicas de "prompting", presentando el problema al modelo como un estímulo de texto.
Afinamiento y 'Prompting'
El afinamiento implica modificar un modelo de lenguaje preentrenado mediante el entrenamiento supervisado en una tarea específica. Por otro lado, en el paradigma de "prompting", popularizado por GPT-3, el problema se formula a través de un estímulo de texto que el modelo debe resolver proporcionando una respuesta. Esto se puede hacer con o sin ejemplos de problemas similares y sus soluciones, llevando a resultados competitivos en tareas de procesamiento del lenguaje natural.
Sintonización de Instrucciones
La sintonización de instrucciones es una forma de afinamiento diseñada para facilitar interacciones más naturales y precisas en "prompting" sin ejemplos. Al entrenar el modelo en numerosos ejemplos de tareas formuladas como instrucciones en lenguaje natural, se mejora la capacidad del modelo para generar respuestas coherentes. Esta técnica, como el protocolo InstructGPT de OpenAI, implica afinamiento supervisado seguido de aprendizaje por refuerzo a partir de retroalimentación humana.
Conclusión
Los LLMS han transformado la manera en que abordamos las tareas de procesamiento del lenguaje natural, desde su arquitectura hasta su aplicación en tareas específicas. A medida que estos modelos continúan evolucionando, es emocionante anticipar las nuevas fronteras que explorarán y las aplicaciones innovadoras que seguirán surgiendo en este emocionante campo de la inteligencia artificial.