¿Qué es un modelo fundacional?
Entrenados con conjuntos de datos masivos, los modelos fundacionales (FM) son redes neuronales de aprendizaje profundo que cambiaron la forma en que los científicos abordan el machine learning (ML). En lugar de desarrollar la inteligencia artificial (IA) desde cero, los científicos de datos utilizan un modelo fundacional como punto de partida para desarrollar modelos de ML que impulsen aplicaciones nuevas de manera rápida y rentable. El término modelo fundacional fue acuñado por los investigadores para describir los modelos de ML entrenados en un amplio espectro de datos generalizados y sin etiquetar y capaces de realizar una gran variedad de tareas generales como comprender el lenguaje, generar texto e imágenes y conversar en lenguaje natural.
¿Qué tienen de especial los modelos fundacionales?
Una característica única de los modelos básicos es su adaptabilidad. Estos modelos pueden realizar una amplia gama de tareas dispares con un alto grado de precisión en función de las indicaciones de entrada. Algunas tareas incluyen el procesamiento de lenguaje natural (NLP), la respuesta a preguntas y la clasificación de imágenes. El tamaño y la naturaleza de uso general de los modelos básicos los diferencian de los modelos de machine learning tradicionales, que suelen realizar tareas específicas, como analizar texto en busca de opiniones, clasificar imágenes y pronosticar tendencias.
Puede utilizar los modelos fundacionales como modelos de base para desarrollar aplicaciones posteriores más especializadas. Estos modelos son la culminación de más de una década de trabajo que los vio aumentar en tamaño y complejidad.
Por ejemplo, BERT, uno de los primeros modelos fundacionales bidireccionales, se lanzó en 2018. Se entrenó con 340 millones de parámetros y un conjunto de datos de entrenamiento de 16 GB. En 2023, solo cinco años después, OpenAI entrenó el GPT-4 mediante la utilización de 170 billones de parámetros y un conjunto de datos de entrenamiento de 45 GB. Según OpenAI, la potencia de cómputo requerida para el modelado fundacional se ha duplicado cada 3,4 meses desde 2012. Los modelos fundacionales actuales, como los modelos de lenguaje de gran tamaño (LLM) Claude 2 y Llama 2, y el modelo de conversión de texto a imagen Stable Diffusion de Stability AI, pueden realizar una serie de tareas listas para usar que abarcan múltiples dominios, como escribir publicaciones de blog, generar imágenes, resolver problemas matemáticos, entablar diálogos y responder preguntas basadas en un documento.
Más información sobre los modelos de lenguaje de gran tamaño »
¿Por qué es importante el modelado fundacional?
Los modelos fundacionales están preparados para cambiar significativamente el ciclo de vida del machine learning. Aunque actualmente cuesta millones de dólares desarrollar un modelo fundacional desde cero, son útiles a largo plazo. Es más rápido y económico para los científicos de datos utilizar modelos fundacionales preentrenados para desarrollar nuevas aplicaciones de machine learning que entrenar modelos únicos de machine learning desde cero.
Un uso potencial es la automatización de tareas y procesos, especialmente aquellos que requieren capacidades de razonamiento. Estas son algunas aplicaciones de los modelos fundacionales:
- Servicio de atención a clientes
- Traducción de idiomas
- Generación de contenidos
- Redacción de textos publicitarios
- Clasificación de imágenes
- Creación y edición de imágenes de alta resolución
- Extracción de documentos
- Robótica
- Sanidad
- Vehículos autónomos
¿Cómo funcionan los modelos fundacionales?
Los modelos fundacionales son una forma de inteligencia artificial generativa (IA generativa). Ellos generan resultados a partir de una o más entradas (indicaciones) en forma de instrucciones en lenguaje humano. Los modelos se basan en redes neuronales complejas, que incluyen las redes generativas antagónicas (GAN), los transformadores y los codificadores variacionales.
Si bien cada tipo de red funciona de manera diferente, los principios en los que se basa su funcionamiento son similares. En general, un modelo fundacional utiliza relaciones y patrones aprendidos para predecir el siguiente elemento de una secuencia. Por ejemplo, con la generación de imágenes, el modelo analiza la imagen y crea una versión de ella más nítida y definida. Del mismo modo, con texto, el modelo predice la siguiente palabra de una cadena de texto en función de las palabras anteriores y su contexto. Luego, selecciona la siguiente palabra mediante el uso de técnicas de distribución de probabilidad.
Los modelos fundacionales utilizan el aprendizaje autosupervisado para crear etiquetas a partir de los datos de entrada. Esto significa que nadie instruyó ni entrenó el modelo con conjuntos de datos de entrenamiento etiquetados. Esta característica separa a los LLM de las arquitecturas de ML anteriores, que utilizan el aprendizaje supervisado o no supervisado.
¿Qué pueden hacer los modelos fundacionales?
Los modelos fundacionales, aunque estén preentrenados, pueden seguir aprendiendo de las entradas de datos o las indicaciones que reciben durante la inferencia. Esto significa que es posible desarrollar resultados integrales a través de indicaciones cuidadosamente seleccionadas. Las tareas que pueden realizar los modelos fundacionales incluyen el procesamiento del lenguaje, la comprensión visual, la generación de código y la participación centrada en las personas.
Procesamiento del lenguaje natural
Estos modelos tienen capacidades notables para responder preguntas en lenguaje natural e, incluso, la capacidad de escribir guiones o artículos cortos en respuesta a las indicaciones. También pueden traducir idiomas mediante tecnologías de NLP.
Comprensión visual
Los modelos fundacionales se destacan en la visión artificial, especialmente, en lo que respecta a la identificación de imágenes y objetos físicos. Estas capacidades pueden utilizarse en aplicaciones como las de conducción autónoma y robótica. Otra capacidad es la generación de imágenes a partir del texto introducido, así como la edición de fotos y videos.
Generación de código
Los modelos fundacionales pueden generar código de computadora en varios lenguajes de programación en función de las entradas de lenguaje natural. También es posible utilizar los modelos fundacionales para evaluar y depurar el código.
Compromiso centrado en las personas
Los modelos de IA generativa utilizan los datos de entrada humanos para aprender y mejorar las predicciones. Una aplicación importante y que, a veces, se pasa por alto es la capacidad de estos modelos para apoyar la toma de decisiones humanas. Los usos potenciales incluyen diagnósticos clínicos, sistemas de apoyo a la toma de decisiones y análisis.
Otra capacidad es el desarrollo de nuevas aplicaciones de IA mediante el ajuste de los modelos fundacionales existentes.
Voz a texto
Dado que los modelos básicos entienden el idioma, se pueden utilizar para tareas de conversión de voz a texto, como la transcripción y la subtitulación de videos en varios idiomas.
¿Cuáles son algunos ejemplos de modelos fundacionales?
La cantidad y el tamaño de los modelos fundacionales en el mercado han crecido a un ritmo acelerado. Ahora hay docenas de modelos disponibles. Aquí hay una lista de modelos fundacionales destacados lanzados desde 2018.
BERT
Bidirectional Encoder Representations from Transformers (BERT) se lanzó en 2018 y fue uno de los primeros modelos fundacionales. BERT es un modelo bidireccional que analiza el contexto de una secuencia completa y luego hace una predicción. Se entrenó con un corpus de texto sin formato y Wikipedia y se utilizaron 3300 millones de tokens (palabras) y 340 millones de parámetros. BERT puede responder preguntas, predecir oraciones y traducir textos.
GPT
El modelo Generative Pre-trained Transformer (GPT) fue desarrollado por OpenAI en 2018. Utiliza un decodificador transformador de 12 capas con un mecanismo de autoatención. Se entrenó con el conjunto de datos BookCorpus, que contiene más de 11 000 novelas gratuitas. Una característica destacable del GPT-1 es la capacidad de llevar a cabo el aprendizaje zero-shot.
GPT-2 se lanzó en 2019. Para entrenarlo, OpenAI utilizó 1500 millones de parámetros (en comparación con los 117 millones de parámetros utilizados con GPT-1). GPT-3 tiene una red neuronal de 96 capas y 175 000 millones de parámetros. Se entrena con el conjunto de datos Common Crawl de 500 000 millones de palabras. El popular chatbot ChatGPT está basado en GPT-3.5. Y GPT-4, la versión más reciente, se lanzó a finales de 2022 y aprobó con éxito el examen uniforme de abogacía con una puntuación de 297 (76 %).
Amazon Titan
Los modelos fundacionales de Amazon Titan se preentrenan con conjuntos de datos de gran tamaño, lo que los convierte en modelos potentes y de uso general. Se pueden usar como vienen o se pueden personalizar de forma privada con datos específicos de la empresa para una tarea en particular sin anotar grandes volúmenes de datos. Inicialmente, Titan ofrece dos modelos. El primero, es un LLM generativo para tareas como la creación de resúmenes, la generación de texto, la clasificación, las preguntas y las respuestas abiertas y la extracción de información. El segundo, es un LLM de incrustaciones que traduce las entradas de texto, incluidas palabras, frases y grandes unidades de texto, en representaciones numéricas (conocidas como incrustaciones) que contienen el significado semántico del texto. Si bien este LLM no genera texto, es útil para aplicaciones como las de personalización y búsqueda, ya que al comparar las incrustaciones, el modelo produce respuestas más relevantes y contextuales que la coincidencia de palabras. Para seguir apoyando las prácticas recomendadas sobre el uso responsable de la IA, los modelos fundacionales de Titan están diseñados para detectar y eliminar el contenido perjudicial de los datos, rechazar el contenido inapropiado en las entradas de los usuarios y filtrar las salidas de los modelos que incluyen contenido inapropiado, como discursos de odio, blasfemias y violencia.
AI21 Jurassic
Jurassic-1 se lanzó en 2021 y es un modelo de lenguaje de regresión automática de 76 capas con 178 000 millones de parámetros. Jurassic-1 genera texto similar al de un humano y resuelve tareas complejas. Su rendimiento es comparable al de GPT-3.
En marzo de 2023, AI21 Labs lanzó Jurassic-2, que mejoró el seguimiento de las instrucciones y las capacidades lingüísticas.
Claude
Claude 3.5 Sonnet
El modelo más inteligente y avanzado de Anthropic, Claude 3.5 Sonnet, demuestra capacidades excepcionales en una amplia gama de tareas y evaluaciones, además de superar al Claude 3 Opus.
Claude 3 Opus
Opus es un modelo altamente inteligente que ofrece un rendimiento fiable para la realización de tareas complejas. Es capaz de funcionar con peticiones abiertas y en escenarios nunca antes vistos con una fluidez notable y una comprensión similar a la humana. Con Opus puede automatizar las tareas y acelerar la investigación y el desarrollo en una amplia gama de casos de uso y sectores.
Claude 3 Haiku
Haiku es el modelo más rápido y compacto de Anthropic, con una capacidad de respuesta casi instantánea. Haiku es la mejor opción para crear experiencias de IA fluidas que imiten las interacciones humanas. Las empresas pueden usar Haiku para moderar el contenido, optimizar la administración del inventario, producir traducciones rápidas y precisas, resumir datos no estructurados y mucho más.
Cohere
Cohere tiene dos LLM: uno es un modelo de generación con capacidades similares a las del GPT-3 y el otro es un modelo de representación destinado a la comprensión de idiomas. Aunque Cohere tiene solo 52 000 millones de parámetros, supera a GPT-3 en muchos aspectos.
Stable Diffusion
Stable Diffusion es un modelo de conversión de texto a imagen que puede generar imágenes de alta definición y aspecto realista. Se lanzó en 2022 y tiene un modelo de difusión que utiliza tecnologías de generación y eliminación de ruido para aprender a crear imágenes.
El modelo es más pequeño que las tecnologías de difusión de la competencia, como el DALL-E 2, lo que significa que no necesita una infraestructura informática extensa. Stable Diffusion se puede ejecutar en una tarjeta gráfica normal o incluso en un teléfono inteligente con una plataforma Snapdragon Gen2.
Obtenga más información sobre Stable Diffusion »
BLOOM
BLOOM es un modelo multilingüe con una arquitectura similar a la de GPT-3. Se desarrolló en 2022 como un esfuerzo de colaboración en el que participaron más de mil científicos y el equipo de Hugging Space. El modelo tiene 176 000 millones de parámetros y el entrenamiento duró tres meses y medio con 384 GPU Nvidia A100. Aunque el punto de control de BLOOM requiere 330 GB de almacenamiento, se puede ejecutar en una PC independiente con 16 GB de RAM. BLOOM puede crear texto en 46 idiomas y escribir código en 13 lenguajes de programación.
Hugging Face
Hugging Face es una plataforma que ofrece herramientas de código abierto para crear e implementar modelos de machine learning. Actúa como un centro comunitario, y los desarrolladores pueden compartir y explorar modelos y conjuntos de datos. La membresía para individuos es gratuita, aunque las suscripciones pagas ofrecen niveles de acceso superiores. Tiene acceso público a casi 200 000 modelos y 30 000 conjuntos de datos.
¿Cuáles son los desafíos de los modelos fundacionales?
Los modelos fundacionales pueden responder de manera coherente a las indicaciones sobre temas en los que no se los ha entrenado explícitamente. Sin embargo, tienen ciertas debilidades. Estos son algunos de los desafíos a los que se enfrentan los modelos fundacionales:
- Requisitos de infraestructura. Diseñar un modelo fundacional desde cero es costoso y requiere de enormes recursos; además, el entrenamiento puede llevar meses.
- Desarrollo de frontend. Para las aplicaciones prácticas, los desarrolladores deben integrar los modelos fundacionales a una pila de software, incluidas las herramientas para la ingeniería de indicaciones, el ajuste y la ingeniería de canalizaciones.
- Falta de comprensión. Si bien pueden proporcionar respuestas correctas desde el punto de vista gramatical y fáctico, los modelos fundacionales tienen dificultades para comprender el contexto de una indicación. Además, no tienen en cuenta los aspectos sociales ni psicológicos.
- Respuestas poco fiables. Las respuestas a las preguntas sobre un tema determinado pueden ser poco fiables y, a veces, inapropiadas, tóxicas o incorrectas.
- Sesgo. El sesgo es una posibilidad clara, ya que los modelos pueden captar el discurso de odio y los matices inapropiados de los conjuntos de datos de entrenamiento. Para evitar esto, los desarrolladores deben filtrar cuidadosamente los datos de entrenamiento y codificar normas específicas en sus modelos.
¿De qué manera AWS puede ayudar?
Amazon Bedrock es la forma más fácil de crear y escalar aplicaciones de IA generativa con modelos fundacionales. Amazon Bedrock es un servicio totalmente administrado que permite que los modelos fundacionales de Amazon y de las principales startups de IA estén disponibles a través de una API, de modo que pueda elegir de entre varios modelos fundacionales para encontrar el que mejor se adapte a su caso de uso. Con Bedrock, puede acelerar el desarrollo y el despliegue de aplicaciones de IA generativa escalables, confiables y seguras sin administrar la infraestructura.
Amazon SageMaker JumpStart, que es un centro de ML que ofrece modelos, algoritmos y soluciones, proporciona acceso a cientos de modelos fundacionales, incluidos aquellos de mejor rendimiento disponibles públicamente. Se siguen agregando nuevos modelos fundacionales, incluidos Llama 2, Falcon, y Stable Diffusion XL 1.0.
Siguientes pasos en AWS
Obtenga acceso instantáneo al nivel Gratuito de AWS.
Comience a crear en la consola de administración de AWS.