Aprende conmigo

La Arquitectura de Gemma 4

Un desglose técnico detallado sobre la frontera de los modelos abiertos de Google.

El lanzamiento de Gemma 4 el 2 de abril de 2026 ha cambiado las reglas del juego para la IA de código abierto. A diferencia de sus predecesores, Gemma 4 no es solo un modelo, sino una familia diseñada para escalar desde dispositivos IoT hasta servidores de alto rendimiento, manteniendo una densidad de inteligencia sin precedentes gracias a innovaciones en la transferencia de conocimiento de Gemini 3.

1. Taxonomía y Variantes de la Familia

La arquitectura se divide en dos niveles: Edge Tier (para dispositivos locales) y Workstation Tier (para servidores). Esta distinción no es solo de tamaño, sino de arquitectura fundamental.

Modelo	Arquitectura	Parámetros Totales	Parámetros Activos	Contexto
Gemma 4 - E2B	Densa + PLE	5.1B	2.3B	128K
Gemma 4 - E4B	Densa + PLE	8.0B	4.5B	128K
Gemma 4 - 26B A4B	MoE (Mixture of Experts)	26.0B	~3.8B - 4.0B	256K
Gemma 4 - 31B	Densa Clásica	30.7B	30.7B	256K

2. Innovación en el Edge: Per-Layer Embeddings (PLE)

Para los modelos pequeños (E2B y E4B), Google ha introducido los Per-Layer Embeddings. Tradicionalmente, un modelo usa una sola matriz de embeddings. Gemma 4 utiliza una matriz específica para cada capa del decodificador, lo que permite una especialización semántica mucho mayor sin aumentar el costo de cálculo por token.

graph TD Input[Token de Entrada] --> Tokenizer Tokenizer --> ID[ID Numérico] subgraph PLE_Architecture [Arquitectura Per-Layer Embeddings] ID --> L1[Embeddings Capa 1] ID --> L2[Embeddings Capa 2] ID --> LN[Embeddings Capa N] end L1 --> Block1[Bloque Transformer 1] L2 --> Block2[Bloque Transformer 2] LN --> BlockN[Bloque Transformer N]

Dato clave: Esto explica por qué el modelo E2B tiene 5.1B de parámetros físicos pero solo 2.3B son "efectivos" en términos de cómputo. El resto son tablas de búsqueda de alta eficiencia.

3. Mixture of Experts (MoE) en el modelo 26B A4B

El modelo intermedio utiliza una arquitectura de Mezcla de Expertos. En lugar de procesar cada token a través de todos los parámetros, utiliza un enrutador inteligente que selecciona solo a los mejores "especialistas".

Expertos Totales: 128 pequeños expertos.
Expertos Activos: Solo 8 se activan por cada token.
Beneficio: Inteligencia de nivel 27B con la velocidad de un modelo de 4B.

graph LR Token[Token de entrada] --> Router{Enrutador} Router -->|Top 8| E1[Experto 1] Router -->|Top 8| E2[Experto 2] Router -->|Top 8| E8[Experto 8] E1 --> Agg[Agregación de Pesos] E2 --> Agg E8 --> Agg Agg --> Output[Salida de la Capa]

4. Atención Híbrida y Capacidades Multimodales

Gemma 4 utiliza un mecanismo de Atención Híbrida. Alterna entre capas de Atención de Ventana Deslizante (Local) y Atención Global. Esto permite manejar ventanas de contexto inmensas (256K tokens) sin que el uso de memoria RAM se dispare exponencialmente.

Además, es Nativamente Multimodal. A diferencia de otros modelos que "pegan" un codificador de visión, Gemma 4 ha sido entrenado desde cero para entender:

Imágenes: OCR multilingüe, análisis de gráficas y comprensión de interfaces de usuario.
Video: Análisis secuencial de hasta 60 segundos.
Audio (Modelos E): Reconocimiento de voz y traducción directa integrada.

La Arquitectura de Gemma 4

1. Taxonomía y Variantes de la Familia

2. Innovación en el Edge: Per-Layer Embeddings (PLE)

3. Mixture of Experts (MoE) en el modelo 26B A4B

4. Atención Híbrida y Capacidades Multimodales

📚 Referencias y Profundización

🏛️ Blogs Oficiales y Repositorios

📖 Documentación Técnica y Guías

⚙️ Modelos y Configuración en Hugging Face

💬 Análisis Comunitario y Discusiones