Un desglose técnico detallado sobre la frontera de los modelos abiertos de Google.
El lanzamiento de Gemma 4 el 2 de abril de 2026 ha cambiado las reglas del juego para la IA de código abierto. A diferencia de sus predecesores, Gemma 4 no es solo un modelo, sino una familia diseñada para escalar desde dispositivos IoT hasta servidores de alto rendimiento, manteniendo una densidad de inteligencia sin precedentes gracias a innovaciones en la transferencia de conocimiento de Gemini 3.
La arquitectura se divide en dos niveles: Edge Tier (para dispositivos locales) y Workstation Tier (para servidores). Esta distinción no es solo de tamaño, sino de arquitectura fundamental.
| Modelo | Arquitectura | Parámetros Totales | Parámetros Activos | Contexto |
|---|---|---|---|---|
| Gemma 4 - E2B | Densa + PLE | 5.1B | 2.3B | 128K |
| Gemma 4 - E4B | Densa + PLE | 8.0B | 4.5B | 128K |
| Gemma 4 - 26B A4B | MoE (Mixture of Experts) | 26.0B | ~3.8B - 4.0B | 256K |
| Gemma 4 - 31B | Densa Clásica | 30.7B | 30.7B | 256K |
Para los modelos pequeños (E2B y E4B), Google ha introducido los Per-Layer Embeddings. Tradicionalmente, un modelo usa una sola matriz de embeddings. Gemma 4 utiliza una matriz específica para cada capa del decodificador, lo que permite una especialización semántica mucho mayor sin aumentar el costo de cálculo por token.
El modelo intermedio utiliza una arquitectura de Mezcla de Expertos. En lugar de procesar cada token a través de todos los parámetros, utiliza un enrutador inteligente que selecciona solo a los mejores "especialistas".
Gemma 4 utiliza un mecanismo de Atención Híbrida. Alterna entre capas de Atención de Ventana Deslizante (Local) y Atención Global. Esto permite manejar ventanas de contexto inmensas (256K tokens) sin que el uso de memoria RAM se dispare exponencialmente.
Además, es Nativamente Multimodal. A diferencia de otros modelos que "pegan" un codificador de visión, Gemma 4 ha sido entrenado desde cero para entender: