¡Hola a todos! Bienvenidos a una nueva entrega de nuestra serie "Aprende conmigo". Hoy vamos a sumergirnos en los últimos avances de Microsoft AI (MAI). Microsoft tiene la visión de que la Inteligencia Artificial debe utilizarse para empoderar a cada persona en el planeta, creando una presencia de apoyo y ayuda siempre al servicio de la humanidad[cite: 9, 10]. Para lograr esto, están desarrollando modelos propios construidos con propósitos específicos[cite: 14]. ¡Vamos a conocer las estrellas de su reciente anuncio!
Antes de entrar en detalle, veamos cómo se estructuran las nuevas herramientas de Microsoft AI y dónde puedes interactuar con ellas. Aquí tienes un diagrama de la arquitectura de distribución:
graph TD
MAI[Microsoft AI] --> Voice[MAI-Voice-1]
MAI --> Text[MAI-1-preview]
Voice --> CD[Copilot Daily]
Voice --> Pod[Podcasts]
Voice --> CL[Copilot Labs]
Text --> LM[LMArena]
Text --> Copilot[Copilot Text Use Cases]
Text --> API[API para Trusted Testers]
style MAI fill:#0078D4,stroke:#005a9e,stroke-width:2px,color:#fff
style Voice fill:#f3f2f1,stroke:#ccc
style Text fill:#f3f2f1,stroke:#ccc
El primer gran lanzamiento es MAI-Voice-1, un modelo de generación de voz altamente expresivo y natural[cite: 15]. Microsoft considera que la voz será la interfaz del futuro para los compañeros de IA[cite: 16].
Este modelo destaca por su velocidad ultrarrápida: es capaz de generar un minuto completo de audio en menos de un segundo utilizando una sola GPU[cite: 24]. Esto lo convierte en uno de los sistemas de voz más eficientes disponibles en la actualidad[cite: 24].
MAI-Voice-1 ya está potenciando características como Copilot Daily y Podcasts, y se ha lanzado en Copilot Labs para demostraciones de narración de historias y discursos expresivos[cite: 25, 26].
En el frente del texto y el razonamiento, Microsoft ha iniciado las pruebas públicas de MAI-1-preview[cite: 17]. Este es el primer modelo fundacional de MAI entrenado de principio a fin[cite: 18].
El modelo utiliza una arquitectura Mixture-of-Experts (Mezcla de Expertos) y ha sido pre-entrenado y post-entrenado utilizando aproximadamente 15,000 GPUs NVIDIA H100[cite: 44]. Esta enorme capacidad de hardware le permite especializarse en seguir instrucciones y proporcionar respuestas útiles a consultas cotidianas de los usuarios[cite: 45].
Para sostener este nivel de innovación, Microsoft AI ha puesto en funcionamiento su clúster GB200 de próxima generación, marcando el camino para futuras capacidades computacionales que soportarán la próxima generación de modelos[cite: 52, 54].
| Característica | MAI-Voice-1 [cite: 15, 16, 24, 25] | MAI-1-preview [cite: 17, 44, 45, 46] |
|---|---|---|
| Tipo de Modelo | Generación de voz / Audio | Mixture-of-Experts (Texto/Fundacional) |
| Métrica Destacada | 1 minuto de audio en < 1 segundo (1 GPU) | Entrenado en ~15,000 GPUs NVIDIA H100 |
| Disponibilidad Actual | Copilot Daily, Podcasts, Copilot Labs | LMArena, API para testers, Próximamente en Copilot |
| Casos de Uso Principales | Narración de historias, interfaces conversacionales, meditaciones guiadas | Seguimiento de instrucciones, consultas cotidianas |
Explora más sobre estos lanzamientos en los enlaces oficiales extraídos de la publicación de Microsoft: