lunes, mayo 18, 2026

SU MUNDO TV

SU MUNDO FM

Google se potencia con Gemini: conversaciones más humanas y precisas con voz

spot_imgspot_imgspot_imgspot_img

Google ha anunciado una actualización importante en su sistema de inteligencia artificial, presentando Gemini 2.5 Flash Native Audio, una nueva versión diseñada para mejorar las interacciones por voz. Este avance marca un significativo salto en naturalidad, precisión y eficiencia, con el objetivo de ofrecer experiencias de conversación más cercanas a una charla humana tanto para usuarios particulares como para empresas.

Novedades en la inteligencia artificial de Google

La versión reciente de Gemini incorpora mejoras en tres áreas clave: precisión en las funciones, mejor seguimiento de instrucciones y diálogos más fluidos. Este modelo avanzado es capaz de identificar cuándo necesita recabar información en tiempo real y de integrarla sin perder coherencia, lo que resulta fundamental para flujos de trabajo complejos o interacciones donde se requiere acceso dinámico a datos, como las llamadas de asistencia al cliente.

Las pruebas internas ubican a Gemini 2.5 Flash Native Audio como líder en la evaluación ComplexFuncBench Audio, alcanzando una tasa de éxito del 71,5 % en la gestión de funciones multietapa. Además, la tasa de cumplimiento de instrucciones ha llegado al 90 %, lo que mejora notablemente la satisfacción tanto de usuarios como desarrolladores en comparación con versiones anteriores.

Otro avance importante es la recuperación de contexto en conversaciones de varios turnos. Esto permite que el sistema retome temas previos de una manera coherente y fluida, acercándose a una interacción más humana.

Aplicaciones en el mundo real

Las aplicaciones empresariales de Gemini 2.5 ya están mostrando resultados tangibles. Shopify, por ejemplo, reportó que los usuarios a menudo olvidan que están conversando con un asistente virtual durante su primera interacción con el sistema Sidekick. Esta naturalidad es una característica clave que facilita la adopción de la inteligencia artificial en sectores como el comercio electrónico.

En el sector financiero, United Wholesale Mortgage (UWM) destacó que Gemini ha ayudado a generar más de 14,000 préstamos gracias a su capacidad de gestionar llamadas complejas con eficiencia. Por su parte, el proveedor de soluciones de inteligencia artificial Newo.ai explicó que la actualización de Gemini, a través de Vertex AI, ha permitido que sus recepcionistas virtuales identifiquen al hablante principal, incluso en ambientes ruidosos, y cambien de idioma durante la conversación, todo manteniendo una expresividad natural.

Traducción en vivo y capacidades multilingües

Una de las funciones más prometedoras de Gemini 2.5 es su capacidad de traducción simultánea de voz. Ahora, Gemini puede traducir conversaciones en tiempo real entre dos personas que hablan distintos idiomas, sin perder la entonación, ritmo ni tono original. Esta tecnología permite que, utilizando auriculares, los usuarios puedan entender el habla circundante en el idioma elegido, haciendo la comunicación fluida incluso en ambientes con ruido.

El sistema soporta más de 70 idiomas y 2,000 pares de traducción, y su entrada multilingüe permite procesar varios idiomas en una sola sesión. Gracias a su capacidad de detección automática de idiomas, Gemini inicia la traducción sin necesidad de configuraciones manuales, lo que simplifica enormemente la experiencia.

Además, la herramienta filtra los ruidos ambientales, mejorando su efectividad en exteriores o en lugares concurridos, lo que amplía sus posibilidades de uso en situaciones cotidianas.

Disponibilidad y expansión

La nueva función de traducción en vivo de Gemini ya está disponible en versión beta a través de la aplicación Google Translate para dispositivos Android en Estados Unidos, México e India, con planes de expansión a más países y a plataformas iOS. Google anticipa que esta experiencia se integrará progresivamente en otras plataformas, incluyendo la API de Gemini, a lo largo de 2026.

El futuro de las interacciones por voz y la inteligencia artificial

La mejora en la naturalidad de las conversaciones, la precisión en el seguimiento de instrucciones y la capacidad de ofrecer traducción de voz en tiempo real con matices auténticos posicionan a Gemini como un referente en el desarrollo de inteligencia artificial aplicada a la interacción humana. Con esta evolución, Google no solo busca enriquecer la experiencia del usuario, sino también abrir nuevas aplicaciones en el mundo empresarial y en la comunicación global, consolidándose como líder en el ámbito de los asistentes de voz e inteligencia artificial.

Banner Banreservas


Suscríbete a nuestro newsletter

Recibe las últimas noticias en tu casilla de email.

ARTÍCULOS RELACIONADOS
- Anuncio -

Más popular