Tecno

El nuevo Gemini demuestra una ambición de Google: que hablemos sin parar con nuestro móvil

Google ha presentado este martes una renovada familia de teléfonos Pixel. Después de varios rumores y filtraciones, los Pixel 9, Pixel 9 Pro y Pixel 9 Pro XL ahora son oficiales. La compañía del buscador, no obstante, no se ha olvidado de la inteligencia artificial (IA), y ha dado a conocer varias novedades relacionadas a Gemini.

El mencionado asistente de AI abraza un sistema multimodal llamado Gemini Live que añade una serie de mejoras interesantes. Una de las más interesantes es un modo de voz que, en cierto modo, nos recuerda a lo último de ChatGPT. La promesa es que podremos conversar de manera natural con Gemini e incluso interrumpirle.

Gemini, el asistente de AI de Google, tiene un nuevo modo de voz

Antes de este lanzamiento ya podíamos hablarle a Gemini, pero el nuevo modelo quiere destacar por elementos como la fluidez (con baja latencia) y la multimodalidad. En primer lugar, el asistente promete entender el contexto y tiene cierta información sobre nosotros que puede ayudarle a hacer mejor las tareas que le pidamos.

Por ejemplo, podremos pedirle a Gemini en lenguaje natural que cree un nuevo recordatorio y añada un evento a nuestro calendario. Aquí hay dos ventajas evidentes. Si bien podíamos hacer esto antes con Google Assistant, teníamos que limitarnos a utilizar un lenguaje muy estructurado, comandos para que el móvil nos entendiera.

Captura De Pantalla 2024 08 13 A Las 14 30 13

Esta limitación está desapareciendo con el nuevo modelo. Por otra parte, la versión de Gemini que podíamos utilizar hasta este momento no nos permitía realizar acciones sobre el sistema. Era básicamente un espejo de lo que podíamos hacer en la versión web. Ahora, no obstante, asume el rol de un verdadero asistente en nuestro móvil.

Captura De Pantalla 2024 08 13 A Las 14 46 45

Gracias a su integración con Android, Gemini promete hacer mucho más que simplemente leer la pantalla: permite interactuar con varias de las aplicaciones que utilizamos a diario. Por ejemplo, tendremos la capacidad de arrastrar y soltar imágenes generadas por Gemini directamente en aplicaciones como Gmail y Mensajes.

A nivel de multimodalidad, Gemini ahora puede entender una imagen y, producto de esta capacidad, puede conversar con nosotros sobre ella. En este caso podremos tomar una fotografía de una cita médica y pedirle al asistente que creen un evento en relación a la información que ve en la fotografía. Parece algo realmente práctico y útil.

Gemi Live también deja atrás las voces con ciertas características robóticas y da paso a 10 nuevas voces que suenan mucho más naturales. Cabe señalar que esta novedad está disponible, al menos de momento, en idioma inglés para los usuarios de Android que pagan por Gemini Advanced. Google dice que "en las próximas semanas" llegará a iOS.

Pixel Screenshots, un aliado de las capturas de pantalla

La mayoría de las veces que hacemos capturas de pantalla buscamos conservar cierta información para utilizarla más tarde. Esto no es ningún secreto. Google, a través de una función llamada Pixel Screenshots, quiere que sea más sencillo utilizar esta información. Se trata de una novedad que está impulsada por Gemini Nano completamente en local.

Gemini Pixel 1

Cada vez que guardemos una captura de pantalla en un teléfono Pixel, el equipo extraerá toda la información que encuentre, como direcciones, artículos y precios. También asociará los metadatos que le acompañan, como la aplicación o la página web a la que corresponde la captura y la fecha en la que fue realizada. Todo quedará almacenado en Pixel Screenshots.

Al abrir la aplicación Pixel Screenshots nos encontraremos con varias opciones que nos invitarán a aprovechar la información obtenida a través de las capturas de pantalla. Por ejemplo, los algoritmos nos permitirán agruparlas por ideas o temas. También podremos añadirles etiquetas para identificarlas fácilmente más tarde. Las capturas parecen estar evolucionando.

Cuidado con enamorarte de tu chatbot: en OpenAI alertan de que GPT-4o puede reducir la necesidad de socializar con seres humanos En Xataka Cuidado con enamorarte de tu chatbot: en OpenAI alertan de que GPT-4o puede reducir la necesidad de socializar con seres humanos

La aplicación, impulsada por Gemini, también nos permitirá interactuar con la información de nuestras capturas de pantalla. Si queremos encontrar el número de seguimiento de un paquete simplemente deberíamos hacer una pregunta en lenguaje natural para obtener lo que deseamos, siempre acompañado de la imagen original de donde proviene la información.

Imágenes | Google

En Xataka | Prompt Poet es la última herramienta que ha comprado Google. La ingeniería de 'prompts' sube enteros


La noticia El nuevo Gemini demuestra una ambición de Google: que hablemos sin parar con nuestro móvil fue publicada originalmente en Xataka por Javier Marquez .

Publicaciones relacionadas

Botón volver arriba