Tras diez años de investigación, llegó el lanzamiento de Gemini 1.5 Pro o, como le dice el CEO, "la versión de Google del Eras Tour pero con menos vestuarios". ¿Será así de iconic?
Además de innovar en investigación, productos e infraestructura y crear oportunidades para desarrolladores, creadores, startups y más, Google le puso el ojo a esta tecnología que nos tiene embobados entre su lado funcional y el miedo a perder funciones humanas. Para este mismo momento del año pero en 2023, Google había anunciado Gemini y, al día de hoy, más de 1.5 millones de desarrolladores lo utilizan en sus herramientas para depurar código, obtener estadísticas y crear la nueva generación de aplicaciones IA. Veamos de qué se trata.
¿Qué es la Google Gemini Era?
Gemini es un modelo front-end creado para ser nativamente multimodal que puede relacionar textos, imágenes, código y más. Esta herramienta es el último desarrollo de Google y ya está disponible para descargar en iOs y Android.
Esta “Era” que fue presentada hace poco más de una semana a nivel global está relacionada a la innovación que se estuvo desarrollando para expandir este modelo.
Uno de los cambios más emocionantes de Gemini es su impacto en las búsquedas. En el último año, se han respondido más de 1 millón de búsquedas con esta tecnología, permitiendo consultas más largas y complejas, y búsquedas con fotos para obtener resultados más precisos.
En Google Fotos, ahora se puede buscar imágenes con preguntas más naturales, como "cómo festejé mi cumpleaños en 2023", y obtener respuestas detalladas y visuales. La función "Ask Photos" fue lanzada el invierno pasado y ha ido incorporando más funcionalidades.
Gemini fue diseñado para ser multimodal desde el principio, comprendiendo y conectando diferentes tipos de entradas. Esto expande radicalmente las preguntas que podemos hacer y las respuestas que recibiremos, permitiendo incluir más contexto e información como miles de páginas de texto, horas de audio, videos largos o repositorios de código completos.
Entonces, ¿un video personal puede convertirse en una fuente de información para Google?
La respuesta es sí y algo de miedo nos da. Según los desarrolladores, "es el futuro de los modelos de lenguaje". La nueva versión de Gemini 1.5 Pro está disponible globalmente en 35 idiomas, ofreciendo 1 millón de tokens y trabajando hacia una ventana de 2 millones.
¿Cómo se ven reflejados estos cambios en Google Workspace?
Las búsquedas en Gmail se han simplificado y potenciado con Gemini, permitiendo resumir una serie de correos recientes y sus adjuntos, destacando los puntos clave. En Google Meet, si te perdiste una reunión, puedes solicitar a Gemini un resumen de la grabación. La frase "Esta reunión podría haber sido un mail" nunca fue tan literal. Además, Gemini ofrece prompts de redacción para facilitar las respuestas a correos.
En cuanto al audio, el año pasado se presentó NotebookLM, una herramienta de investigación y escritura utilizada por estudiantes y docentes. Con la integración de Gemini 1.5 Pro, se ha creado "Audio Overviews", una función que simula una clase en vivo con diferentes voces debatiendo y explicando temas, permitiendo preguntas y respuestas en tiempo real. Esto hace que la educación sea más accesible e interactiva.
Gemini puede transformar la información de cualquier formato de manera interactiva y personalizada. Según el CEO de Google, están trabajando para que este desarrollo sea privado, seguro y accesible, con el objetivo de hacer que la IA sea útil para todos.
Google continúa liderando el camino en innovación tecnológica con su modelo multimodal Gemini. Desde mejorar la precisión de las búsquedas hasta transformar la manera en que interactuamos con herramientas de productividad como Gmail y Google Meet, Gemini está allanando el camino para una nueva era de interacción tecnológica. ¿Qué te parecen este tipo de desarrollos? ¿Estamos avanzando hacia una vida más productiva, eficiente y ordenada o retrocediendo en cuanto a creatividad y razonamiento se trata?
Comments