Hoy, en el maravilloso mundo de la IA; Una nueva contienda por la supremacía de los modelos fundacionales ha comenzado: la startup OpenAGI ha presentado Lux, un modelo que, según sus métricas, supera a los gigantes como OpenAI y Google en la automatización de tareas de ordenador.

Con un enfoque en la automatización de flujos de trabajo complejos de principio a fin, este lanzamiento intensifica la presión por agentes de IA realmente funcionales y autónomos.

¿Podría Lux, con sus métodos de entrenamiento, marcar el nuevo estándar para la productividad asistida por IA?

Resumen de noticias de hoy:

  • El modelo Lux de OpenAGI desafía a los grandes modelos de IA.

  • Google integra Gemini para traducción universal de voz en tiempo real.

  • Un estudio de CMU muestra que los agentes de IA fallan en tareas ofimáticas complejas.

  • Meta lanza herramientas para traducir video y sincronizar labios en Instagram.

Llega Lux, la nueva IA que controla tu ordenador

En resumen: Una nueva startup de IA, OpenAGI, ha lanzado un modelo fundacional llamado Lux, que afirman que supera a modelos líderes de Google, OpenAI y Anthropic en tareas de uso de ordenadores en el mundo real. Lux se centra en automatizar tareas complejas de principio a fin, buscando un nuevo estándar en la funcionalidad del agente.

Los Detalles:

  • OpenAGI asegura que Lux se destaca en tareas de uso del ordenador debido a un novedoso método de entrenamiento y una infraestructura altamente escalable.

  • La base técnica incluye el uso de OSGym, un motor de datos distribuido y superescalable que permite entrenar agentes en más de mil réplicas de sistemas operativos, a un costo accesible.

  • El entrenamiento de Lux emplea entornos dinámicos que simulan un amplio espectro de tareas de la vida real, incluyendo interacciones con navegadores y aplicaciones de oficina, utilizando repositorios de código abiertos como Online-Mind2Web.

Por qué importa: Este lanzamiento aumenta la presión por la supremacía de la IA fundacional y fuerza a los gigantes a innovar más rápidamente en capacidades de agente. Modelos como Lux permiten la automatización completa de flujos de trabajo profesionales, lo que podría redefinir la productividad de los usuarios de tecnología.

Google Translate se vuelve 'Universal' con Gemini: La traducción en tiempo real.

En resumen: Google está integrando las capacidades de su modelo Gemini en Google Translate, ofreciendo una experiencia beta de traducción de voz a voz en tiempo real que se sincroniza con tus auriculares, acercando la realidad del soñado "Pez de Babel".

Los Detalles:

  • Google está mejorando la calidad de la traducción de texto en Search y la aplicación Translate, utilizando las capacidades más avanzadas de Gemini para generar traducciones más naturales y precisas.

  • La nueva funcionalidad ofrece una traducción en vivo directamente a los auriculares, utilizando las nuevas y nativas capacidades de Gemini para traducción de voz a voz.

  • Esta mejora no solo traduce las palabras, sino que también busca preservar los matices y la cadencia del hablante original, facilitando una comprensión verdadera y contextual.

Por qué importa: La traducción instantánea y matizada a través de auriculares elimina una de las mayores barreras en la comunicación global, liberando a los profesionales para colaborar a través de fronteras lingüísticas. Esta tecnología permite a los usuarios interactuar con naturalidad, haciendo parecer obsoletos a los traductores automáticos tradicionales.

La cruda realidad de los agentes de IA: ¿listos para el trabajo?

En resumen: Un estudio reciente de la Universidad Carnegie Mellon (CMU) reveló que, incluso los agentes de IA más competitivos aún tienen problemas para completar la mayoría de las tareas de ofimática cotidianas en un entorno de trabajo simulado.

Los Detalles:

  • El estudio simuló una pequeña empresa de software, TheAgentCompany, para medir el progreso de los agentes de modelos de lenguaje grandes (LLM) al ejecutar tareas profesionales del mundo real como navegar por la web, escribir código y comunicarse con compañeros de trabajo.

  • El agente de IA con mejor rendimiento solo pudo completar un 24% de las tareas laborales dentro del entorno de la empresa simulada, lo que destaca las dificultades con la navegación e interacción.

  • Los investigadores de CMU construyeron este benchmark para evaluar cómo los agentes de IA se desempeñan en tareas consecuentes al interactuar con el mundo como lo haría un trabajador digital, utilizando sitios web internos y datos para imitar un entorno de trabajo real, según su trabajo presentado en arXiv.

Por qué importa: Este estudio establece una expectativa más realista sobre la capacidad actual de la IA para la automatización laboral autónoma a corto plazo. Si bien los agentes de IA pueden resolver tareas más sencillas, las flaquezas persistentes en la navegación y las tareas complejas de largo alcance demuestran que todavía no reemplazan a gran parte de las tareas de los profesionales.

La IA de Meta traduce video y sincroniza labios

En resumen: Meta ha lanzado una característica de IA en Instagram que permite a los usuarios traducir el audio de los videos con un solo clic, sincronizando automáticamente los labios del hablante con el nuevo idioma, una capacidad que acelera la creación de contenido global y eleva la barra de los deepfakes.

Los Detalles:

  • Esta nueva función integrada en Instagram hace que crear videos multilingües sea accesible para cualquier usuario, permitiendo expandir el alcance de creadores de contenido a audiencias internacionales.

  • La tecnología no solo sustituye el audio, sino que también sincroniza el movimiento de los labios del hablante, lo cual es lo más sorprendente de esta herramienta de Meta.

  • Aunque ofrece usos interesantes para creadores y empresas que buscan comunicarse a nivel mundial, esta misma capacidad plantea preguntas importantes sobre la facilidad con la que se pueden crear deepfakes y manipular videos.

Por qué importa: Esta herramienta demuestra cómo la IA está eliminando rápidamente las barreras lingüísticas en el contenido audiovisual y haciendo que la distribución global sea instantánea. Veremos un aumento masivo de videos doblados y localizados, cambiando la forma en que el contenido se consume en todo el mundo.

Otras noticIAs de hoy

Google lanzó su experimento Disco, una nueva función que utiliza GenTabs para transformar sesiones de navegación saturadas en herramientas interactivas y específicas impulsadas por Gemini 3.

Expertos detallan cómo la automatización de la escritura ha 'diezmado' la industria del copywriting freelance, forzando a profesionales a editar borradores de IA por tarifas drásticamente reducidas.

Meta decodificó imágenes y texto de alta fidelidad directamente del campo magnético del cerebro (MEG) utilizando modelos de IA, sugiriendo que el campo es un análogo de alta resolución del estado mental actual.

Keep Reading

No posts found