OpenAI lanza nuevas funciones de inteligencia vocal en su API
La compañía anunció la incorporación de modelos que permiten hablar, transcribir y traducir conversaciones en tiempo real.

OpenAI presentó este jueves una serie de funciones de inteligencia vocal en su API, diseñadas para que los desarrolladores creen aplicaciones que puedan conversar, transcribir y traducir en tiempo real. La novedad principal es GPT‑Realtime‑2, un modelo de voz que simula una vocalización realista y puede mantener diálogos complejos gracias a un razonamiento similar al GPT‑5.
Además, lanzaron GPT‑Realtime‑Translate, una herramienta que ofrece traducción instantánea en más de 70 idiomas de entrada y 13 de salida, permitiendo mantener conversaciones fluidas sin importar el idioma. También introdujeron GPT-Realtime-Whisper, que permite convertir en texto las conversaciones en vivo, facilitando transcripciones precisas en tiempo real.
OpenAI explicó que estos modelos avanzan de simples respuestas a llamadas y respuestas hacia interfaces de voz que pueden escuchar, razonar, traducir, transcribir y actuar durante una conversación. La empresa aseguró que estas funciones tienen aplicaciones en atención al cliente, educación, medios, eventos y plataformas de creadores, entre otros ámbitos.
Por supuesto, también reconocieron los riesgos potenciales y afirmaron que implementaron medidas para evitar abusos, como spam o fraudes, incluyendo filtros que detienen conversaciones que violen sus directrices de contenido dañino.
Las nuevas funciones llevan el audio en tiempo real desde respuestas simples hacia interfaces de voz que pueden escuchar, razonar, traducir, transcribir y actuar en una conversación.
Estas innovaciones amplían las capacidades de la API de OpenAI, que ahora incluye modelos que pueden integrarse en sistemas de atención, educación y plataformas de creación, abriendo nuevas posibilidades para la interacción con la inteligencia artificial.
Temas de la nota
Notas relacionadas

Google lanza Gemma 4 12B: IA local para tu laptop con 16GB de RAM
El nuevo modelo de inteligencia artificial de Google busca democratizar el acceso a la IA generativa, permitiendo su ejecución en computadoras de consumo promedio.

Nvidia desafía a Intel y AMD con el superchip RTX Spark para PC
Nvidia presentó RTX Spark, un procesador que promete llevar la inteligencia artificial avanzada directamente a tu PC, sin depender de la nube, y potenciar el gaming a niveles nunca vistos en equipos convencionales.

Claude Opus 4.8 de Anthropic mejora la "honestidad" y reduce errores en código
El nuevo modelo de inteligencia artificial de Anthropic, Claude Opus 4.8, se lanza este jueves con un enfoque en la transparencia y la reducción de fallas, ofreciendo a los usuarios mayor control sobre el esfuerzo computacional.
Últimas noticias
Ver todas
Stuntman Hollywood: regresa tras 19 años de silencio en PS5, Xbox Series y PC
La icónica saga de acción y acrobacias vehiculares vuelve de la mano de Saber Interactive, prometiendo una dosis de nostalgia y adrenalina para la nueva generación.

La sonda Maven de la NASA declarada fuera de servicio tras seis meses sin comunicación
Después de una anomalía que interrumpió su órbita y agotó sus baterías, la nave Maven, crucial para entender la atmósfera de Marte, finaliza su misión activa. Sus datos seguirán siendo un legado invaluable para la ciencia.

Windows abandona NTLM: Microsoft refuerza la seguridad con Kerberos
Microsoft está dando un paso crucial para fortalecer la seguridad en Windows 11, anunciando el abandono de NTLM, su protocolo de autenticación más antiguo, a favor de Kerberos.
Comentarios (0)
Aún no hay comentarios. ¡Sé el primero!
Deja un comentario