La nueva capacidad de ChatGPT para ver, oír y hablar

ChatGPT puede ver, oír y hablar en dos semanas
Índice
  1. ChatGPT podrá mantener conversaciones por voz
    1. Cómo funciona la nueva capacidad de voz de ChatGPT
  2. ChatGPT ahora también podrá ver imágenes y fotos
    1. Funcionamiento de la capacidad visual de ChatGPT
  3. Medidas para un uso ético y responsable
  4. Una evolución progresiva
  5. Conclusión

ChatGPT, el popular chatbot de IA creado por OpenAI, está a punto de dar un salto revolucionario con su nueva actualización que le permitirá ver, oír y hablar con los usuarios, superando así la barrera de la interacción solo por texto.

ChatGPT podrá mantener conversaciones por voz

Según ha anunciado OpenAI, los usuarios de pago de ChatGPT podrán mantener conversaciones por voz con el chatbot en aproximadamente dos semanas.

Esto significa que por primera vez se podrá hablar directamente con ChatGPT y escuchar sus respuestas verbalmente, en lugar de solo leerlas en pantalla.

Inicialmente, estará disponible en las aplicaciones móviles de iOS y Android, pero no en la versión web. Se podrá elegir entre 5 voces distintas para personalizar la experiencia.

Cómo funciona la nueva capacidad de voz de ChatGPT

ChatGPT podrá ver, oír y hablar en las próximas semanas

La tecnología en la que se basa es la siguiente:

  • El audio del usuario se transcribe a texto mediante Whisper, la herramienta de reconocimiento de voz de OpenAI.
  • Luego, se genera la respuesta de ChatGPT en texto.
  • Por último, se convierte ese texto a voz hablada usando un nuevo modelo de síntesis de voz entrenado por OpenAI.

De esta manera, ChatGPT podrá mantener fluidas conversaciones habladas, comprendiendo al usuario y respondiendo de forma verbal.

ChatGPT ahora también podrá ver imágenes y fotos

Además de oír y hablar, ChatGPT incorporará la capacidad de ver. Los usuarios podrán enviarle fotografías y el chatbot las analizará para dar respuestas más específicas y útiles.

Por ejemplo, se le podrán enviar fotos del contenido de la nevera y ChatGPT sugerirá recetas con esos ingredientes. O se podrá sacar una foto de un enchufe roto y pedirle consejo para arreglarlo.

Las posibilidades son infinitas: ayuda para decorar una habitación, identificar plantas y animales, recomendar atuendos, etc. ChatGPT podrá ver lo mismo que el usuario y adaptar sus respuestas en consecuencia.

Funcionamiento de la capacidad visual de ChatGPT

ChatGPT procesará las imágenes mediante modelos de visión artificial entrenados por OpenAI. Luego, combinará la información visual extraída con el contexto de la conversación para generar respuestas útiles.

Podrá enfocarse en partes específicas de la foto si el usuario las señala o describe. Así comprenderá mejor lo que se le consulta.

Medidas para un uso ético y responsable

OpenAI es consciente de los posibles usos inadecuados de estas poderosas capacidades, como la suplantación de identidad o la invasión de privacidad.

Por ello, ha implantado medidas para que el uso sea ético:

  • Las voces solo funcionarán en conversaciones dentro de la app, no se podrán extraer.
  • La función visual no funcionará con fotos de personas u otros contenidos sensibles.

De esta manera, ChatGPT dará un salto exponencial en interactividad y utilidad, pero dentro de un marco responsable.

Una evolución progresiva

Estas novedades no llegarán a todos los usuarios a la vez. Se irán activando progresivamente, empezando por los suscriptores de pago, para monitorizar su funcionamiento antes de extenderlas.

Pronto ChatGPT será capaz de ver, oír y hablar, llevando la interacción con la IA a otro nivel. Un avance que abre un mundo de posibilidades todavía por explorar.

Conclusión

ChatGPT está entrando en una nueva era que cambiará para siempre la forma en que interactuamos con la IA. La capacidad de mantener conversaciones completamente por voz y comprender imágenes marca un hito en la historia de la computación.

Aunque aún quedan limitaciones por superar, estas innovaciones demuestran el rápido progreso de la IA generativa. ChatGPT se consolida como una herramienta extremadamente versátil, que pronto podrá asistirnos de forma más intuitiva y natural en una amplia gama de tareas cotidianas.