Índice do Artigo

IA com mais possibilidades

ChatGPT terá suporte a prompts de imagem e voz gratuitamente

Novo será disponibilizado nas próximas semanas para usuários Plus

ChatGPT da OpenAI
Créditos: Jonathan Kemper/Unsplash

A OpenAI anunciou na última segunda-feira (25) que a sua ferramenta mais famosa, o ChatGPT, terá suporte a prompts de imagem e voz gratuitamente.

O novo recurso chegará antes para assinantes do ChatGPT Plus, mas será liberado para todos os usuários da ferramenta no futuro.

Imagem e Voz no ChatGPT

A pesquisa através de imagens e voz não é uma novidade dentro do universo das IA, mas só foi implementado no ChatGPT agora. Bem, quase implementado. A OpenAI lançou há alguns dias a nova versão do Dall-E, que permite a ferramenta gerar imagens de IA, e com isso, logo ela poderá receber comandos por voz através de dispositivos iOS e Android, ao invés de digitar, e utilizar imagens para obter respostas melhores, mais completas. E, como dissemos acima, serão recursos gratuitos, mas que num primeiro instante apenas usuários Plus e Enterprise terão acesso nas próximas duas semanas.

Falando especificamente sobre o uso de imagens, esses são modelos de IA generativa, similar a como o Google usa o Google Lens e que estarão presentes no ChatGPT daqui para frente graças às versões GPT-3.5 e GPT-4 multimodais.

Em um dos exemplos mostrados pela OpenAI, vemos um usuário tentando ajustar o banco de sua bicicleta e pedindo ajuda da ferramenta. Através de imagens específicas enviadas ao ChatGPT, a inteligência artificial consegue auxiliar o usuário a chegar ao seu objetivo.

Já o uso do recurso de voz do ChatGPT chegará para o aplicativo no iPhone e Android. O que é muito bem vindo para usuários de smartphones, evitando que precise ficar digitando e tornando a usabilidade da ferramenta muito mais natural para celulares. Os usuários só terão que ativar o recurso na seção Configurações do aplicativo assim que estiver disponível no iPhone e Android.

No exemplo acima temos o ChatGPT sendo usado para contar uma história utilizando o recurso de voz de IA generativa. Este é o modelo de conversão de texto sendo aplicado e conta com o emprego de dubladores para isso:

A nova tecnologia de voz — capaz de criar vozes sintéticas realistas a partir de apenas alguns segundos de fala real — abre portas para muitas aplicações criativas e focadas na acessibilidade. No entanto, estas capacidades também apresentam novos riscos, tais como a possibilidade de intervenientes mal-intencionados se passarem por figuras públicas ou cometerem fraudes.

Outra aplicação que a OpenAI compartilhou sobre o novo recurso de voz é que ele está passando por testes, junto ao Spotify, para que a ferramenta seja utilizada na tradução de voz para podcasts, permitindo aos criadores traduzir seu conteúdo para outros idiomas usando sua própria voz.

FONTE: OpenAI