Há quatro meses, a OpenAI deixou o mundo boquiaberto com a demonstração ao vivo do GPT-4 e seu revolucionário Modo de Voz Avançado. A promessa era tentadora: conversas incrivelmente realistas e naturais com uma IA, diretamente do seu celular. No entanto, o lançamento oficial para usuários do ChatGPT Plus aconteceu apenas recentemente, após um longo período de espera, e ainda por cima, restrito por uma paywall. Neste post, vamos explorar a fundo o Modo de Voz Avançado do GPT-4, analisando seus recursos, limitações e o que o futuro nos reserva.

A primeira experiência com o Modo de Voz Avançado é realmente impressionante. A fluidez da conversa, o tom natural e a variedade de vozes disponíveis são diferenciais marcantes. A OpenAI oferece uma gama diversificada de vozes, cada uma com características únicas, permitindo escolher a que melhor se adapta à sua preferência. É notável a capacidade do GPT-4 em compreender nuances na fala, como entonação e emoção, respondendo de forma coerente e contextualmente relevante.
Entretanto, algumas funcionalidades apresentadas na demonstração inicial, como a capacidade de mostrar imagens ao GPT-4 através da câmera do celular, ainda não estão disponíveis. Essa ausência é sentida, principalmente pela expectativa criada em torno da interação multimodal. A qualidade de áudio, embora satisfatória, fica um pouco aquém de outros sistemas de síntese de voz, como o 11 Labs, que se destaca pela nitidez. A latência nas respostas, em alguns momentos, quebra um pouco o ritmo da conversa, impactando a fluidez da interação.
O Modo de Voz Avançado demonstra um potencial incrível em diversas áreas. A capacidade de gerar diferentes sotaques, como o russo, indiano e australiano, impressiona pela precisão e naturalidade. No entanto, algumas inconsistências são notadas, como a recusa em reproduzir certos sotaques, como o sulista americano, sem qualquer explicação aparente.
Outro ponto que chama atenção são as restrições impostas pela OpenAI. Embora seja compreensível a preocupação com o uso indevido da tecnologia, algumas limitações parecem excessivas, como a proibição em cantar, mesmo que a letra seja de domínio público. Curiosamente, o GPT-4 demonstra certa maleabilidade em relação a essas restrições, contornando algumas delas quando as solicitações são feitas de forma indireta.
A comunidade de usuários tem explorado o Modo de Voz Avançado de maneira criativa, descobrindo funcionalidades não mencionadas oficialmente, como a geração de efeitos sonoros. Essa descoberta abre um leque de possibilidades, sugerindo que o GPT-4 com voz pode ser ainda mais versátil do que imaginávamos. No entanto, a impossibilidade de usar o modo de voz com imagens e a falta de acesso à internet limitam o potencial da ferramenta em fornecer informações visuais e se manter atualizado em tempo real.