top of page

ChatGPT, o chatbot da OpenAI, ganha voz e visão

A empresa de inteligência artificial atualiza seu aplicativo móvel com recursos de síntese de voz e reconhecimento de imagem




A Wired fez uma matéria recente sobre as novidades do ChatGPT. A OpenAI, a empresa de inteligência artificial que lançou o ChatGPT em novembro do ano passado, está tornando o chatbot mais conversador. Uma atualização dos aplicativos móveis ChatGPT para iOS e Android anunciada hoje permite que uma pessoa fale suas consultas para o chatbot e ouça sua resposta com sua própria voz sintetizada. A nova versão do ChatGPT também adiciona inteligência visual: faça o upload ou tire uma foto do ChatGPT e o aplicativo responderá com uma descrição da imagem e oferecerá mais contexto, semelhante ao recurso Lens do Google.

As novas capacidades do ChatGPT mostram que a OpenAI está tratando seus modelos de inteligência artificial, que estão em desenvolvimento há anos, como produtos com atualizações regulares e iterativas. O sucesso surpresa da empresa, o ChatGPT, está se parecendo mais com um aplicativo para consumidores que compete com o Siri da Apple ou o Alexa da Amazon.




Tornar o aplicativo ChatGPT mais atraente pode ajudar a OpenAI em sua corrida contra outras empresas de IA, como Google, Anthropic, InflectionAI e Midjourney, fornecendo um fluxo mais rico de dados dos usuários para ajudar a treinar seus poderosos motores de IA. Alimentar dados de áudio e visual nos modelos de aprendizado de máquina por trás do ChatGPT também pode ajudar a visão de longo prazo da OpenAI de criar uma inteligência mais humana.

Os modelos de linguagem da OpenAI que alimentam seu chatbot, incluindo o mais recente, GPT-4, foram criados usando grandes quantidades de texto coletado de várias fontes na web. Muitos especialistas em IA acreditam que, assim como a inteligência animal e humana faz uso de vários tipos de dados sensoriais, criar uma IA mais avançada pode exigir alimentar os algoritmos com informações de áudio e visual, além de texto.



O próximo grande modelo de IA do Google, Gemini, é amplamente rumorado como “multimodal”, ou seja, ele será capaz de lidar com mais do que apenas texto, talvez permitindo entradas de vídeo, imagens e voz. “Do ponto de vista do desempenho do modelo, intuitivamente esperaríamos que os modelos multimodais superassem os modelos treinados em uma única modalidade”, diz Trevor Darrell, professor da UC Berkeley e cofundador da Prompt AI, uma startup que trabalha na combinação de linguagem natural com geração e manipulação de imagens.

A nova tecnologia de geração de voz do ChatGPT - desenvolvida internamente pela empresa - também abre novas oportunidades para a empresa licenciar sua tecnologia para outros. O Spotify, por exemplo, diz que agora planeja usar os algoritmos de síntese de voz da OpenAI para testar um recurso que traduz podcasts para outros idiomas, em uma imitação gerada por IA da voz original do podcaster.




A nova versão do aplicativo ChatGPT tem um ícone de fone de ouvido no canto superior direito e ícones de foto e câmera em um menu expansível no canto inferior esquerdo. Esses recursos de voz e visual funcionam convertendo as informações de entrada em texto, usando reconhecimento de imagem ou fala, para que o chatbot possa gerar uma resposta. O aplicativo então responde por meio de voz ou texto, dependendo do modo em que o usuário está. Quando um escritor da WIRED perguntou ao novo ChatGPT usando sua voz se ele podia “ouvi-la”, o aplicativo respondeu: “Não posso ouvir você, mas posso ler e responder às suas mensagens de texto”, porque sua consulta por voz é realmente processada como texto. Ele responderá em uma das cinco vozes, chamadas Juniper, Ember, Sky, Cove ou Breeze.

Jim Glass, um professor do MIT que estuda tecnologia da fala, diz que vários grupos acadêmicos estão testando interfaces de voz conectadas a grandes modelos de linguagem, com resultados promissores. “A fala é a maneira mais fácil que temos para gerar linguagem, então é algo natural”, diz ele. Glass observa que embora o reconhecimento de fala tenha melhorado drasticamente na última década, ele ainda é deficiente para muitos idiomas. Os novos recursos do ChatGPT começam a ser lançados hoje e estarão disponíveis apenas por meio da versão de assinatura de US$ 20 por mês do ChatGPT. Ele estará disponível em qualquer mercado onde o ChatGPT já opera, mas será limitado ao idioma inglês para começar.

Visão de Máquina Nos primeiros testes da WIRED, o recurso de pesquisa visual apresentou algumas limitações óbvias. Ele respondeu: “Desculpe, não posso ajudar com isso” quando solicitado a identificar pessoas dentro de imagens, como uma foto do crachá de identificação da Conde Nast de um escritor da WIRED. Em resposta a uma imagem da capa do livro American Prometheus, que apresenta uma foto proeminente do físico J. Robert Oppenheimer, o ChatGPT ofereceu uma descrição do livro.

O ChatGPT identificou corretamente uma árvore de bordo japonês com base em uma imagem e, ao receber uma foto de uma tigela de salada com um garfo, o aplicativo se concentrou no garfo e identificou-o impressionantemente como uma marca compostável. Ele também identificou corretamente uma foto de uma bolsa como uma sacola da revista New Yorker, acrescentando: “Dado seu histórico como jornalista de tecnologia e sua localização em uma cidade como São Francisco, faz sentido que você possua itens relacionados a publicações proeminentes”. Isso pareceu uma leve queimadura, mas refletiu a configuração personalizada do escritor dentro do aplicativo que identifica sua profissão e localização para o ChatGPT.




O recurso de voz do ChatGPT ficou para trás, embora a WIRED estivesse testando uma versão pré-lançamento do novo aplicativo. Depois de enviar uma consulta por voz, às vezes levava vários segundos para o ChatGPT responder audivelmente. A OpenAI descreve esse novo recurso como conversacional - como um assistente do Google ou Amazon Alexa de última geração, na verdade - mas essa latência não ajudou a fazer o caso.

Chats Privados Como em muitos avanços recentes no mundo selvagem da IA gerativa, as atualizações do ChatGPT provavelmente despertarão preocupações para alguns sobre como a OpenAI usará seu novo influxo de dados de voz e imagem dos usuários. Ele já coletou grandes quantidades de pares de dados texto-imagem da web para treinar seus modelos, que alimentam não apenas o ChatGPT, mas também o gerador de imagens da OpenAI, Dall-E. Na semana passada, a OpenAI anunciou uma atualização significativa para Dall-E.



Como isso pode ser bom para fotógrafos e negócios de fotografia: A capacidade do ChatGPT de reconhecer e descrever imagens pode ser útil para fotógrafos e negócios de fotografia que desejam organizar, catalogar e pesquisar suas fotos com mais facilidade. Por exemplo, um fotógrafo pode usar o ChatGPT para encontrar fotos que contenham certos objetos, cores ou cenas. Um negócio de fotografia pode usar o ChatGPT para gerar legendas ou tags para suas fotos, tornando-as mais atraentes e acessíveis para os clientes. Além disso, o ChatGPT pode oferecer feedback ou sugestões sobre as fotos, como melhorar a iluminação, o enquadramento ou a composição.


Mas o ChatGPT serve para muito mais para fotógrafos. Como ajudar como co-piloto de marketing ou como assistente criativo. E a junção da ferramenta com o DALL-E 3 mostra-se ainda mais promissora.


Em tempo. Se você está interessado em I.A. na Fotografia. Então leia isso >>> Você está pronto para a nova era da fotografia? Aprenda como usar a IA para criar obras incríveis (enfbyleosaldanha.com)


0 comentário
bottom of page