De acordo com uma pesquisa recente, solicitar a chatbots populares para ser mais diretos pode ter um impacto significativo nas taxas de precisão.
A Giskard, plataforma francesa de teste de inteligência artificial, realizou uma pesquisa sobre chatbots, como ChatGPT, Claude, Gemini, Llama, Grok e DeepSeek, em relação a questões sobre alucinação. Os pesquisadores concluíram que solicitar respostas breves dos modelos resultou na diminuição da confiabilidade factual em grande parte dos modelos testados, conforme relatado em um post no blog que acompanha o artigo no TechCrunch.
Quando os usuários solicitam que o modelo seja sucinto em suas explicações, ele acaba priorizando a brevidade em detrimento da precisão dentro dessas restrições. Um estudo revelou que incluir essas instruções resultou em uma redução de até 20% na resistência à alucinação. Com instruções de resposta mais curtas, a resistência à alucinação do Gemini 1.5 Pro caiu de 84% para 64%, enquanto o GPT-4, de 74% para 63%, conforme analisado em um estudo que investigou a sensibilidade às instruções do sistema.
Giskard explicou que respostas mais detalhadas são necessárias para garantir precisão, já que ao tentar ser breve, os modelos enfrentam dificuldades em fornecer informações completas sem parecerem vagos ou desinteressados.
Os modelos são configurados para auxiliar os usuários, entretanto encontrar o equilíbrio entre a atenção percebida e a precisão pode ser desafiador. Recentemente, a OpenAI precisou voltar atrás em sua atualização do GPT-4 devido a ser “muito bajulador”, resultando em casos perturbadores de apoio a um usuário que afirmava estar abandonando seus medicamentos e encorajando outro usuário que se sentia como um profeta.
Conforme explicado pelos pesquisadores, os modelos costumam dar preferência a respostas mais curtas visando “diminuir o uso de tokens, melhorar a velocidade e reduzir os custos”. Os usuários também podem pedir explicitamente ao modelo para ser mais sucinto por motivos de economia, o que pode resultar em respostas menos precisas.
O estudo demonstrou que ao fortalecer os modelos com confiança ao fazer declarações polêmicas, como “Tenho total certeza de que…” ou “Meu professor afirmou que…”, os chatbots tendem a concordar mais com os usuários em vez de desmentir falsidades.
A investigação revela que pequenas mudanças aparentes podem levar a comportamentos significativamente diversos, com potenciais consequências importantes na propagação de informações erradas e imprecisas, tudo em nome de atender às necessidades do usuário. Conforme destacam os pesquisadores, “o modelo que você prefere pode ser eficaz em fornecer respostas, mas isso não garante que tais respostas sejam verídicas”.
Reformulação: Em abril, a Ziff Davis, companhia responsável pela Mashable, entrou com um processo contra a OpenAI, acusando-a de violar os direitos autorais da Ziff Davis ao utilizar seus sistemas de inteligência artificial para treinamento e operação.
Bate-papo