Teaching AI Agents to Ask Better Questions by Playing 'Battleship'

Uma Nova Era para Modelos de Linguagem

Em 2026, a hype em torno de agentes de inteligência artificial ecoa mais alta do que nunca. Esses programas semi-autônomos conseguem 'pensar' e executar tarefas bem definidas em áreas como atendimento ao cliente e desenvolvimento de software, tipicamente utilizando modelos de linguagem (MLs). Contudo, campos como diagnóstico médico e descoberta científica demandam que eles investiguem uma vasta gama de soluções em ambientes incertos, algo em que os MLs costumam enfrentar dificuldades.

Pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial do MIT (CSAIL) e da Escola de Engenharia e Ciências Aplicadas da Universidade de Harvard (SEAS) examinaram mais de perto os modelos de linguagem para entender suas principais falhas em cenários críticos. O teste: 'Battleship', um jogo de adivinhação clássico que tem ajudado cientistas cognitivos a estudar como os humanos buscam informações.

O Jogo Colaborativo de Batalha

A equipe do CSAIL e SEAS adicionou uma reviravolta ao reformular o jogo em torno de perguntas e respostas em linguagem natural. Em seu jogo 'Collaborative Battleship', um participante é o 'capitão', que pergunta sobre onde os navios escondidos podem estar, enquanto seu colega faz o papel de 'observador', respondendo a essas perguntas em tempo real.

Os pesquisadores inicialmente tiveram mais de 40 humanos jogando juntos, coletando suas perguntas e respostas de sim/não para construir o conjunto de dados 'BattleshipQA'. Esses resultados foram uma referência útil quando a equipe testou os modelos de linguagem de ponta (como GPT-5) e modelos menores (como Llama 4 Scout) em seu jogo. Sem treinar os modelos anteriormente, descobriram que os MLs de topo podem 'vencer' humanos em 'Battleship' — isto é, completar o jogo em menos turnos — mas sistemas menores mostraram um desempenho muito inferior.

Aperfeiçoando a Capacidade de Perguntar

O principal problema era que muitos modelos simplesmente não eram habilidosos em formular perguntas úteis. Para que os MLs questionassem de maneiras que revelassem mais informações sobre os navios escondidos, os pesquisadores forneceram a cada modelo uma estratégia de inferência Monte Carlo, que mede cuidadosamente a probabilidade de diferentes opções serem corretas a cada resposta. O resultado: modelos de IA que podem vencer jogadores comuns em 'Battleship', independentemente de sua escala.

Resultados Surpreendentes

Os resultados mais impressionantes foram os ganhos do Llama 4 Scout. Como um modelo relativamente pequeno, ele só conseguia vencer humanos 8 por cento das vezes. Porém, com refinamentos em sua estratégia de inferência, o modelo alcançou uma taxa de vitória de 'Battleship' de 82 por cento contra humanos. Esse estilo de perguntar cuidadoso e eficiente também permitiu que o modelo superasse um modelo de fronteira (GPT-5), operando com cerca de 1 por cento do custo deste último.

Além dessa melhoria, os pesquisadores diminuíram a lacuna entre humanos e MLs na resposta de perguntas. Enquanto o GPT-5 se mostrou um observador confiável que ajudou os modelos a terminar os jogos mais rapidamente, sistemas menores tinham a tendência de dar respostas incorretas sobre onde os navios estavam escondidos. Os modelos viram um aumento de precisão de 15 por cento em média quando começaram a converter perguntas em código que explicitamente lhes dizia como verificar suas respostas.

O Futuro da Interação com IA

“Hoje, os modelos de linguagem são principalmente otimizados para responder consultas complexas, mas é menos claro se eles aprendem a fazer boas perguntas para si mesmos”, afirma Gabriel Grand, estudante de doutorado do MIT e pesquisador do CSAIL, que é um dos autores do estudo.

Como a equipe avançará além dos jogos? Eles testaram seus MLs equipados em 'Guess Who?', onde os modelos grandes e pequenos reduziram habilmente 100 opções para adivinhar corretamente qual personagem oculto havia sido escolhido. Os resultados mostraram um desempenho promissor, mas os modelos ainda têm espaço para melhorias, especialmente em perguntas complexas.

Potential do Futuro

As descobertas dos pesquisadores mostram que agentes de IA têm um potencial inexplorado em descobertas críticas — navegando em um vasto espaço de opções para encontrar soluções raras para desafios científicos. Embora a melhoria nas habilidades de busca de informações os tornem excelentes assistentes de pesquisa, os pesquisadores alertam que ainda precisamos nos concentrar na implementação prática deste conhecimento.

Este estudo lança luz sobre um futuro onde a inteligência artificial não apenas responde perguntas, mas é capaz de realmente investigar, questionar e desvendar a complexidade do mundo ao nosso redor.

Escrito por Equipe Portal CTMC