A Nova Era da Teoria dos Jogos: Generalistas Superam Especialistas

Um Novo Paradigma nos Jogos de Informação Imperfeita

Seja em uma partida de pôquer contra um único oponente ou em uma guerra de lances por uma casa, você está operando sob condições de informação imperfeita. Você sabe quais cartas está segurando e também sabe quanto pode pagar pela casa, mas não conhece a mão do seu oponente ou o quanto o outro comprador está disposto a ir.

Uma pesquisa coautorada por pesquisadores do MIT e apresentada em abril na International Conference on Learning Representations no Rio de Janeiro trouxe novos insights sobre esses jogos de informação imperfeita, onde duas partes enfrentam uma competição de “soma zero”, em que o ganho de um jogador significa a perda do outro.

O Impacto de Algoritmos de Aprendizado em Redes Neurais

Os pesquisadores do MIT envolvidos no projeto incluem Sobhan Mohammadpour, estudante de PhD em Engenharia Elétrica e Ciência da Computação, e Gabriele Farina, professor assistente. No estudo, eles exploraram como algoritmos poderiam treinar redes neurais para participarem desses jogos. A suposição até agora era de que algoritmos baseados em teoria dos jogos superariam claramente métodos de gradiente de política, um tipo de algoritmo utilizado por décadas.

O que são métodos de gradiente de política? Esses métodos são uma abordagem de tomada de decisão em pequenos passos que busca alcançar um objetivo, realizando ajustes contínuos ao longo do caminho. No entanto, a equipe se perguntou como essas técnicas se desempenhariam em jogos de dois jogadores — revelando que, surpreendentemente, elas poderiam se sair melhor que os algoritmos especializados.

Uma Nova Visão: Benchmarking de Algoritmos

Um dos principais avanços desta pesquisa foi o desenvolvimento de um método equilibrado para avaliar diferentes algoritmos, assim criando um benchmark que pode efetivamente testar o desempenho. “O que estamos oferecendo é um campo de testes, onde as pessoas podem treinar seus algoritmos e verificar como eles se saem”, destaca Rudolph.

A equipe usou uma métrica chamada exploitability, que mede a eficácia de um jogador contra o “adversário do pior caso”. Por exemplo, em um jogo como pôquer, esse oponente desconheceria suas cartas, mas saberia como você tenderia a agir com base em suas cartas. A pontuação vai de zero — jogadas perfeitas — até pontuações altas, que indicam um desempenho muito abaixo do ideal.

Desafios e Resultados da Pesquisa

Cinco jogos foram analisados nas experiências: duas versões de Phantom Tic-Tac-Toe e dois variantes imperfeitas do jogo Hex, além de Liar’s Dice. O maior desafio enfrentado pela equipe foi fazer a medida de exploitability funcionar em jogos que podem conter até 30 bilhões de estados.

“É como olhar em uma sala escura cheia de objetos invisíveis”, explicou Mohammadpour. O estudo revelou que redes neurais treinadas com algoritmos de gradiente de política obtiveram pontuações de exploitability melhores (mais baixas) em comparação com aquelas treinadas com algoritmos baseados em teoria dos jogos.

Com esses resultados, a equipe ganhou mais confiança no seu enfoque de benchmarking, tornando o software disponível gratuitamente e acessível. “Você não precisa de um supercomputador. Pode rodar em um laptop comum”, comenta Mohammadpour.

A Aplicação Espiritual das Descobertas

Embora os jogos usados nos experimentos fossem relativamente obscuros, Farina enfatiza que as lições aprendidas se aplicam a qualquer interação estratégica multi-agente. “A propriedade de informação oculta é importante e permeia uma variedade de situações no mundo real”, enfatiza Vinitsky.

As conclusões da pesquisa abrem um novo caminho para a compreensão da teoria dos jogos e suas aplicações práticas em diferentes domínios, bem como a maneira como podemos aperfeiçoar nossos algoritmos de decisão em um mundo cada vez mais complexo e interconectado.

Escrito por Equipe Portal CTMC