Benchmarking Large Language Models for Multi-Agent Systems: A Comparative Analysis of AutoGen, CrewAI, and TaskWeaver
O artigo de conferência “Benchmarking Large Language Models for Multi-Agent Systems: A Comparative Analysis of AutoGen, CrewAI, and TaskWeaver” foi apresentado no “22nd International Conference on Practical Applications of Agents and Multi-Agent Systems”. A conferência realizada em Salamanca, Espanha, teve lugar em junho de 2024. A participação do ISEP permitiu a disseminação de conhecimento adquirido e explorado no âmbito do projeto PRODUTECH R3 – WP13.
Este artigo apresenta um estudo comparativo sobre o potencial da integração de large language models (LLMs) em sistemas multi-agentes, demonstrando avanços significativos na capacidade de resolução colaborativa de problemas e programação de soluções.
O estudo, que se concentrou na geração de código para modelos de previsão de energia, avaliou três frameworks open source multi-agentes: AutoGen, CrewAI e TaskWeaver.
Cada framework foi alimentada por diferentes LLMs e testada tendo em conta a sua capacidade de criar modelos de deep learning para prever o consumo de energia.
Os resultados foram promissores, com as três frameworks a conseguirem gerar código funcional. A framework TaskWeaver, usando a LLM GPT-3.5, foi capaz de obter uma taxa de erro, de root mean square error (RMSE), de 25,04.
Este estudo demonstra que a combinação de sistemas multi-agentes e LLMs possibilita a resolução de problemas complexos e permite a validação das respostas das LLMs.
Os resultados irão permitir o desenvolvimento de código automático para a resolução de problemas ou automatização de processos sem recorrer a desenvolvedores.
Esta publicação dos autores Rafael Barbarroxa, Luís Gomes e Zita Vale, da equipa do ISEP, estará disponível nos proceedings do PAAMS 24.
Este trabalho é apoiado pela União Europeia no âmbito do Next Generation EU, através de uma do Acordo de Parceria do Plano de Recuperação e Resiliência (PRR) da República Portuguesa, no âmbito do projeto PRODUTECH R3 – "Agenda Mobilizadora da Fileira das Tecnologias de Produção para a Reindustrialização”. O trabalho faz parte do WP13 do projeto PRODUTECH R3