报告1: 从基准测试到模型进化:大语言模型的自动化评估 [slide]

报告摘要:
近年来,人工智能(AI)领域目睹了大规模语言模型(LLMs)所取得的非凡成就。这些模型凭借其巨大的训练语料库,在多种任务上展现出了卓越的能力。尽管如此,模型评估方法的发展却相对滞后。一方面,尽管不断有新的评估数据集被创建,但由于LLMs遵循扩展法则(scaling laws),它们往往能够迅速超越现有的基准,这使得新数据集的构建成为一项耗时且繁重的任务。另一方面,数据泄露的风险也在威胁当前的评估方法,因为模型在预训练阶段可能已经接触到了部分测试数据。为应对这些挑战,本次演讲将介绍并深入探讨一种创新性解决方案:建立一个专为LLMs设计的自动化评估框架。该框架包含数据集自动生成及基于多智能体系统的自动化测量机制。此外,还将分析此自动化评估框架的稳健性和可靠性。最终,我们将展示如何依据自动化评估的结果来促进模型训练的持续优化(即模型进化)。不仅如此,我们还将超越单纯依赖评估分数的做法,致力于揭示大模型内部的工作机理,从而进一步推动这一领域的透明度和理解深度。

专家简介:
曹艺馨,男,复旦大学青年研究员、博士生导师。于清华大学获得博士学位,曾先后在新加坡国立大学、南洋理工大学和新加坡管理大学担任博士后、研究助理教授和助理教授职位。国家级青年人才计划入选者、上海市青年领军人才计划入选者。研究领域为自然语言处理、知识工程和多模态信息处理,在国际知名会议和期刊发表论文60余篇,谷歌学术引用6000余次,并多次被领域内国际顶级会议评为口头报告。研究成果获得两项国际会议的最佳论文及提名,曾获Lee Kong Chian Fellowship、Google South Asia & Southeast Asia Awards和AI2000最具影响力学者奖的荣誉提名。担任多个国际会议演示程序主席、领域主席和国际期刊审稿人。

报告2: 基于大模型的多智能体协作框架

报告摘要:
随着大型语言模型(LLM)的不断进步,人工智能模型已从简单的工具演变为能够与人类和环境进行交互的智能体。这一演变推动了自然语言处理(NLP)领域中新范式的形成——多智能体交互与协作,该范式在近年来众多的自然语言处理任务中展现了显著的效果,并且显示出超越单一大模型应用的潜力。本次演讲将系统地回顾多智能体交互的发展历程,并具体针对合作式与非合作式交互任务,深入探讨其架构设计、交互协议,以及当前面临的一些公开挑战。

专家简介:
雷文强,四川大学教授、博士生导师,计算机学院院长助理,国家级青年人才入选者。他博士毕业于新加坡国立大学,在ACL、EMNLP、ACM MM等各大顶级会议发表论文数十篇,获得ACM MM 2020的最佳论文奖,ACL 2024的领域主席奖。担任ACL、EMNLP、SIGIR等多个国际顶级会议的领域主席,程序委员会(高级)委员,主持多项国家级项目。其研发的成果在政府机构,大型企业有广泛应用。