全国知识图谱与语义计算大会

(CCKS 2025)

CCKS 2025组织知识图谱相关评测竞赛,旨在促进知识图谱领域的技术发展,以及学术成果与产业需求的融合和对接。在2024年,CCKS评测竞赛环节共包含 11 项竞赛,涵盖知识编辑、知识抽取、复杂问答等多项任务,吸引了超过 2400 支队伍、近 5300 人参赛,共计 24 万奖金,单任务最高 5 万元,在工业界和学术界形成较高影响力。

今年,经过评测任务第一轮征集和评测组委会筛选,CCKS 2025目前共设8项评测任务。每项任务(或子任务)均设置一、二、三等奖(对应前三名),优秀评测论文也将推荐收录进入主会论文集。

评测任务介绍

任务一:大模型知识编辑评测

任务描述:

随着深度学习与预训练技术的快速发展,大模型如ChatGPT、Mistral、LLaMA、ChatGLM、DeepSeek、通义等在自然语言处理领域已经取得了显著的突破。大模型通过将海量的、以文本序列为主的世界知识预先学习进神经网络中,并通过参数化空间实现对知识的处理和操作,其揭示了大规模参数化神经网络在习得和刻画世界知识上的巨大潜力。不同于传统的符号知识工程,大模型的隐式参数知识具有表达能力强、任务泛化好等优点。

然而,大模型在处理和理解知识方面仍然存在一些挑战和问题,包括知识更新的困难,以及模型中潜在的知识谬误问题。随着模型参数量变大,大模型更新的成本逐渐变得非常高昂,而且更新后的模型鲁棒性难以保障。大模型微调、检索增强(RAG)和局部参数更新都是处理大模型知识谬误问题的技术手段之一。研究大模型知识编辑技术,以便使其可以像人类每天读书、看报一样进行知识更新具有重要意义:1)可以深入理解大模型知识存储机理;2)实现高效、低成本地大模型知识更新以缓解知识谬误问题;3)擦除模型参数中隐私、有害信息以实现大模型应用安全。 大模型知识编辑方法一般可分为内部更新和外部干预方法。内部更新方法通过定位等方式来对大模型参数进行局部更新,外部干预法则在保留大模型原参数的前提下植入参数补丁或进行提示增强。为缓解大模型知识谬误问题和促进大模型知识编辑技术的发展,去年浙江大学在CCKS2024大会成功组织了大模型知识编辑评测,今年将在CCKS2025大会继续组织该项评测任务。评测详情参加 https://tianchi.aliyun.com/competition/entrance/532347

任务组织者:

张宁豫,浙江大学

姚云志,浙江大学

方继展,浙江大学

徐浩铭,浙江大学

徐柯伟,浙江大学

学术指导组:

陈华钧,浙江大学

漆桂林,东南大学

王昊奋,同济大学

黄非,阿里巴巴

任务联系人:

方继展:fangjizhan@zju.edu.cn

张宁豫:zhangningyu@zju.edu.cn 

任务二:人工智能领域论文复杂问题问答评测

任务描述:

随着人工智能技术的快速发展,学术论文的数量和复杂性呈指数级增长,如何高效、准确地从海量文献中提取关键信息成为科研人员和行业从业者面临的重大挑战。传统的文献检索和阅读方式已难以满足需求,而现有的大多数问答系统仍局限于对结构化知识库或短文本的浅层解析,无法深入理解学术论文中的复杂逻辑、实验数据和理论推导。为此,我们推出《人工智能领域论文复杂问题问答评测》,旨在推动自然语言处理技术在学术文献深度理解与推理方面的突破。本评测任务要求参赛系统基于给定的英文论文全文,回答与之相关的多项选择题,其中每个问题包含一个以上的正确答案,从而考验模型在长文本理解、多跳推理和批判性分析等方面的综合能力。

本评测的核心挑战在于学术论文的独特复杂性——论文通常包含密集的专业术语、复杂的数学公式、跨段落的理论论证以及多维度的实验结果。参赛模型不仅需要准确识别文本中的显性信息,还需整合图表数据、方法描述和实验结论,甚至推断作者未明确陈述的隐含观点。例如,一个问题可能要求系统判断某篇论文提出的方法在特定条件下是否优于基线模型,而答案可能需要结合方法章节的理论分析、实验部分的对比表格以及讨论章节的局限性说明才能得出。此外,多选题的设计进一步增加了任务的难度,因为部分选项可能看似合理但缺乏严格依据,或仅在特定条件下成立,这就要求大模型具备高度的逻辑严谨性和抗干扰能力。我们期望通过这一评测,激发学术界和工业界对复杂学术文本理解技术的探索,并为智能文献综述、科研助手等应用提供技术支撑。

本评测的独特之处在于其紧密结合真实学术场景的需求,与传统的知识图谱问答或开放域问答相比,更强调对非结构化长文本的深度语义解析和高阶推理能力。同时,多选题的设定更容易评估。我们精心构建的数据集涵盖70篇人工智能顶会顶刊论文和223道人工智能博士生标注的多选题,问题类型包括实验验证、理论推导和结论分析等,确保全面评估模型的综合性能。为促进大模型在学术领域相关技术的发展,东南大学华为诺亚方舟实验室在CCKS2025大会组织本次评测任务。评测详情参见https://tianchi.aliyun.com/competition/entrance/532359

任务组织者:

戴鑫邦,东南大学

胡惠康,东南大学

郭浩文,东南大学

吴亦珂,东南大学

沈小力,东南大学

李小光,华为诺亚方舟实验室

张宇洋,华为诺亚方舟实验室

任务联系人:

戴鑫邦 东南大学认知智能研究所 xbdai@seu.edu.cn

吴亦珂 东南大学认知智能研究所 yike.wu@seu.edu.cn

任务三:工业技术文档多模态推理问答评测

任务描述:

工业技术文档是工业领域的核心知识载体。在制造业设备维护场景中,大量的故障排查时间消耗于跨文档多模态检索与信息比对,传统文档处理系统和通用大语言模型技术难以满足此类复合需求。本次评测任务聚焦评估大模型在工业技术文档场景下的多模态推理问答能力,旨在探索大模型处理多模态技术知识的潜力,推动工业文档智能化处理技术发展。

为此,我们提出了工业技术文档多模态推理问答评测任务,该评测任务具有三大核心挑战:(1)多模态文档处理:需识别不可编辑PDF中的低分辨率技术图纸与文本,处理多样化格式的复合内容;(2)跨模态语义对齐:要求同步解析文本描述与技术图纸的语义关联;(3)领域知识深度推理:需通过机械原理推导、模块功能分析等推理实现专业级问题解答。

本评测任务数据来源于国内工业领域发明专利开放数据,最终数据集包含工业技术专利文档1500篇以上,问题样本总量8000条以上。本任务由哈尔滨工业大学研究团队在CCKS2025大会发起,面向两大核心目标:在缺乏标注数据的实际工业场景下,激励研究者开发创新的多模态知识抽取方法;构建基于原始技术文档的多模态推理问答技术方案,推动工业认知智能的实用化进程。评测详情参见 https://tianchi.aliyun.com/competition/entrance/532357

任务组织者:

王恺,哈尔滨工业大学

刘明义,哈尔滨工业大学

于爽,哈尔滨工业大学

朱文超,哈尔滨工业大学

张博闻,哈尔滨工业大学

学术指导组:

王忠杰,哈尔滨工业大学

张伟男,哈尔滨工业大学

任务联系人:

朱文超:24s003118@stu.hit.edu.cn

王恺:kai_wang@hit.edu.cn 

任务四:文档端到端结构化评测

任务描述:

文档结构化提取(Document Structured Extraction, DSE)旨在从非结构化文档(如PDF)中提取语义内容,是构建知识库、支持RAG应用的关键技术。然而,当前评测体系仍存在两大核心问题:

(1)任务碎片化:传统评测数据往往将文档结构化抽取拆分成若干个独立的子任务,例如布局分析、字符抽取、表格结构识别、数学公式转换,等等。这种碎片化的任务划分范式缺乏统一视角,难以全面评估一个系统在实际文档结构还原中的整体性能。

(2)场景失真性:传统工作往往仅针对单页文档或局部区域进行评估,忽略了现实文档的全局结构特性。例如,在多页文档中,标题可能跨页分布,内容存在复杂的层级嵌套与长距离依赖关系,这些都是传统评估体系难以覆盖的挑战点。

为此,中国科学院软件研究所提出了端到端的READoc评测基准,该基准以完整、多页的PDF文档作为输入,输出语义结构化的Markdown文本,涵盖标题层级、公式、表格等语义单元。通过构建跨领域、多语言的数据集和标准化评估框架,本评测旨在推动文档结构化技术向实用化发展。评测详情参见https://tianchi.aliyun.com/competition/entrance/532360

任务组织者:

韩先培(中科院软件所)

林鸿宇(中科院软件所)

陆垚杰(中科院软件所)

陈轩昂(中科院软件所)

任务联系人:

艾孜尔、李梓超 ccks_readoc@163.com

任务五:大模型生成文本检测

任务描述:

随着人工智能技术的不断发展,大模型生成文本已呈现逼近人类写作水平的能力。这不仅引发学术不端、信息造假等社会风险,更对国家信息生态安全与技术治理体系构成严峻挑战。准确识别大模型生成文本成为保障数字内容可信度的关键防线,具有技术规范制定、行业监管强化和国家安全维护三重战略价值。大模型生成文本检测的挑战主要体现在以下几个方面:1)生成文本在语法语义层面高度拟人化导致传统特征检测失效;2)模型黑盒特性与动态参数调整阻碍针对性检测;3)对抗性改写技术持续升级文本伪装能力;4)模型迭代引发的数据漂移要求检测系统具备强泛化性。

本次评测任务的文本语料包含大模型生成文本和真实人类文本两部分。其中,人类文本来源于互联网上真实人类的评论、写作、新闻等内容,而大模型生成文本包含7个主流大模型生成的文本,所有数据按照10:1的比例随机均匀划分训练集和测试集。任务目标是给定输入文本,正确分类其为大模型生成文本(标签为1)还是人类撰写文本(标签为0)。

中国科学院信息工程研究所信息内容分析研究室在CCKS2025大会组织本次评测任务,旨在推动大模型生成文本检测技术落地应用,助力国家人工智能治理能力建设。评测详情参见https://tianchi.aliyun.com/competition/entrance/532358

任务组织者:

曹亚男 (中国科学院信息工程研究所)

任昱冰 (中国科学院信息工程研究所)

王一丹 (中国科学院信息工程研究所)

学术指导组:

虎嵩林(中国科学院信息工程研究所)

刘燕兵(中国科学院信息工程研究所)

任务联系人:

任昱冰:renyubing@iie.ac.cn

王一丹:wangyidan@iie.ac.cn

任务六:面向社交媒体的事件脉络生成评测

任务描述:

面向社交媒体的事件脉络生成是社交媒体舆情监控和新闻事件追踪的重要任务之一。事件脉络能够实时追踪社会热点话题的发展态势,为风险评估和危机应对提供决策支持。该任务的主要挑战在于时间序列事件建模和用户个性化事件粒度需求的事件脉络生成两方面。具体地,一方面,事件脉络生成要求模型从包含时间戳的多源文档中准确提取关键、真实的事件,并按时间顺序组织这些事件,确保逻辑清晰、内容连贯;另一方面,事件脉络生成任务需要根据用户的个性化指令,动态调整事件脉络的粒度(即事件描述的详细程度),既要覆盖全局性事件,又需突出特定主题下的细节信息,保证生成内容与用户要求的事件脉络粒度的信息保持一致。

本次评测任务旨在从事件脉络的信息丰富度、粒度一致性、事实性等角度评价不同模型在社交媒体场景下生成符合不同用户粒度需求事件脉络的能力。本次评测任务所使用的文本语料主要来源于社交媒体和新闻平台,涵盖多源、多领域的时间戳文档数据,为事件脉络生成提供了丰富且多样化的测试场景,且参考的事件脉络经过多粒度标注,覆盖从粗到细的时间线层次,为评估生成的事件脉络质量提供权威基准。评测详情参见 https://tianchi.aliyun.com/competition/entrance/532361

任务组织者:

陈玉博 (中国科学院自动化研究所)

曹鹏飞 (中国科学院自动化研究所)

张晨龙 (中国科学院自动化研究所)

周桐   (中国科学院自动化研究所)

刘明轩 (中国科学院自动化研究所)

杨明轩 (中国科学院自动化研究所)

刘康   (中国科学院自动化研究所)

赵军   (中国科学院自动化研究所)

任务联系人:

曹鹏飞:pengfei.cao@nlpr.ia.ac.cn

张晨龙:zhangchenlong2023@ia.ac.cn

任务七:军事领域知识图谱多模态实体识别评测

任务描述:

随着感知技术及装备的迅速发展,军事多模态数据(包括卫星遥感图像、装备三维模型、战术文本报告等多源异构数据)呈现爆发式增长态势,多模态知识图谱在服务军事应用中的作用价值凸显。命名实体识别(Named Entity Recognition, NER)是知识图谱构建的关键技术,如何从多模态信息中自动识别和提取关键军事装备实体,成为构建军事领域多模态知识图谱的重要前提。传统命名实体识别任务聚焦于纯文本内容,近年来兴起的多模态命名实体识别(Multimodal NER, MNER)技术,能够将文本与图像一并作为提取对象,大幅度提升实体识别的多模态服务能力。然而,大部分MNER方法仅停留在“识别实体+分类”层面,未能实现实体与图像中具体区域的绑定,限制了在真实军事领域分析中的应用能力。为此,任务组织方在2020-2024年连续5年组织测评任务的基础上,聚焦基于视觉的多模态命名实体识别(Grounded Multimodal Named Entity Recognition, GMNER)技术,针对军事装备领域的互联网公开数据,协调力量人工标注了“文本-图像”对抽取样例数据集,包括命名实体、实体类型以及实体在图像中的定位信息。在此基础上精心策划本次技术评测任务,旨在推动多模态知识图谱构建技术发展,为军事装备领域专业化数据体系建设提供更好技术支撑,同时遴选优秀团队,共建军事领域知识图谱生态。本次评测的任务提交,将依托红山开源平台(https://www.osredm.com/competition/zstp2025/)开展,参赛队在该平台完成注册、数据下载、结果提交等工作。

任务组织者:

张  静,军事科学院系统工程研究院

任务联系人:

xwyu18@163.com

时间安排:

时间安排初定如下,后续如果有调整,以CCKS2025发布信息为准。

  • 报名时间:5月19日—8月1日
  • 样例数据集发布:6月1日
  • 结果提交:8月8日
  • 结果及测试数据集公示:8月15日
  • CCKS会议日期(评测报告及颁奖):9月19日—21日

任务八:网络媒体内容态势感知评测

任务描述:

网络媒体内容的立场分析与态势感知是网络空间治理的核心命题,直接关系到意识形态安全与社会稳定。本评测基准基于多源网络舆情数据构建,通过人工标注与多模型交叉验证相结合的方式,构建包含五百余个跨领域话题的基准数据集。评测体系聚焦舆情监测的五大核心能力维度:分别是(1)内容倾向性判断、(2)网络媒体事件敏感程度、(3)网络媒体事件严重程度、(4)网络媒体事件紧急程度(5)网络媒体事件影响范围。网络媒体内容倾向性评判是指通过对网络媒体内容的深入分析,精准判断其传达的立场倾向性的强度。网络媒体内容态势预警旨在通过对网络媒体事件的敏感程度、严重程度、紧急程度以及影响范围进行精准预判,及时发出预警信息,以便相关部门和机构能够迅速采取应对措施,有效降低事件的负面影响,维护网络空间的稳定与安全。通过系统性评估LLM在复杂社会场景下的态势感知能力,本任务旨在推动舆情监测技术从传统规则驱动向认知智能驱动的范式转变,为构建网络空间治理智能体提供关键技术支撑。评测详情参见 https://tianchi.aliyun.com/competition/entrance/532363

任务组织者:

杨敏,中国科学院深圳先进技术研究院

于思勤,中国科学院深圳先进技术研究院

骆晶,中国科学院深圳先进技术研究院

任务联系人:

杨敏:min.yang@siat.ac.cn 

于思勤:sq.yu@siat.ac.cn

时间安排:

  • 报名时间:5月14日—8月1日
  • 训练及验证数据发布:5月19日
  • 测试数据发布:8月1日
  • 测试结果提交:8月8日
  • 评测排名通知:8月15日
  • 评测论文提交:9月1日
  • CCKS2025会议日期(评测报告及颁奖):9月19日—21日

评测主席: