评测任务 – 2026全国知识图谱与语义计算大会

全国知识图谱与语义计算大会（CCKS2026）

2026年 8月21~23日，西安
http://sigkg.cn/ccks2026/

CCKS 2026组织知识图谱相关评测竞赛，旨在为研究者提供测试技术、算法及系统的平台，推动知识图谱与大模型结合方向的研究进展与产业落地。在2025年，评测竞赛环节共包含 8 项竞赛，涵盖知识编辑、知识抽取、复杂问答等多项任务，吸引了超过 2100 支队伍、近 3000 人参赛，共计 15 万奖金，在工业界和学术界形成较高影响力。

今年，经过评测任务第一轮征集和评测组委会筛选，CCKS 2026目前共设8项评测任务。每项任务均设置一、二、三等奖（对应前三名）。CCKS 2026 将遴选优秀评测论文，择优收录进入大会主会论文集，以系统凝练评测成果，扩大评测任务的学术影响力，推动相关研究与应用进一步发展。

评测任务介绍

任务一：跨模态文旅领域知识图谱构建评测 [任务书下载]

任务描述：

文旅领域知识图谱是构建智能化文旅服务应用（如景区智能导览、旅游问答、线路推荐、文化溯源等）的重要基础设施。近年来，随着互联网上文旅相关内容的爆发式增长，以及历史文化数据的持续开放与沉淀，构建文旅领域知识图谱已具备充足的数据来源基础。然而，相比通用领域知识图谱，文旅领域知识图谱的构建面临三类核心技术挑战，严重制约了知识图谱的质量与实用性：其一，实体消歧与规范化——同一实体在不同来源中往往存在大量别名、简称、历史称谓及俗称，如何实现跨来源、跨表述的实体对齐是首要难题；其二，细粒度有效实体提取——原始数据中夹杂大量语义宽泛的泛化实体，如何识别并过滤以保持图谱的领域聚焦度是关键问题；其三，跨模态知识融合——现有方法主要依赖文本，未能充分利用图片和视频中蕴含的丰富知识，如何将多模态内容与文本知识有机融合是推动图谱走向实用的重要方向。为促进学术界和工业界在上述三大挑战上的技术突破，新华智云科技有限公司在 CCKS 2026 大会组织本次评测任务。本评测任务基于公开的历史文化数据集及互联网文旅数据，围绕细粒度有效实体提取与消歧、跨模态知识扩充两个子任务展开，旨在推动文旅领域知识图谱构建技术的创新发展，并促进学术成果向实际智能文旅应用场景的落地转化。新华智云科技有限公司依托阿里云天池平台在 CCKS 2026 大会组织本次评测任务。

任务组织者：

仇应俊，新华智云科技有限公司

王灿进，新华智云科技有限公司

任务联系人：

仇应俊：qiuyingjun@shuwen.com

王灿进：wangcanjin@shuwen.com

任务二：大模型行为调控评测 [任务书下载]

任务描述：

随着深度学习与预训练技术的快速发展，大模型（如 ChatGPT、Mistral、LLaMA、ChatGLM、DeepSeek、通义等）在自然语言处理领域取得了显著突破。这类模型通过在大规模语料上进行预训练，将海量世界知识编码进参数空间，并在推理过程中对这些知识进行隐式调用与组合，展现出强大的知识表达能力与跨任务泛化能力。相较于传统符号知识工程方法，大模型以分布式参数形式存储知识，在复杂语义建模与开放场景推理中具有明显优势。然而，在知识层面，大模型仍面临若干关键挑战，例如知识更新成本高、知识滞后以及潜在知识谬误等问题。随着模型规模的持续扩大，重新训练或进行大规模微调的代价愈发高昂，同时还可能引发性能退化与鲁棒性下降。因此，如何对模型内部知识进行高效、精准且可控的干预，已成为当前研究的重要方向之一。近年来，围绕大模型知识调控的方法逐步形成体系，包括参数微调、检索增强（RAG）以及局部知识编辑等技术路径。在此基础上，steering（行为引导与调控）作为一种新技术，正受到越来越多关注。与直接修改模型参数不同，steering强调在推理阶段对模型行为进行动态引导与调控，即通过对中间表示或输出分布施加干预，实现对知识表达、事实生成及行为属性的精细控制，从而在不改变模型权重的前提下完成知识层面的“软编辑”。为推动相关研究的发展，浙江大学已在CCKS2024与CCKS2025连续组织大模型知识编辑评测任务。在此基础上，CCKS2026进一步聚焦于steering作为行为引导调控范式，围绕其在模型行为控制与知识调控中的能力与效果开展系统评测。本次评测将依托阿里巴巴天池平台（https://tianchi.aliyun.com/）展开，旨在促进面向可控生成与知识调控的大模型关键技术发展。

任务组织者：

张宁豫，浙江大学

姚云志，浙江大学

方继展，浙江大学

徐浩铭，浙江大学

徐柯伟，浙江大学

陈文亮，苏州大学

黄新武，苏州大学

熊浩，苏州大学

学术指导组：

陈华钧，浙江大学

漆桂林，东南大学

王昊奋，同济大学

任务联系人：

方继展：fangjizhan@zju.edu.cn

张宁豫：zhangningyu@zju.edu.cn

熊浩： hxiongxionghao@stu.suda.edu.cn

黄新武：xwhuang1@stu.suda.edu.cn

陈文亮：wlchen@suda.edu.cn

任务三：大模型知识编辑评测 [任务书下载]

任务描述：

大模型通过将海量的、以文本序列为主的世界知识预先学习进神经网络中，并通过参数化空间实现对知识的处理和操作，其揭示了大规模参数化神经网络在习得和刻画世界知识上的巨大潜力。不同于传统的符号知识工程，大模型的隐式参数知识具有表达能力强、任务泛化好等优点。然而，大模型在处理和理解知识方面仍然存在一些挑战和问题，包括知识更新的困难，以及模型中潜在的知识谬误问题。随着模型参数量变大，大模型更新的成本逐渐变得非常高昂，而且更新后的模型鲁棒性难以保障。大模型微调、检索增强（RAG）和局部参数更新都是处理大模型知识谬误问题的技术手段之一。研究大模型知识编辑技术，以便使其可以像人类每天读书、看报一样进行知识更新具有重要意义：1）可以深入理解大模型知识存储机理；2）实现高效、低成本地大模型知识更新以缓解知识谬误问题；3）擦除模型参数中隐私、有害信息以实现大模型应用安全。大模型知识编辑方法一般可分为内部更新和外部干预方法。内部更新方法通过定位等方式来对大模型参数进行局部更新，外部干预法则在保留大模型原参数的前提下植入参数补丁或进行提示增强。本次评测将依托阿里巴巴天池平台（https://tianchi.aliyun.com/）展开。

任务组织者：

张宁豫，浙江大学

姚云志，浙江大学

方继展，浙江大学

徐浩铭，浙江大学

徐柯伟，浙江大学

陈文亮，苏州大学

黄新武，苏州大学

熊浩，苏州大学

学术指导组：

陈华钧，浙江大学

漆桂林，东南大学

王昊奋，同济大学

任务联系人：

方继展：fangjizhan@zju.edu.cn

张宁豫：zhangningyu@zju.edu.cn

熊浩： hxiongxionghao@stu.suda.edu.cn

黄新武：xwhuang1@stu.suda.edu.cn

陈文亮：wlchen@suda.edu.cn

任务四：大模型知识密集型推理评测 [任务书下载]

任务描述：

随着大语言模型在各类自然语言理解任务上取得突破，传统以固定数据集和单一分数为核心的静态评测范式正逐渐暴露出局限。一方面，训练语料规模的持续扩张导致评测数据集频繁遭到“数据污染”，模型可能依赖记忆而非真实的泛化与推理能力在基准测试中获得高分；另一方面，静态基准的反复使用使排行榜成绩不断逼近上限，却难以揭示模型在细粒度推理环节中的脆弱性。上述问题在知识密集型推理任务中尤为突出——此类任务高度依赖准确的事实知识、可靠的信息锚定以及可追溯的多步推理过程。为此，我们提出「大模型知识密集型推理评测」（OneEval），旨在推动大模型评测发展，构建兼具挑战性、可解释性与可控难度的新一代评测标准。

本评测任务通过深度挖掘大模型在处理开源复杂知识推理任务的错误案例，精心构建出250个更具挑战性且难度可控的新测试实例。参评模型需应对基于文本（Text）、知识图谱（KG）和表格（Table）等多种模态的复杂推理场景，回答自然语言问题。与传统评测不同，本次评测主要关注以下两个维度：

知识压力（K-Stress）：在刻意缺失部分关键事实的前提下构造跨域桥接推理任务，检验模型在知识不完备情境下的推理能力；
推理压力（R-Stress）：通过引入虚构实体、设定虚拟场景，考察模型在不利用自身参数记忆的情况下的长链推理能力。

任务组织者：

陈永锐，东南大学

马阳阳，东南大学

黄晓莹，东南大学

沈小力，东南大学

任务联系人：

陈永锐，东南大学认知智能研究所，yongruichen@seu.edu.cn

马阳阳，东南大学认知智能研究所，220252382@seu.edu.cn

任务五：复杂约束条件下的文本属性抽取评测 [任务书下载]

任务描述：

近年来，随着NLP和LLM技术进步，信息抽取能力显著提升，在知识图谱、智能问答等领域应用广泛。该技术需精准识别文本语义并满足约束条件，尤其面对长文本和复杂语境时，对模型的理解与规范输出要求更高。文本属性抽取任务需从文本中提取对象及其属性，并符合词性、语义等约束，这对模型的信息筛选和结构化表达能力提出挑战。然而，现有评测多聚焦单一或弱约束场景，缺乏对“对象-属性-词性”等多重约束下抽取能力的系统评估。复杂文本中模型常出现漏抽、误抽等问题，难以满足真实应用需求。因此，亟需设计统一评测任务，以全面评估模型在复杂约束下的文本属性抽取性能。基于上述背景，在本届 CCKS2026 赛事中，主办方围绕文本属性抽取这一核心问题，设计了一个更加贴近真实应用场景的统一评测任务——复杂约束条件下的文本属性抽取评测任务。该任务通过构造多样化的抽取问题，将抽取对象类别、属性类型以及词性要求有机结合，采用统一评价模式，对参赛系统在复杂约束条件下的语义理解、指令解析与信息抽取能力进行综合评测。中山大学软件工程学院依托阿里云天池平台在 CCKS2026 大会组织本次评测任务。

任务组织者：

刘井平，中山大学软件工程学院

王焱林，中山大学软件工程学院

陈文清，中山大学软件工程学院

余建兴，中山大学人工智能学院

任务联系人：

刘井平：liujp68@mail.sysu.edu.cn

王焱林：wangylin36@mail.sysu.edu.cn

陈文清：chenwq95@mail.sysu.edu.cn

余建兴：yujx26@mail.sysu.edu.cn

学术指导组：

刘井平，中山大学软件工程学院

王焱林，中山大学软件工程学院

陈文清，中山大学软件工程学院

余建兴，中山大学人工智能学院

任务六：大模型生成文本检测及溯源 [任务书下载]

任务描述：

近年来，人工智能（AI）技术的快速发展正在深刻重塑人类内容创作的方式，人工智能生成内容（AIGC）已在新闻写作、教育辅导、社交媒体、办公协作等多个场景中广泛涌现。相较于图像、音频等模态，文本内容具有传播门槛低、生成成本低、应用范围广、社会影响直接等特点，一旦被大规模用于信息发布、舆论传播、学术写作或日常沟通，便可能带来内容真实性下降、责任归属模糊、滥用风险上升等问题。因此，面向文本领域开展大模型生成文本检测（LLM-Generated Text Detection）研究，不仅具有重要的学术价值，也对内容治理、平台审核、教育诚信和大模型安全应用具有现实意义。

在上一届 CCKS2025 中，主办方组织了“大模型生成文本检测”比赛，任务目标是判断一段文本属于“人类撰写”还是“机器生成”，即一个二分类任务。然而，随着大模型能力的持续提升以及人机协同创作模式的普及，越来越多的文本不再是纯粹的人类创作或纯粹的机器生成，而是在人机交互过程中共同完成。由此可见，传统的二分类设定已难以满足更加真实、更加细粒度的应用需求。与此同时，一个更进一步的问题也逐渐凸显：在识别文本是否由模型生成的基础上，能否进一步分析其生成来源，即判定其背后的生成模型家族？

基于上述背景，在本届 CCKS2026 赛事中，主办方紧跟大模型安全与治理的发展趋势，设计了一个更贴近真实应用场景的联合评测任务——大模型生成文本检测及溯源。该任务将文本检测与来源分析有机结合，采用统一评价模式，对参赛系统的综合能力进行评测。具体而言，给定一段文本，系统首先需要判断其属于以下三类之一：
① 纯人类撰写；
② 纯机器生成；
③ 人机协作产生。

在此基础上，若系统判定文本为“纯机器生成”，还需要进一步识别其生成来源所属的模型家族。

为兼顾任务创新性与参赛可行性，本次评测在最终排名中采用“检测性能为主、溯源性能为辅”的统一加权评分方式，其中溯源分析仅针对纯机器生成文本进行评估。换言之，参赛系统只需在文本检测方面具备较强性能，即有机会取得较好的比赛成绩；而在溯源方面表现更优的系统，则有望展示更全面的能力。中国科学院信息工程研究所依托阿里云天池平台在 CCKS2026 大会组织本次评测任务。

任务组织者：

曹亚男，中国科学院信息工程研究所

任昱冰，中国科学院信息工程研究所

汪卓商，中国科学院信息工程研究所

任务联系人：

任昱冰：renyubing@iie.ac.cn

汪卓商：wangzhuoshang@iie.ac.cn

学术指导组：

虎嵩林，中国科学院信息工程研究所

刘燕兵，中国科学院信息工程研究所

任务七：面向军事装备领域的可解释知识推理 [任务书下载]

任务描述：

推理是认知能力的重要组成，知识推理已成为军事智能问答、情报分析、判断决策等应用的核心技术。现有知识推理方法多侧重答案准确性，在推理过程可解释性方面缺乏支撑，难以满足军事领域高可信、可追溯的应用需求。为此，任务组织方在2020-2025年连续6年组织测评任务的基础上，特设面向军事装备领域的可解释知识推理评测任务。任务基于公开数据中收集整理的军事装备领域文本，构建了高精度知识图谱，并协调领域专家人工标注了可解释知识推理样例数据集，包括复杂多跳推理问题、问题答案以及由多个关联三元组组成的推理证据链。要求参赛队伍针对给定的自然语言问题，依托从文本证据中抽取得到的知识图谱执行知识推理，并输出最终答案以及推理证据链，以体现推理过程的可解释性。本次任务旨在推进军事领域可解释认知推理技术研究，构建军事领域专业化数据体系，同时遴选优秀团队，共建“以图促智”的军事垂直领域智能服务生态。参赛队需首先在红山开源平台完成注册（https://www.osredm.com/competition/zstp2026），并在“参赛报名”处填写相关信息，鉴于本次评测专家标注样例数据集的价值，参赛队需提交队长所在单位证明（相关要求见报名页面）。参赛队通过审批环节后，可在红山开源平台完成样例数据集下载与结果提交。

任务组织者：

张静，军事科学院系统工程研究院

任务联系人：

xwyu18@163.com

任务八：法律知识图谱增强的声明判定与可解释生成评测 [任务书下载]

任务描述：

近年来，随着自然语言处理（NLP）和大规模语言模型（LLM）技术的飞速进步，信息理解与逻辑推理能力显著提升。在法律等高可靠性应用场景中，系统不仅需要精准识别法律语义，更需具备严谨的推理与可解释性。然而，现有评测多侧重于通用领域的文本生成，缺乏在法律知识图谱与大模型融合背景下，对“事实判定-知识检索-合理解释”这一全链路能力的深度评估。基于上述背景，在本届 CCKS 2026 赛事中，主办方设计了 “法律知识图谱增强的声明判定与可解释生成评测任务”。该任务基于历年司法考试客观题构建，将复杂的多选题拆解为若干独立的法律声明。同时，任务提供了一个覆盖全、权威性高的RAG（检索增强生成）知识库，包含宪法、刑法、民法典等 284 部法律法规及 18 本权威法学教材。该任务旨在评估智能系统在复杂法律语境下的事实判断能力与可解释推理能力，推动知识驱动的法律智能技术发展。南京航空航天大学计算机科学与技术学院依托阿里云天池平台在 CCKS2026 大会组织本次评测任务。

任务组织者：

臧天梓，南京航空航天大学计算机科学与技术学院

任务联系人：

臧天梓 zangtianzi@nuaa.edu.cn

王书缘 wangshuyuan@nuaa.edu.cn

学术指导组：

吴天星，东南大学

李逸聪，南京航空航天大学

刘佳俊，东南大学

时间安排

报名时间：5月1日—7月3日
训练及验证数据发布：5月15日
测试数据发布：7月3日
测试结果提交：7月10日
评测排名通知：7月17日
评测论文提交：8月3日
CCKS 2026 会议日期（评测报告及颁奖）：8月21日—23 日

评测主席

刘井平，中山大学（liujp68@mail.sysu.edu.cn）
毕胜，东南大学（bisheng@seu.edu.cn）