2024全国知识图谱与语义计算大会和知识图谱国际联合会议联办
（CCKS-IJCKG 2024）
评测任务

CCKS-IJCKG 2024组织知识图谱相关评测竞赛，旨在提供测试知识图谱与语义计算技术、算法、及系统的平台和资源，促进知识图谱领域的技术发展，以及学术成果与产业需求的融合和对接。去年，CCKS 2023评测竞赛环节共设立4个主题，7项任务，涵盖金融、电商、军事、医疗等领域，吸引了2771支队伍、近1.1万人参赛，共计35支队伍获得18万奖金，在工业界和学术界形成较高影响力。

今年，经过评测任务第一轮征集和评测组委会筛选，CCKS-IJCKG 2024目前共设11项评测任务。每项任务（或子任务）均设置一、二、三等奖（对应前三名），优秀评测论文也将推荐收录进入主会论文集。下面首先介绍各项任务：

任务一：大模型知识编辑评测 [任务书下载]

任务描述：

随着深度学习与预训练技术的快速发展，大模型如ChatGPT、Mistral、LLaMA、ChatGLM、文心一言、通义等在自然语言处理领域已经取得了显著的突破。大模型通过将海量的、以文本序列为主的世界知识预先学习进神经网络中，并通过参数化空间实现对知识的处理和操作，其揭示了大规模参数化神经网络在习得和刻画世界知识上的巨大潜力。不同于传统的符号知识工程，大模型的隐式参数知识具有表达能力强、任务泛化好等优点。

然而，大模型在处理和理解知识方面仍然存在一些挑战和问题，包括知识更新的困难，以及模型中潜在的知识谬误问题。随着模型参数量变大，大模型更新的成本逐渐变得非常高昂，而且更新后的模型鲁棒性难以保障。大模型微调、检索增强（RAG）和局部参数更新都是处理大模型知识谬误问题的技术手段之一。研究大模型知识编辑技术，以便使其可以像人类每天读书、看报一样进行知识更新具有重要意义：1）可以深入理解大模型知识存储机理；2）实现高效、低成本地大模型知识更新以缓解知识谬误问题；3）擦除模型参数中隐私、有害信息以实现大模型应用安全。大模型知识编辑方法一般可分为内部更新和外部干预方法。内部更新方法通过定位等方式来对大模型参数进行局部更新，外部干预法则在保留大模型原参数的前提下植入参数补丁或进行提示增强。为缓解大模型知识谬误问题和促进大模型知识编辑技术的发展，浙江大学在CCKS2024大会组织本次评测任务。

任务组织者：

张宁豫，浙江大学
姚云志，浙江大学
方继展，浙江大学
徐欣，浙江大学
王鹏，浙江大学
习泽坤，浙江大学
王梦如，浙江大学

学术指导组：

陈华钧，浙江大学
漆桂林，东南大学
王昊奋，同济大学
黄非，阿里巴巴

任务联系人：

姚云志：yyztodd@zju.edu.cn
张宁豫：zhangningyu@zju.edu.cn

任务二：大模型零样本知识抽取评测 [任务书下载]

任务描述：

随着深度学习和预训练模型技术的飞速发展，零样本知识抽取正吸引着越来越多的关注。在零样本知识抽取任务中，我们探究如何利用大型预训练语言模型如ChatGPT、Mistral、LLaMA、ChatGLM、文心一言、通义等，在没有任何针对特定任务标注数据的情况下，提取文本中的结构化信息。这些先进的语言模型内嵌了丰富的世界知识，能够通过其庞大的参数化网络对文本进行理解和分析，体现出它们在知识获取和任务泛化方面的优势。

零样本知识抽取聚焦于设计策略，使得大型预训练模型能够直接对新领域或不熟悉的任务进行操作，无需依赖手动标注的训练数据集。应用场景涵盖从非结构化文本中识别命名实体、提取关键信息、确定实体之间的关系、甚至是抽取更复杂的事件和情感等信息。本次任务的目标是评估并进一步促进大模型在零样本场景下的知识抽取能力，在没有专门针对性标注数据的支持下，挖掘模型处理不同类型和来源的文本所蕴含的潜力。这不但有助于减少知识抽取任务中的人力标注成本，同时也推动了对预训练模型语义理解和泛化能力的深入理解与探索。为激发研究者提出创新的零样本知识抽取方法，同时，在没有标注数据的条件下，为实际应用场景提供有效的知识抽取技术方案，浙江大学和蚂蚁集团在CCKS2024大会组织本次评测任务。

任务组织者：

张宁豫，浙江大学
袁琳，蚂蚁集团
桂鸿浩，浙江大学
孙梦姝，蚂蚁集团
罗玉洁，浙江大学
徐军，蚂蚁集团
方继展，浙江大学
渠源，蚂蚁集团
薛逸达，浙江大学
梁磊，蚂蚁集团

学术指导组：

陈华钧，浙江大学
周俊，蚂蚁集团
漆桂林，东南大学
王昊奋，同济大学

任务联系人：

桂鸿浩：guihonghao@zju.edu.cn
张宁豫：zhangningyu@zju.edu.cn

任务三：人物知识图谱复杂问答推理评测 [任务书下载]

任务描述：

人物是人类社会活动和事件组成的核心要素之一，与人物相关的信息查询和推理问答很常见，与其他领域的问答不同，人物相关的问答具有以下两种特点：（1）涉及数值统计和计算，如查询某歌手在2024年发表的专辑数量，（2）涉及人物关系的复杂推理，如查询某人的侄子是谁，但此信息并为被显式存储，需要根据兄弟关系和儿子关系推理得出。

人物相关的事实型信息常用结构化的知识图谱来表示和存储，因此我们提出了人物知识图谱复杂问答评测任务，该评测任务具有如下特点：（1）可查询类问题复杂：大部分问题为多步推理的问题，包括多跳查询、统计计数、以及逻辑组合；（2）有需关系推理的问题：部分问题无法通过查询得出，需要进行关系推理得出答案。

任务组织者：

张文，浙江大学
朱渝珊，浙江大学
金龙，浙江大学
刘志臻，蚂蚁集团
孙梦姝，蚂蚁集团

学术指导组：

陈华钧，浙江大学
梁磊，蚂蚁集团

任务联系人：

朱渝珊： yushanzhu@zju.edu.cn
孙梦姝：mengshu.sms@antgroup.co

任务四：中医知识理解与推理能力评测 [任务书下载]

任务描述：

随着大型语言模型（Large Language Model, LLM）如ChatGPT、GPT-4等在自然语言处理（NLP）领域的突破性进展，其展现的类似通用人工智能（AGI）的能力为中医的传承与创新提供了新的可能性。中医作为中国传统医学的重要组成部分，具有深厚的文化底蕴和独特的诊疗特性。与西医循证医学不同，中医在理论基础、诊断方法、治疗手段、防止观念以及整体观念等方面，与西医存在显著差异。同时在中医领域，语言表述往往富含哲理和象征意义，这对语言模型提出了更高的要求。因此直接将已有的西医评估基准用于中医评估无法全面评估语言模型在中医知识方面的潜力和实际效用。然而，在NLP社区中，尚未有一个标准的中医评测基准。

为推动LLM在中医领域的发展和落地，华东师范大学王晓玲教授团队联合复旦大学周雅倩、上海中医药大学周毅萍等专家学者，推出TCMBench评测基准。TCMBench评测基准依托于中医执业医师资格考试的丰富题库，全面覆盖三大考试范围，包括中医基础理论、中医临床医学，以及西医与临床医学的综合内容以及16个核心考试科目，共计9,788道真题和5,473道练习题。TCMBench评测基准旨在深度评估和精准测量LLM模型对中医知识的掌握水平，以及模型在中医情境下的解释和推理能力。作为首个专注于中医医疗场景的LLM评测基准，TCMBench不仅为开源社区提供了一个高效的评测工具，也助力业界快速评估自有LLM模型在中医领域的应用潜力。

任务组织者：

王晓玲，华东师范大学，xlwang@cs.ecnu.edu.cn
岳文静, 华东师范大学， wjyue@stu.ecnu.edu.cn
朱威, 华东师范大学， wzhu@stu.ecnu.edu.cn
孙长志, 华东师范大学， czsun.cs@gmail.com
王新宇，华东师范大学，xinyu_wang@stu.ecnu.edu.cn
周雅倩，复旦大学，yqzhou@cs.fudan.edu.cn
周毅萍，上海中医药大学，sunrising318@163.com

任务五：开放领域的知识图谱问答评测 [任务书下载]

任务描述：

本任务属于开放领域的中文知识图谱自然语言问答任务，简称CKBQA （Chinese Knowledge Base Question Answering）。即输入一句中文问题，问答系统从给定知识库中选择若干实体或属性值作为该问题的答案。问题均为客观事实型，不包含主观因素。理解并回答问题的过程中可能需要进行实体识别、关系抽取、语义解析等子任务。这些任务的训练可以使用额外的公开的语料资源，但是最终的答案必须来自给定的知识库。

知识图谱问答在当前互联网信息爆炸、人工智能盛行的时代是十分有战略价值和研究意义的。一方面，传统搜索引擎是以网页资源为核心，依据关键词索引、文本匹配等方式进行检索并返回给用户相关网页链接，而用户很多时候需要的只是对一个具体问题的特定解答。另一方面，诸如智能音箱、智能问诊等新一代产品应用通常也需要依赖于特定的知识图谱响应用户的自然语言请求。例如智能问诊应用可以依据医药健康领域的知识库对患者的情况进行初步诊断。本次知识图谱问答任务是在CCKS上举办的第六届。回顾以往几届，我们先后与恒生、妙健康、美团等业界代表合作，扩充了我们的知识库和问题集。今年，我们保留去年开放领域的问答数据以供参赛队伍对模型进行训练，同时我们还更新了验证集和测试集。我们期望参赛选手的问答系统既能处理各种百科类的浅层问题，也能处理具备一定领域知识。

任务组织者：

邹磊，北京大学王选计算机研究所，zoulei@pku.edu.cn
林殷年，北京大学王选计算机研究所，linyinnian@pku.edu.cn

任务六：基于图数据库的自定义图分析算法评测 [任务书下载]

任务描述：

本任务属于链接数据、知识融合和知识图谱存储管理。即指定一个特定的图查询或分析算法，用户通过实验平台的原子函数和可视化自定义函数编写模块，实现该算法，并借助实验平台验证算法的准确性和效率。以下为指定要求实现的图查询与图分析算法：（1）路径查询类算法：直径估计算法，（2）社区发现类算法：Louvain算法，（3）重要性分析类算法：介度中心度算法，（4）关联性分析类算法：Jaccard相似度算法、度数关联度算法。本评测任务所使用的知识图谱由LDBC SNB Datagen生成的模拟社交网络数据，测试和验证数据集的影响因子分别为SF1、SF10。

任务组织者：

邹磊，北京大学，zoulei@pku.edu.cn
李文杰，湖南第一师范学院，liwenjiehn@pku.edu.cn

任务七：数字金融领域大模型能力评测 [任务书下载]

任务描述：

随着GPT的诞生，大语言模型（Large Language Model, LLM）在自然语言处理领域掀起了新一轮研究狂潮。近一年多时间，国内外大模型纷纷出炉，不断刷新人们对各项任务的认知。面对各种各样的大模型，如何评价其综合能力，成为一项热门研究任务。为了推动LLM在数字金融领域的发展，并解决实际金融业务问题。招商银行联合中科院自动化所、科大讯飞股份有限公司，结合实际生产场景，推出数字金融领域评测基准（Digital Finance Model Evaluation Benchmark，DFMEB）。该评测基准包含六大场景（知识问答、文本理解、内容生成、逻辑推理、安全合规、AI智能体），涵盖69种金融任务，有利于帮助开源社区和业界快速评测公开或者自研LLM。

任务组织者：

徐洁馨，招商银行
陈玉博，中科院自动化所
王思睿，科大讯飞股份有限公司
刘康，中科院自动化所
赵军，中科院自动化所
贺瑶函，招商银行
杨一枭，招商银行
肖仕华，招商银行

任务联系人：

杨一枭：yangyixiao@cmbchina.com
王思睿: srwang5@iflytek.com
贺瑶函：heyh18@cmbchina.com
肖仕华：xsh115@cmbchina.com

任务八：面向篇章级文本的突发事件关系抽取 [任务书下载]

任务描述：

突发事件一般指对社会造成或可能会造成比较严重的危害，需要人们采取应急管理措施从而应对的公共卫生事件、事故灾难事件、自然灾害事件和社会安全事件。伴随着社交媒体的快速发展，互联网上突发事件的相关信息也急剧增多。从篇章级的新闻报道中准确识别突发事件之间的因果和时序关系，有助于分析事件的演化和发展脉络，从而对突发事件进行及时的态势研判，对于国家和社会安全具有十分重要的意义。

面向篇章级文本的突发事件关系抽取任务面临的挑战主要体现在以下几个方面：首先，篇章级文本通常涉及复杂的句法结构和丰富的语义信息，事件之间的关系可能跨越多个句子甚至段落，这就要求模型能够理解并处理长距离的依赖关系。其次，因果和时序关系的表达方式多样化，同一种关系可能通过不同词汇、句式或隐含的语境来表达，这就需要模型具备较强的推理来识别这些多样化表达。目前，事件因果关系研究大多将因果事件限定为一对一的关系，而在突发事件文本中，往往会包含多对因果事件，较为复杂的篇章还包含嵌套因果事件。因此，尽管这项任务具有重要的应用价值，但要实现高效准确的关系抽取，仍需克服上述挑战。

本次评测任务的文本语料来自于互联上的公开新闻报道，经过严格的手工标注和校对，涵盖4大类突发事件类型，12小类突发事件类型。任务目标是给定输入文本和其包含的事件列表，准确抽取出事件对之间的关系，并正确分类其关系类型为因果或时序。

任务组织者：

曹亚男，中国科学院信息工程研究所
方芳，中国科学院信息工程研究所
任昱冰，中国科学院信息工程研究所
李豪，中国科学院信息工程研究所

任务联系人：

任昱冰：renyubing@iie.ac.cn
李豪：lihao1998@iie.ac.cn

任务九：面向篇章级文本的突发事件摘要生成 [任务书下载]

任务描述：

突发事件一般指对社会造成或可能会造成比较严重的危害，需要人们采取应急管理措施从而应对的公共卫生事件、事故灾难事件、自然灾害事件和社会安全事件。伴随着社交媒体的快速发展，互联网上突发事件的相关信息也急剧增多。从篇章级的新闻报道中自动化地生成突发事件的摘要，凝练突发事件的关键信息，从而提高政府机构和公众获取突发事件核心内容的效率，对于国家和社会安全具有十分重要的意义。

突发事件影响范围广、信息来源多、事件要素分散，使得突发事件的摘要生成面临事件信息碎片化、篇章级文档噪声多、事件要素不完整等难题。（1）事件信息碎片化：不同媒体对同一突发事件进行报道时，会有不同的角度和侧重点。一些政治倾向强烈的媒体可能更注重事件的政治影响；而商业媒体则可能更加关注事件产生的经济影响。这样的报道针对性强，但会忽略其他方面的信息，导致在生成摘要时难以获取全面的事件信息。（2）篇章级文档噪声多：篇章级文本中可能含有大量的噪声信息，如无关的背景介绍或评论等，这些信息可能会干扰摘要生成，如何有效过滤这些信息以生成准确的事件摘要，也是该任务面临的挑战之一。（3）事件要素不完整：在突发事件的新闻描述中，事件细节的缺乏会导致突发事件要素不完整，进而影响生成摘要质量。因此，虽然这项任务具有重要意义，但要高效准确地实现它，需要克服众多挑战。

本次评测任务的文本语料来自于互联上的公开新闻报道，经过严格的手工标注和校对，涵盖4大类突发事件类型，12小类突发事件类型。任务目标是给定输入文本和其包含的事件列表，生成所有事件的摘要。

任务组织者：

曹亚男，中国科学院信息工程研究所
方芳，中国科学院信息工程研究所
任昱冰，中国科学院信息工程研究所
李豪，中国科学院信息工程研究所

任务联系人：

任昱冰：renyubing@iie.ac.cn
李豪：lihao1998@iie.ac.cn

任务十：基于大模型的军事装备领域问答生成技术评测 [任务书下载]

任务描述：

近年来，大型语言模型（简称大模型）的高速发展，推动了知识获取方式、信息服务形态的颠覆性变革。由于大模型的技术特点，其赋能军事应用的效果评估、能力提升等工作，均极大依赖于专业的问答数据集。而由于军事装备领域数据的细分性、封闭性难获取性等特点，依赖领域专家完全人工构建数据集的代价过于高昂而难以有效实施。基于优势大模型自动生成领域问题与答案，辅助领域专家人工审核修正，是垂直领域专业问答评测数据集构建的可行途径。为此，任务组织方在2020-2023年连续4年组织军事装备无人系统等测评任务的基础上，协调相关领域专家，针对军事装备领域的互联网公开数据，人工标注了问答对生成样例数据集，包括填空题、单选题、判断题、复杂问答题等四种类型问题及答案。在此基础上组织本次技术评测，以期提升基于大模型的领域问答生成技术水平，更好的支持军事装备领域专业化数据集构建工作，同时遴选优秀团队，共同促进军事装备领域大模型应用。

任务组织者：

张静，军事科学院系统工程研究院

任务联系人：

lrp_ph@163.com

任务十一：Archer: 双语Text-to-SQL评测 [任务书下载]

任务描述：

自然语言以一种更加友好和直观的方式与数据库进行交互是一个具有挑战性的工作，它旨在将自然语言问题转换为可执行的SQL语句。最近的一些工作在已有的数据集中取得了不错的性能，但是它们不能有效地支撑落地时需要的一些推理能力，如：计算推理、常识推理和假设推理。为此，我们和爱丁堡大学合作提出了Archer，一个包含了以上三种推理类型的数据集，来进行更加复杂和微妙的查询。我们使用大语言模型和微调过的模型进行了测试，即使是在已有数据集上取得SOTA的方法，在我们的数据集上仍然只有6.73%的可执行率，这说明Archer对目前的模型和技术来说，是一个具有挑战性的数据集。

Archer具有三种推理类型：计算推理、常识推理和假设推理。其中计算推理在SQL的具体应用场景中具有重要比重；常识推理是指基于隐含的常识知识进行推理的能力，Archer包含一些需要理解数据库的问题，从而帮助推断出问题中没有指明的细节；假设推理要求模型具有理解假设的思维能力，是一种基于可见事实和反事实假设，对未见过的情况进行想象和推理的能力。

任务组织者：

Jeff Pan，爱丁堡大学
闫智超，山西大学
Wenyu Huang，爱丁堡大学

学术指导组：

Jeff Pan, 爱丁堡大学
李茹，山西大学
Mirela Lapata, 爱丁堡大学

任务联系人：

闫智超：zhichaoyan@foxmail.com

评测任务

2024全国知识图谱与语义计算大会和知识图谱国际联合会议联办（CCKS-IJCKG 2024）评测任务

2024全国知识图谱与语义计算大会和知识图谱国际联合会议联办
（CCKS-IJCKG 2024）
评测任务