评测任务CFP

一、任务简介

CCKS技术评测旨在为研究人员提供测试知识图谱与语义计算技术、算法、及系统的平台和资源,促进国内知识图谱领域的技术发展,以及学术成果与产业需求的融合和对接。CCKS2020技术评测吸引了4056支队伍报名参赛,形成了较高的影响力。经过前期的评测任务征集和评测组委会筛选,CCKS 2021共设立五个评测主题,共十四个评测任务,任务列表如下专委会为每个任务前三名设立奖金并颁发证书(具体任务奖励参见评测任务书),同时组委会将针对不同任务特别评选“创新技术奖”(具体任务奖励参见评测任务书),专门用于鼓励创新性技术的使用。专委会还将协同Data Intelligence期刊编辑部组织“评测论文主题专刊”,优秀评测论文将推荐至该专刊免费发表。

主题一:领域信息抽取

任务一:地址文本分析

任务描述:人类的活动离不开位置,从空间上可以表征为坐标,从文本上表征为通讯地址。通讯地址广泛存在于电商物流、政府登记、金融交通等领域。对通讯地址的分析、聚合服务已经是一项重要基础服务,支撑着诸多互联网场景,比如地图搜索、电商物流分析等。实际应用中,地址文本存在写法自由、缺省别名多、地域性强等特点,对地址的解析、归一和匹配等都造成困难。针对这些难点,阿里达摩院机器智能技术团队联合CCKS2021大会举办此次地址评测任务。该评测包含2个子任务,分别是:中文地址要素解析、地址文本相关性。

地址要素解析是将地址文本拆分成独立语义的要素,并对这些要素进行类型识别的过程。地址文本相关性主要是衡量地址间的相似程度。

地址要素解析与地址相关性共同构成了中文地址处理两大核心任务,具有很大的商业价值。目前中文地址领域缺少标准的评测和数据集,这次我们将开放较大规模的标注语料,希望和社区共同推动地址文本处理领域的发展。

评测奖励:

本评测总奖金共计10万元,每个子任务总奖金5万元,奖金设置如下:

第一名:20,000元

第二名:12,000元

第三名:8,000元

技术创新奖2名:5,000元

任务组织者:

谢朋峻(阿里巴巴达摩院)

王潇斌 (阿里巴巴达摩院)

丁瑞雪 (阿里巴巴达摩院)

陈漠沙(阿里云-天池平台)

张梅山(CCF自然语言处理专委会)

任务联系人:

王潇斌 (xuanjie.wxb@alibaba-inc.com)

丁瑞雪  (ada.drx@alibaba-inc.com)

评测任务钉钉群号:32039787

任务二:面向通信领域的过程类知识抽取

任务描述:通信领域存在多种的过程类知识,如硬件安装(基站主设备安装操作步骤)、参数配置(配置网元开通与对接相关的参数)、集成调测(网元开通调试和功能验证)、故障处理(修复网元开通或正常运行中出现的故障)等, 其中故障处理过程类知识尤为重要。通信运维过程中,通过“事件”及“事件关系”对故障过程知识进行梳理,给用户呈现故障发生的逻辑,提供故障排查和故障恢复方案,指导一线处理现网故障。在故障知识整理过程中,“事件抽取”与“事件共指消解”是实现故障脉络、排查步骤和恢复步骤梳理的重要手段。 通信领域“事件抽取”的挑战在于通信业务的复杂和任务本身的复杂,其中通信业务的在于复杂的领域长词、歧义事件、元素共用等,而任务本身的复杂在于多任务识别(包括触发词和角色识别)、元素间的依赖关系等。“事件共指消解”的难点在于事件元素表述多样化和事件元素缺损(漏抽取、文本描述缺损)。

本次评测任务的语料来源主要是华为公司的公开故障处理案例。本次评测任务的事件类型包括:指标恶化类、软硬件异常、采集数据、核查类、配置类故障、外部事件、调整机器、操作机器等。

评测奖励:

第一名:人民币10000元

第二名:人民币3000元

第三名:人民币2000元

技术创新奖:人民币5000元

备注:每个子任务单独设立奖项,每个子任务最多有一个队伍获得技术创新奖,技术创新奖和前三名可以兼得,优胜者有机会进入2021年华为校园招聘的优招通道。

任务组织者:

谢远涛 (华为)

孙伟健 (华为)

陈玉博 (中科院自动化所)

赵军   (中科院自动化所)

任务联系人:

谢远涛:xieyuantao2@huawei.com 

陈玉博:yubo.chen@nlpr.ia.ac.cn

任务三:网页文件中学者画像任务

任务描述:随着大数据和人工智能的发展,刻画用户的基本画像、行为画像、心理画像等已广泛应用于搜索、推荐系统等任务。高端人才画像旨在对专家学者的精准事实知识进行抽取、标签化和统计分析,进而用于学术搜索、科研服务、人才挖掘等方面,推动学术人工智能和科技情报分析系统的发展。本次大赛主要挖掘专家的基本画像,但现有的挖掘方法受限于标注数据集或者基于规则统计的方法,因而效果有限。希望选手能够结合当下最先进的AI和NLP技术,深入挖掘web文本中的专家标签信息,构建模型实现精准的高端人才画像。

评测奖励:

总奖金2.5万元

1、第一名(1支队伍):1万元

2、第二名(2支队伍):各2000元

3、第三名(4支队伍):各1500元

技术创新奖:5000 元

备注:每个子任务单独设立奖项,每个子任务最多有一个队伍获得技术创新奖,技术创新奖和前三名可以兼得,优胜者有机会进入清华大学计算机系知识工程实验室实习。

任务组织者:

王路路(清华大学AMiner)

姜鹏 (清华大学AMiner)

刘佳(清华大学AMiner)

任务联系人:

王路路 llwangxju@163.com

姜鹏 peng.jiang@aminer.cn

刘佳 jia.liu@aminer.cn

任务四:面向中文电子病历的医疗实体及事件抽取

任务描述:本任务是CCKS围绕中文电子病历语义化开展的系列评测的一个延续,在CCKS 2017,2018, 2019, 2020相关评测任务的基础上进行了延伸和拓展。本次评测依然是聚焦在两个任务:医疗命名实体识别和医疗事件抽取。与往年不同的是本次评测要求参赛者提供一个解决方案来同时解决实体识别和事件抽取两个任务。参赛者在建模过程中尽可能的利用两个任务间的关系来提高最终的效果。参赛者需在两个子任务上进行测试,两个子任务测试集上的综合表现作为最终的评测结果。

评测奖励:

第一名:人民币12000元

第二名:人民币8000元

第三名:人民币4000元

创新奖:人民币6000元

任务组织者:

刘丁枭(清华大学知识工程实验室)

刘光亮(医渡云)

于琦(山西医科大学)

汤步洲(哈尔滨工业大学(深圳))

任务联系人:

温清华:Wtsinghua1@163.com

刘丁枭:liudingxiao@mail.tsinghua.edu.cn

刘光亮:guangliang.liu@yiducloud.cn

主题二:篇章级信息抽取

任务五:通用细粒度事件检测

任务描述:“事件检测”任务的目标是从纯文本中自动识别出事件的触发词(最准确表示事件发生的关键词或短语)并分类出其对应的事件类型。事件检测是事件抽取的第一步,也是学习事件语义和事件知识的最基础步骤。以往的事件检测数据往往只关心特定领域的有限事件类型,而且规模也较小,这限制了在其上开发的模型的实用性和通用性。本评测构建了包含十万余个事件实例的大规模英文数据集,覆盖了168类通用域事件类型,以期评测现有技术对通用域的普遍事件语义的检测能力。同时本评测鼓励探索事件间的层次标签体系、文档主题等额外信息对事件检测的帮助作用。

评测奖励:

第一名:8000元

第二名:5000元

第三名:4000元

创新奖:3000元

任务组织者:

王晓智(清华大学知识工程实验室)

刘丁枭(清华大学知识工程实验室)

林衍凯(腾讯·微信AI)

李鹏(腾讯·微信AI)

周杰(腾讯·微信AI)

任务联系人:

通用事件检测评测组委会:maven_ccks@163.com

王晓智:wangxz20@mails.tsinghua.edu.cn

刘丁枭:liudingxiao@mails.tsinghua.edu.cn

林衍凯:yankailin@tencent.com

任务六:面向金融领域的篇章级事件抽取和事件因果关系抽取

任务描述:事件抽取是舆情监控和金融领域的重要任务之一。“金融事件”在金融领域是投资分析,资产管理的重要决策参考;事件也是知识图谱的重要组成部分,事件抽取是进行图谱推理、事件分析的必要过程。“事件抽取”的挑战体现在文本的复杂和任务的复杂。文本的复杂体现在事件抽取的输入文本可能是句子、段落或者篇章,不定长度的文本使得限制文本长度的模型无法使用;任务的复杂体现在事件识别的任务包括:事件类型识别,事件要素抽取,事件关系抽取等等。本评测任务的目标是解决篇章级事件元素抽取和事件因果关系抽取这两个核心的知识抽取问题。

评测奖励:

第一名:5000元

第二名:3000元

第三名:2000元

创新奖:5000元

备注:该任务包含两个子任务,以上奖励为每个子任务的奖励标准。

任务组织者:

王太峰(蚂蚁集团)

王峰  (蚂蚁集团)

张可尊 (蚂蚁集团)

陈玉博 (中科院自动化所)

刘康   (中科院自动化所)

赵军   (中科院自动化所)

任务联系人:

王峰:zifan.wf@antgroup.com

陈玉博:yubo.chen@nlpr.ia.ac.cn

主题三:链接预测

任务七:表型-药物-分子多层次知识图谱的链接预测

任务描述:过去的三十多年里,基于靶点的药物发现(Target-based Drug Discovery, TDD)是药物发现的主要方法。由于靶点明确,使用TDD很容易设计药物筛选试验,因此在过去有大量的成功案例。使用TDD方法来开发药物,药物发现的时间、过程和所需资源都是可预测的。近年来,随着细胞表型筛选技术,如诱导多能干细胞(iPS)技术、CRISPR-Cas技术、类器官和成像分析技术的飞速发展,表型药物发现(Phenotypic Drug Discovery, PDD)重新回到了人们的视线。在药物发现的研发中,研究者需要对各种药物做大量生物实验,从而确定药物治疗效果,但是此步骤需花费大量时间。机器学习是AI领域的一个强大的分支,它通过复杂的数据决策方案加速研究。在过去的10年里,AI方法学和机器学习算法已经成功地应用于药物发现的各个阶段,并逐步融入到大型制药公司的药物发现策略中。在大数据和人工智能时代,我们可以收集大量的临床和实验数据,利用AI算法对药物和基因的靶向作用、药物和表型的治疗作用等进行预测。其中,基于知识图谱是解决该问题的一种途径,通过构建表型-药物-分子多层次知识图谱,利用大规模图算法以及知识推理来预测疾病、症状、药物、基因、副作用等之间关系。表型-药物-分子多层次知识图谱依据表型(疾病、症状)、药物、基因等及其之间的关系来构建的知识图谱,其包含了大量实体及其关系数据,可以为致病机理和药理作用机制的研究提供一定支持。这些问题对于进一步了解疾病的分子机制、发掘潜在的药物治疗机理具有重大的实际意义和学术价值。

本任务基于表型-药物-分子多层次知识图谱进行关系预测,如药物和基因/蛋白的靶向作用、药物和表型的治疗作用、蛋白间的交互作用等。评测依据知识图谱模式(Schema)和知识图谱的实体、实体之间的关系,预测新的两个实体的关系。评测本身不限制各参赛队伍使用的模型、算法和技术。可以利用各种图算法模型,预训练等手段进行图谱上的关系预测,共同促进知识图谱技术的发展。

评测奖励:

第一名:5000元

第二名:3000元

第三名:2000元

创新奖:5000元

任务组织者:

周雪忠(北京交通大学)

杨扩(北京交通大学)

贾婷(北京交通大学)

夏佳楠(北京交通大学)

董汉阳(北京交通大学)

任务联系人:

杨扩​:yangkuo@bjtu.edu.cn

贾婷​: tingjia@bjtu.edu.cn

董汉阳​:20125154@bjtu.edu.cn

主题四:知识图谱构建与问答

任务八:保险领域信息抽取和运营商知识图谱推理问答

子任务1:面向保险领域的低资源文档信息抽取

任务描述:随着知识图谱在各个行业的应用,使用信息抽取技术从文档中挖掘大规模图谱知识已经成为了一个研究热点。然而当前信息抽取任务多关注于从无结构化文本中抽取知识,忽略了文档中丰富的格式信息。同时,在真实的业务场景下,文档级信息抽取标注数据的获取成本十分高昂,现有信息抽取方法在少量标注样本下的表现性能不佳,已经成为阻碍行业知识图谱规模化应用的主要瓶颈之一。

为此,阿里巴巴和中国人寿联合举办“面向保险领域的低资源文档信息抽取”评测任务,希望通过此次评测任务及开放的中文文档信息抽取数据集,助力中文文档信息抽取技术的发展及其商业化落地应用。本次评测面向真实业务场景下的商业文档理解需求,提供保险领域的少量标注数据和大量无标注数据,期望参与者能够充分利用文档格式信息,在低资源标注场景下完成“文档标题层级抽取”和“文档开放信息抽取”两个子任务。

评测奖励:

一等奖(1名):15000元

二等奖(2名):10000元

三等奖(3名):5000元

创新技术奖(2名):3000元

任务组织者:

唐呈光 (阿里巴巴达摩院)

石薇薇 (阿里巴巴达摩院)

孟晓英(中国人寿保险股份有限公司)

任务联系人:

唐呈光: chengguang.tcg@alibaba-inc.com

石薇薇: shiweiwei.sww@alibaba-inc.com

孟晓英:844509841@qq.com

子任务2:运营商知识图谱推理问答

任务描述:基于知识图谱的问答系统,通过对用户输入query进行语义理解,生成结构化查询语句,从给定知识库中选择若干实体或属性值作为该问题的答案。当前知识图谱问答系统在简单句(单实体单属性)上已经取得比较好的效果,而在约束句:条件约束句、时间约束句,以及推理型问句:比较句、最值句、是否型问句以及问句中带有交集、并集和取反的问句等,其逻辑推理能力还有待提升。

以电信运营商场景为例,比如:“不含彩铃的套餐有哪些?”、“支持长途漫游,价格低于100元的套餐有哪些?”、“神州行B套餐是5G套餐吗”等,这类需要推理的Query目前的问答系统难以回答。阿里巴巴与中移在线服务有限公司发布的此次评测任务,是希望参赛选手基于我们提供的运营商知识图谱,将用户这类真实query作为输入,构建模型预测其答案。为帮助参赛选手提高问答效果,训练文件会提供问题对应的SPARQL查询。该任务的训练可以使用额外的资源,但是最终的答案必须来自给定的知识库。

评测奖励:

一等奖(1名):15000元

二等奖(2名):10000元

三等奖(3名):5000元

创新技术奖(2名):3000元

任务组织者:

唐呈光 (阿里巴巴达摩院)

石薇薇 (阿里巴巴达摩院)

杨春杰(中移在线服务有限公司)

任务联系人:

唐呈光: chengguang.tcg@alibaba-inc.com

石薇薇: shiweiwei.sww@alibaba-inc.com

杨春杰: yangchunjie@chinamobile.com

任务九:通用百科知识图谱实体类型推断

任务描述:本评测任务围绕通用百科知识图谱构建中的实体类型推断展开,评测从实体百科(包括百度百科、搜狗百科等来源)页面出发,从给定的数据中推断出相关实体的类型。本次任务的实体类型包括组织机构、人物、作品等多个领域,不同领域下包括多种实体类型,实体类型之间具有层级关系,并形成一棵分类树。对于一个具体的实体,需要尽可能推断到最细粒度的实体类型,同时一个实体还可能属于一种或多种实体类型。任务提供大量无标注数据,参与者可以通过分析网页相关数据及字段信息等,灵活采用无监督、半监督、有监督等方法进行实体类型推断。

评测奖励:

第一名:10000元

第二名:8000元

第三名:6000元

创新奖:6000元

任务组织者:

李洪宇(OPPO)

荚济民(OPPO)

任务联系人:

李洪宇:lihongyu1@oppo.com  

荚济民:jiajimin@oppo.com

任务十:面向军用无人机系统的军事垂直领域知识图谱构建

任务描述:军用无人机在军事斗争准备中发挥着重要作用,是加快“机械化、信息化、智能化三化融合发展”的抓手装备,近年来全球热点军事事件与局部冲突,充分证明了其军事价值。知识图谱,是公认的智能化信息基础,但垂直领域知识图谱的构建技术,至今仍是关乎图谱实效的难点所在。为此,我们组织本次评测任务,探索能够落地见效的军用无人机领域知识图谱构建技术,促进技术交流、推动技术进步,进一步通过知识图谱助力提升军用无人机相关领域的研究能力。本次任务从工程实际出发,对构建图谱的数据来源进行了严格限定,对图谱构建过程中涉及的技术、方法、模型、训练数据等不作限制,自动化、半自动化以及其他混合方式均可,鼓励参赛队面向工程实际开展探索;在评测上,结合工作实际,区分构建阶段与任务阶段,从“质”、“效”两个方面进行评测。同时,为支持本次评测任务,军科系统院组织有关单位专家,设计了目前公开领域最为全面、系统的军用无人机系统知识图谱顶层模式(Schema)。

评测奖励:

图谱构建阶段,设置图谱质量奖

第一名:8,000元

第二名:6,000元

第三名:3,000元

图谱任务阶段,设置图谱效用奖

第一名:15,000元

第二名:10,000元

第三名: 8,000元

任务组织者:

张静(军事科学院系统工程研究院)

任务联系人:

栾瑞鹏,lrp_ph@163.com

孙 晓,psunxiao@163.com

任务十一:蕴含实体的中文医疗对话生成

任务描述:本评测任务为蕴含实体的中文医疗对话生成,主要涉及对话系统构建、自然语言生成、领域知识融合等方向。任务具体定义如下:给定医生和患者交流的对话历史H,并假定医生的下一句回复Y包含一个标注的实体列表E,模型要求根据对话历史H生成下一句回复Y。同时,模型的回复中应当包含尽可能准确的实体信息(E中的实体)。本评测提供了一万多个医疗咨询对话数据,并标注有疾病、症状、程度、检查、药物五大类共160种相关实体。任务的挑战如下:(1)医疗对话系统模型需要能够准确理解对话历史,生成与上文相关的回复。(2)训练集中,我们提供了五类实体标注,参赛者需要考虑如何利用这些信息来辅助模型训练。在验证和测试阶段,模型只能根据对话历史来推断回复中可能包含的实体。(3)除了任务提供的医疗对话数据,参赛者可以考虑利用开源的医疗领域相关语料进行模型预训练和迁移学习。

评测奖励:

第一名:15,000元

第二名:10,000元

第三名:5,000元

任务组织者:

梁小丹 中山大学

唐鉴恒 中山大学

刘文阁 中山大学

郑冶枫 腾讯天衍实验室

赵瑞辉 腾讯天衍实验室

刘亚飞 腾讯天衍实验室

陈曦 腾讯天衍实验室

任务联系人:

蕴含实体的中文医疗对话生成评测组委会:ccks2021_mdg@163.com

任务交流平台:qq群,群号603206031

唐鉴恒 sqrt3tjh@gmail.com

刘文阁 kzllwg@gmail.com

任务十二:面向中文医疗科普知识的内容理解

任务描述:本次评测任务围绕着中文医疗科普知识的内容理解展开,分为两个子任务:(1)医疗科普知识阅读理解;(2)医疗科普知识答非所问识别。其中,子任务1是针对用户提出的搜索query,在相关文章中找到对应的答案片段内容,以此作为直接展示给用户的摘要;子任务2指针对问答形式的医疗科普内容<Q, A>中,回答A和问题Q没有关联,即答案不能满足所提问题。

评测奖励(每个子任务单独评测):

第一名:15,000元

第二名:7,000元

第三名:3,000元

技术创新奖:5,000元

任务组织者:

刘新春(腾讯)

吴贤(腾讯)

陈裕通(腾讯)

邵纪春(腾讯)

周佳(腾讯)

任务联系人:

腾讯医典医学科普知识内容理解评测组委会:ccks2021Medical_1@qq.com、ccks2021Medical_2@qq.com

刘新春:xinchunliu@tencent.com

陈裕通:bradleychen@tencent.com

任务十三:生活服务领域知识图谱问答

任务描述:本任务属于中文知识图谱自然语言问答任务,简称CKBQA (Chinese Knowledge Base Question Answering)。即输入一句中文问题,问答系统从给定知识库中选择若干实体或属性值作为该问题的答案。问题均为客观事实型,不包含主观因素。理解并回答问题的过程中可能需要进行实体识别、关系抽取、语义解析等子任务。这些任务的训练可以使用额外的资源,但是最终的答案必须来自给定的知识库。

本次知识图谱问答任务是在CCKS上举办的第四届。今年在OpenKG基础上引入美团生活服务领域知识库及问答数据,由美团搜索与NLP部和北京大学王选计算所联合主办。同时依然保留去年开放领域的问答数据以供参赛队伍对模型进行训练。我们期望参赛选手的问答系统既能处理各种百科类的浅层问题,也能处理具备一定领域知识。

本评测任务所使用的生活服务领域知识图谱来源于美团知识图谱,其中包括旅游、酒店、美食等多种领域的数据。我们将这些数据集整合到一起,同开放领域知识库PKUBASE一起作为问答任务的依据。

评测奖励:

第一名:20000元

第二名:10000元

第三名:5000元

创新奖:5000元

任务组织者:

林殷年(北京大学王选计算机研究所)

邹磊(北京大学王选计算机研究所)

张旻昊(北京大学王选计算机研究所)

张若禹(北京大学王选计算机研究所)

王思睿(美团搜索与NLP部 )

李如寐(美团搜索与NLP部 )

张鸿志(美团搜索与NLP部 )

张富峥(美团搜索与NLP部 )

任务联系人:

姓名 林殷年:邮箱 linyinnian@pku.edu.cn

姓名 王思睿:邮箱 wangsirui@meituan.com

主题五:多模态理解

任务十四:知识增强的视频语义理解

任务描述:

知识增强的视频语义理解任务,期望融合知识、NLP、视觉、语音等相关技术和多模态信息,为视频生成刻画主旨信息的语义标签,从而实现视频的语义理解。本评测任务以互联网视频为输入,在感知内容分析(如人脸识别、OCR识别、语音识别等)的基础上,期望通过融合多模信息,并结合知识图谱计算与推理,为视频生成多知识维度的语义标签,进而更好地刻画视频的语义信息。

本评测任务所使用的数据来源于百度好看/全民小视频,人工标注视频分类标签和语义标签(包括:实体/概念/事件/实体属性等维度)结果。同时,我们也提供了本次评测任务所需的知识数据,期望充分利用知识图谱的语义化知识,并结合多模态学习和知识推理技术,实现视频的深度语义理解。

评测奖励:

第一名:20,000元

第二名:10,000元

第三名:5,000元

创新奖:5,000元

任务组织者:

汪琦(百度知识图谱部)

冯知凡(百度知识图谱部)

柴春光(百度知识图谱部)

杨虎(百度知识图谱部)

任务联系人:

知识增强的视频语义理解评测组委会:ccks2021_baidukg@126.com

汪琦:wangqi31@baidu.com

冯知凡:fengzhifan@baidu.com

柴春光:chaichunguang@baidu.com

杨虎:yanghu03@baidu.com

二、报名方式

本次评测采用邮件报名的方式,邮件标题为:“CCKS2021-任务名称-参赛单位”,例如:“CCKS2021-任务一地址要素抽取-哈尔滨工业大学”;邮件内容为:“参赛队名,参赛队长信息(姓名,邮箱,联系电话),参赛单位名称”。请参加评测的队伍发送报名邮件至相应邮箱(参赛队可同时选择多个子任务参赛,也可选择任意一个子任务单独参赛,请报名时注明参加哪一个子任务),具体的参赛方式见各评测任务书。

三、重要日期:

评测任务发布:4月15日

报名时间:4月15日—7月15日

训练及验证数据发布:5月15日

测试数据发布:7月15日

提交测试结果:7月20日

评测论文提交:8月5日

CCKS会议日期(评测报告及颁奖):8月18日—21日

评测论文发表:为更好地面向国内外同行推广评测成果、提高评测技术影响力、扩大优秀成果的应用潜力,专委会将协同Data Intelligence期刊编辑部组织“评测论文主题专刊”,优秀评测论文将推荐至该专刊快速免费发表。DI期刊由中国科学院文献情报中心与美国麻省理工学院出版社联合创办,期刊官网:https://www.mitpressjournals.org/loi/dint

四、评测主席: