评测任务CFP

一、任务简介

CCKS技术评测旨在为研究人员提供测试知识图谱与语义计算技术、算法、及系统的平台和资源,促进国内知识图谱领域的技术发展,以及学术成果与产业需求的融合和对接。CCKS2019技术评测吸引了1666支队伍报名参赛,形成了较高的影响力。经过前期的评测任务征集和评测组委会筛选,CCKS 2020共设立8个相关主题评测任务,分别是:新冠知识图谱构建与问答面向中文短文本的实体链指面向中文电子病历的医疗实体及事件抽取面向金融领域的小样本跨类迁移事件抽取面向金融领域的篇章级事件主题与要素抽取基于本体的金融知识图谱自动化构建技术评测基于标题的大规模商品实体检索以及面向试验鉴定的命名实体识别专委会为每个任务前三名设立奖金并颁发证书(第一名5000元+任务组织方特定奖金,第二名3000元+任务组织方特定奖金,第三名2000元+任务组织方特定奖金,具体任务奖励参见具体评测任务书),同时组委会将针对不同任务特别评选“创新技术奖”(每一任务至多一项,奖金:5000元+任务组织方特定奖金),专门用于鼓励创新性技术的使用。专委会还将协同Data Intelligence期刊编辑部组织“评测论文主题专刊”,优秀评测论文将推荐至该专刊快速免费发表。

任务一:新冠知识图谱构建与问答

受限于非结构化文本和结构化知识之间的巨大差异,自动化构造知识图谱以及利用知识图谱支持上层应用仍存在诸多挑战。时值2020年新型冠状病毒疫情爆发,在OpenKG总体组织和协调下,部分相关企业院校使用自动化的技术,以新型冠状病毒为核心构建了包括新冠百科、健康、防控等多个高质量的知识图谱,并于此针对知识图谱构建的关键技术及其核心应用。
本任务包括四个子任务:1)新冠百科知识图谱类型推断:围绕新冠百科知识图谱构建中的实体类型推断展开。评测从实体百科页面出发,从给定的数据中推断相关实体的类型。2)新冠概念图谱的上下位关系预测:针对传统知识图谱对实体的概念类别体系定义有限的问题,动态的获取实体的概念类别。3)新冠科研抗病毒药物图谱的链接预测:基于抗病毒药物图谱进行关系预测,如药物和病毒的靶向作用、蛋白间的交互作用等。评测依据抗病毒药物图谱模式(Schema)和知识图谱的实体、实体属性、实体之间的关系,预测新的两个实体的关系。4)新冠百科知识图谱问答评测:本次知识图谱问答任务是在CCKS上举办的第三届,在OpenKG上的新冠开放知识图谱基础上,以新型冠状病毒为切入点悉心构造了一定规模的针对健康、医药、疾病防控等特定主旨的问答数据。

评测奖励:

本测评总奖金6万元,每个子任务第一名5k,第二名3k,第三名2k,技术创新奖(每个子任务至多一项)5k,同时各子任务排名靠前队伍将获授精美参赛奖牌、证书。

任务组织者:
李志强 ( 东南大学 ) 孙浩然 ( 东南大学 )
吴天星 ( 东南大学 ) 漆桂林 ( 东南大学 )
张裕舟 ( 哈尔滨工业大学 ) 佘琪星 ( 哈尔滨工业大学 )
王必聪 ( 哈尔滨工业大学 ) 刘铭 ( 哈尔滨工业大学 )
秦兵 ( 哈尔滨工业大学 )
卢栋才 ( 华为云 ) 王鹏 ( 华为云 )
陈卓 ( 浙江大学 )
胡森 ( 北京大学王选计算机研究所 )
林荫年 ( 北京大学王选计算机研究所 )
邹磊 ( 北京大学王选计算机研究所 )
许斌   (清华大学计算系) 常德杰(妙健康) 刘邦长(妙健康)

任务联系人:
李志强 zqli@seu.edu.cn
张裕舟:yuzhouzhang@ir.hit.edu.cn
卢栋才:ludongcai@huawei.com
胡森:husen@pku.edu.cn

任务二:面向中文短文本的实体链指

本评测任务围绕实体链指技术,结合其对应的AI智能应用需求,在CCKS 2019面向中文短文本的实体链指任务的基础上进行了拓展与改进,主要改进包括以下几部分:
(1)去掉实体识别,专注于中文短文本场景下的多歧义实体消歧技术;
(2)增加对新实体(NIL实体)的上位概念类型判断;
(3)对待标注文本数据调整,增加多模任务场景下的文本源,同时调整了多歧义实体比例。
面向中文短文本的实体链指,简称EL(Entity Linking)。即对于给定的一个中文短文本(如搜索Query、微博、对话内容、文章/视频/图片的标题等),EL将其中的实体与给定知识库中对应的实体进行关联。针对中文短文本的实体链指存在很大的挑战,主要原因如下:
(1)口语化严重,导致实体歧义消解困难;
(2)短文本上下文语境不丰富,须对上下文语境进行精准理解;
(3)相比英文,中文由于语言自身的特点,在短文本的链指问题上更有挑战。

评测奖励:

本评测总奖金4.5万元,除CCKS组委会设置的1,5000元奖金外,百度额外提供3,0000元奖金给获奖团队,奖金设置如下:
第一名:20,000元
第二名:10,000元
第三名:5,000元
创新奖:10,000元

任务组织者:
汪琦 ( 百度 )
冯知凡 ( 百度 )
柴春光 ( 百度 )

任务联系人:
汪琦: wangqi31@baidu.com
冯知凡:fengzhifan@baidu.com
柴春光:chaichunguang@baidu.com
实体链指组委会邮箱:ccks2020_el@126.com

扫小助手二维码由小助手邀请进任务2评测交流群
任务三:面向中文电子病历的医疗实体及事件抽取

本任务是CCKS围绕中文电子病历语义化开展的系列评测的一个延续,在CCKS 2017,2018, 2019相关评测任务的基础上进行了延伸和拓展。
本任务包括两个子任务: (1) 医疗命名实体识别:于给定的一组电子病历纯文本文档,识别并抽取出与医学临床相关的实体提及(entity mention),并将它们归类到预定义类别(pre-defined categories),比如疾病、治疗、检查检验等。 (2) 医疗事件抽取:本任务为中文病历医疗事件抽取任务,即给定主实体为肿瘤的电子病历文本数据,定义肿瘤事件的若干属性,如肿瘤大小,肿瘤原发部位等,识别并抽取事件及属性,进行文本结构化。

评测奖励:

本测评总奖金3万元,各子任务独立计算,每个子任务第一名5k,第二名3k,第三名2k,技术创新奖(每个子任务至多一项)5k。

任务组织者:
张江涛 ( 清华大学知识工程实验室 )
焦增涛 ( 医渡云(北京)技术有限公司 )
汤步洲 ( 哈尔滨工业大学(深圳) )
于 琦 ( 山西医科大学 )

任务联系人:
张江涛:zhang-jt13@tsinghua.org.cn
梁世浩:shihao.liang@yiducloud.cn
温清华:wtsinghua1@163.com

任务四:面向金融领域的小样本跨类迁移事件抽取

在金融领域,事件抽取是一项十分重要的任务,也是自然语言处理领域一项比较复杂的任务,而小样本下的事件抽取模型在落地应用中也极为需要。本任务需要从金融领域新闻资讯句子中,抽取事件知识(包括事件类型、触发词和事件元素),并将大样本下训练的模型跨类迁移到小样本的其他事件类型上。其中,事件类型分为两类,初始事件类型限定为:质押、股份股权转让、投资、起诉和高管减持,需要迁移的事件类型为:收购、担保、中标、签署合同和判决,每个事件类型都有其对应的事件框架,需要抽取出每个事件对应的事件元素。即给出一段句子级新闻资讯文本,针对该文本需要判断其所属的事件类型,抽取该事件的各个事件元素。

评测奖励

本评测总奖金3.95万元,其中:
第一名:10000
第二名:10000
第三名:5000
第四名:5000
第五、六、七名:1500
创新技术奖(两名):5000

任务负责人:
徐洁馨 ( 招商银行 人工智能实验室 )
吴垠 ( 招商银行 人工智能实验室 )
盛剑 ( 招商银行 人工智能实验室 )

任务联系人:
徐洁馨 :jiexinx@cmbchina.com
吴垠 :xyionwu@cmbchina.com
盛剑 :jsheng@cmbchina.com

任务4QQ交流群
任务五:面向金融领域的篇章级事件主题与要素抽取

“事件抽取”是舆情监控领域和金融领域的重要任务之一,“事件”在金融领域是投资分析,资产管理的重要决策参考;事件也是知识图谱的重要组成部分,事件抽取是进行图谱推理、事件分析的必要过程。本次评测任务的文本范围包括互联网上的新闻文本,上市公司发布的公告文本(PDF文档已转成无结构化的文本内容)。 本次评测任务的事件类型包括:财务造假、偿付能力不足、高层失联/去世、企业破产、重大资损、重大赔付、重大事故、股权冻结、股权质押、增持、减持等。
本次评测包括两个子任务:1)事件主体抽取:旨在从文本中抽取事件类型和对应的事件主体。即给定文本T,抽取T中所有的事件类型集合S,对于S中的每个事件类型s,从文本T中抽取s的事件主体。其中各事件类型的主体实体类型为公司名称或人名或机构名称。2)篇章事件要素抽取:旨在从文本中抽取事件类型和对应的事件要素。即给定文本T,抽取T中所有的事件类型集合S,对于S中的每个事件类型s,从文本T中抽取s的事件要素。

评测奖励:
本测评总奖金4万元,各子任务独立计算,每个子任务第一名1w,第二名3k,第三名2k,技术创新奖(每个子任务至多一项)5k。

任务组织者:
王太峰 ( 蚂蚁金服 )
王峰 ( 蚂蚁金服 )
刘康 ( 中科院自动化所 )
陈玉博 ( 中科院自动化所 )

任务联系人:
王峰:zifan.wf@antfin.com
陈玉博:yubo.chen@nlpr.ia.ac.cn

任务六:基于本体的金融知识图谱自动化构建技术评测

金融研报是各类金融研究结构对宏观经济、金融、行业、产业链以及公司的研究报告。报告通常是由专业人员撰写,对宏观、行业和公司的数据信息搜集全面、研究深入,质量高,内容可靠。报告内容往往包含产业、经济、金融、政策、社会等多领域的数据与知识,是构建行业知识图谱非常关键的数据来源。另一方面,由于研报本身所容纳的数据与知识涉及面广泛,专业知识众多,不同的研究结构和专业认识对相同的内容的表达方式也会略有差异。这些特点导致了从研报自动化构建知识图谱困难重重,解决这些问题则能够极大促进自动化构建知识图谱方面的技术进步。

本评测任务参考TAC KBP中的Cold Start评测任务的方案,围绕金融研报知识图谱的自动化图谱构建所展开。评测从预定义图谱模式(Schema)和少量的种子知识图谱开始,从非结构化的文本数据中构建知识图谱。其中图谱模式包括10种实体类型,如机构、产品、业务、风险等;19个实体间的关系,如(机构,生产销售,产品)、(机构,投资,机构)等;以及若干实体类型带有属性,如(机构,英文名)、(研报,评级)等。在给定图谱模式和种子知识图谱的条件下,评测内容为自动地从研报文本中抽取出符合图谱模式的实体、关系和属性值,实现金融知识图谱的自动化构建。所构建的图谱在大金融行业、监管部门、政府、行业研究机构和行业公司等应用非常广泛,如风险监测、智能投研、智能监管、智能风控等,具有巨大的学术价值和产业价值。

评测本身不限制各参赛队伍使用的模型、算法和技术。希望各参赛队伍发挥聪明才智,构建各类无监督、弱监督、远程监督、半监督等系统,迭代的实现知识图谱的自动化构建,共同促进知识图谱技术的进步。

评测奖励:

本评测总奖励3万元,除CCKS组委会设置的1,5000元奖金外,达观数据额外提供1,5000元奖金给获奖团队奖金设置如下:

  • 第一名 10000
  • 第二名 6000
  • 第三名 4000
  • 第四名 3000
  • 第五名 2000
  • 创新奖(1名) 5000
  • 所有排名前10的队伍将获达观授予的精美参赛奖牌、证书。
  • 比赛排名前20的选手将获得达观数据提供的全职(面向在职)和实习(面向在校生)的VIP通道,通过面试优先录用。

任务组织者:
王文广 ( 达观数据 )
王昊奋 ( 同济大学 )
郭翠翠 ( 达观数据 )

任务联系人:
王文广 :wangwenguang@datagrand.com
王昊奋 :carter.whfcarter@gmail.com
郭翠翠 :guocuicui@datagrand.com

任务六交流QQ群
任务七:基于标题的大规模商品实体检索

本评测任务为基于标题的大规模商品实体检索。即对于给定的一个商品标题,参赛系统需要匹配到该标题在给定商品库中的对应商品实体。 基于标题的大规模商品实体检索存在的挑战如下:
(1)输入文本中可能无法识别出实体指代词;
(2)商品标题中存在很多变异指代,没有给定的指代映射表;
(3)商品标题一般较短,上下文语境不丰富,须对上下文语境进行精准理解。

评测奖励:

本测评总奖励1.5万元,第一名5k,第二名3k,第三名2k,技术创新奖(每个子任务至多一项)5k。

任务组织者:
黄龙涛 ( 阿里巴巴 )
袁博 ( 阿里巴巴 )

任务联系人:
黄龙涛: kaiyang.hlt@alibaba-inc.com
袁博: qiufu.yb@alibaba-inc.com

任务7参赛队伍交流群
任务八:面向试验鉴定的命名实体识别

军事装备试验鉴定是指通过规范化的组织形式和试验活动,对被试对象进行全面考核并作出评价结论的国家最高检验行为,涵盖方法、技术、器件、武器系统、平台系统、体系、训练演习等领域,涉及面广、专业性强。本任务以命名实体识别任务为切入点,逐步开展这方面的工作,以期通过评测的形式,促进交流、掌握基线、提升技术水平,遴选优秀技术为相关项目建设提供参考,共同推动试验鉴定领域大数据建设。

评测奖励:

本评测总奖励3万元,除CCKS组委会设置的1,5000元奖金外,军事科学院系统工程研究院额外提供1,5000元奖金给获奖团队奖金设置如下:
第一名:12,000元
第二名:7,000元
第三名:4,000元
技术创新奖:7,000元

任务组织者:
张 静 ( 军事科学院系统工程研究院 )

任务联系人:
栾瑞鹏:lrp_ph@163.com
孙 晓:psunxiao@163.com

二、报名方式

本次评测采用邮件报名的方式,邮件标题为:“CCKS2020-任务名称-参赛单位”,例如:“CCKS2020-任务一新冠知识图谱构建与问答-清华大学”;邮件内容为:“参赛队名,参赛队长信息(姓名,邮箱,联系电话),参赛单位名称”。请参加评测的队伍发送报名邮件至相应邮箱(参赛队可同时选择多个子任务参赛,也可选择任意一个子任务单独参赛,请报名时注明参加哪一个子任务):

  • 任务一、新冠知识图谱构建与问答: ludongcai@huawei.com ; 220194363@seu.edu.cn;yuzhouzhang@ir.hit.edu.cn;husen@pku.edu.cn;
  • 任务二、面向中文短文本的实体链指: wangqi31@baidu.com
  • 任务三、面向中文电子病历的医疗实体及事件抽取:zhang-jt13@tsinghua.org.cn;shihao.liang@yiducloud.cn
  • 任务四、面向金融领域的小样本跨类迁移事件抽取: jiexinx@cmbchina.com;
  • 任务五、面向金融领域的篇章级事件主题与要素抽取:zifan.wf@antfin.com ;yubo.chen@nlpr.ia.ac.cn;
  • 任务六、基于本体的金融知识图谱自动化构建技术评测:wangwenguang@datagrand.com;
  • 任务七、基于标题的大规模商品实体检索: kaiyang.hlt@alibaba-inc.com;
  • 任务八、面向试验鉴定的命名实体识别:lrp_ph@163.com;

三、重要日期:

  • 任务征集截止:3月1日
  • 任务准备时间:3月1日—3月20日
  • 评测任务发布:3月20日
  • 报名时间:3月20日—7月10日 3月20日—9月10日
  • 训练及验证数据发布:3月20日
  • 测试数据发布:7月10日 9月15日
  • 提交测试结果:7月20日 9月30日
  • 评测论文提交:8月5日 10月25日
  • CCKS会议日期(评测报告及颁奖):8月15日—18日 11月12日—15日

评测论文发表:为更好地面向国内外同行推广评测成果、提高评测技术影响力、扩大优秀成果的应用潜力,专委会将协同Data Intelligence期刊编辑部组织“评测论文主题专刊”,优秀评测论文将推荐至该专刊快速免费发表。DI期刊由中国科学院文献情报中心与美国麻省理工学院出版社联合创办,期刊官网:https://www.mitpressjournals.org/loi/dint

四、评测主席:

  • 韩先培,中国科学院软件研究所 (hanxianpei@126.com)
  • 闫峻,医渡云(jun.yan@yiducloud.cn)