前沿技术讲座 1:实战中的知识图谱
报告人:林德康,鲍捷
摘 要 : 知识图谱是一系列结构化数据的处理方法,它涉及知识的 取、表示、存储、检索等诸多技术。从渊 源上讲,它是知识表示与推理、数据库、信息检索、自然语言处理等多种技术发展的融合。但传统的知识处理方法,在实际的工程应用,特别是互联网应用中,面临实施成本高、技术周期长、熟悉该类技术的人才缺乏、 基础数据不足等诸多现实制约。实战中的知识图谱,需要充分利用成熟的工业技术,不拘泥于特定的工具和方 法,特别是不盲目追求标准化、技术的先进性或者新颖性,以实际的业务出发,循序渐进推进工程的实施。在 本教程中,我们首先回顾知识图谱从理念到工程逐步落地的发展历程,梳理各技术与知识图谱应用的关系。然 后,我们结合工程上具体的实例,来展示知识图谱的核心理念和技术如何在成本约束下实施,包括结构化数据 生成,可维护的知识结构,海量知识的数据库管理,和多层次的语义检索等。最后,我们讨论知识图谱在搜 索,自动问答等应用中如何与统计/机器学习方法相结合来解决实际问题。
报告人简介:
林德康,singulariti.io(一家致力于语音助手的创业公司)联合创始人和 co-CEO。他是前 Google 高级管理科学家。在那里,他领导了一个研究与工程团队,开发出一款基于谷歌搜索结 果的自动问答产品。加入谷歌前他是 Alberta 大学的正教授。他发表了 90 多篇学术论文,总引 用数超过 12000 次。2012 年,他被选为国际计算语言协会(ACL)Fellow,他曾任 2002 年 ACL 程序委员会主席,和 2011 年 ACL 大会主席。他从清华大学和 Alberta 大学获得计算机学士和博 士学位。
鲍捷,文因互联 CEO。曾任美国 Memect 公司创始人。2011-2013 年在美国三星研发中心任研究 员,负责三星个人助手 S-Voice 的总体设计。2010-2011 年在 MIT 作为访问研究员,从事金融语 义数据建模、规则语言建模研究。2011 年在 BBN 访问,研究语义信息论。2008-2010 年在 W3C Web 本体语言(OWL)工作组,是推荐标准 OWL2 语言的作者之一。2008-2010 年是 RPI(伦斯勒 理工学院)博士后,从事知识表示与推理、语义网研究。2007 年获得 Iowa State University 博士学位。他是语义维基社区核心开发者之一。他是 ISWC(国际语义网会议)多年的程序委员会和组织委员会委员,长期的会议元数据主席。现任中国中文信息协会语言与知识专委会委员。在语义网、知 识图谱、机器学习、自然语言处理等领域发表过 70 多篇论文。
前沿技术讲座 2:Testing and Assessing the Quality of Knowledge Graph
报告人:Jeff Z. Pan
Abstract:In this tutorial, we will introduce the notions of quality control for constructing and reusing knowledge graphs. Firstly, we will introduce a test driven approach of schema construction for knowledge graphs, by leveraging the ideas of competency questions and test driven software development. We will show some typical patterns of competency questions and illustrate how to use competency questions to construct authoring tests for knowledge graphs. Secondly, we will introduce data quality model, data quality assessment model and methods of data quality assessment. We will illustrate the role of data quality evaluation in big data trading.
报告人简介:
Jeff Z. Pan,教授,中国中山大学本科硕士毕业,英国曼彻斯特大学获计算机科学博士学位,英国阿伯丁大学计算科学系(非主席)教授,终生教授,博士生导师,欧盟委员会玛丽居里 K‐Drive 项目首席科学家。研究领域为语义大数据,知识图谱,知识表示与推理,人工智能等。 曾在包括 JWS,IJSWIS,TKDE,AIJ 等国际一流期刊和 ISWC, WWW, IJCAI, AAAI 等顶级会议上发表论 文 150 余篇。 服务于语义网顶级期刊-互联网语义期刊(Journal Of Web Semantic)和国际信 息系统和语义网期刊(International Journal of Information System and Semantic Web)之编辑部,为国际信息系统和语义网期刊(International Journal Of Information System and Semantic Web)之编辑及互联网语义期刊(Journal of Web Semantic) 之编委。任大数据研究期刊(Big Data Research)编委。任 2014 年国际联合语义技术大会(Joint International Conference on Semantic Technology)的大会主席,2014 年中国语义网和 互联网科学大会(Chinese Semantic Web and Web Science)的大会主席,以及语义网领域多个一流国际会议的程序委员会主席。为欧盟委员会预算总局,英国工程和物理科学研究理事会,荷兰国家科学基金委,香港研究基金金委等的评审委员。其研究连续获得欧盟委员会和英国工程和物理科学研究理事会,英国经济和社会研究理事会等的资助。 其领导研发的 TrOWL 本体推理 机为目前国际上最可靠的高效近似推理机。Jeff Z. Pan 教授最近主持撰写了第一本关于建造,理解和使用企 业知识图谱的学术专著。
阮彤,博士,华东理工大学教授,自然语言处理与大数据挖掘实验室主任。中文信息处理协 会 CCIR 专委会委员,CCF 大数据专委会常务委员。中关村大数据联盟学术委员会主任。研究 方向为自然语言处理和大数据挖掘。近年来,主持国家、省部级科研项目多项,专注于生物 医药大数据挖掘与知识图谱构建相关工作。在数据质量方面评估方面,围绕模型,方法与工具展开研究,成果发表在 ISWC、ESWC、JIST 等会议,相关方向获得上海市科委科技创新行动计划支持,项目 名称“面向大数据交易的数据质量评估方法、工具与应用”。
前沿技术讲座 3:Understanding Short Texts
报告人:Haixun Wang
Abstract:Billions of short texts are produced every day, in the form of search queries, ad keywords, tags, tweets, messenger conversations, social network posts, etc. Unlike documents, short texts have some unique characteristics which make them difficult to handle. First, short texts, especially search queries, do not always observe the syntax of a written language. This means traditional NLP techniques, such as syntactic parsing, do not always apply to short texts. Second, short texts contain limited context. The majority of search queries contain less than 5 words, and tweets can have no more than 140 characters. Because of the above reasons, short texts give rise to a significant amount of ambiguity, which makes them extremely difficult to handle. On the other hand, many applications, including search engines, ads, automatic question answering, online advertising, recommendation systems, etc., rely on short text understanding. In all these applications, the necessary first step is to transform an input text into a machine-interpretable representation, namely to “understand” the short text. A growing number of approaches leverage external knowledge to address the issue of inadequate contextual information that accompanies the short texts. These approaches can be classified into two categories: Explicit Representation Model (ERM) and Implicit Representation Model (IRM). In this tutorial, we will present a comprehensive overview of short text understanding based on explicit semantics (knowledge graph representation, acquisition, and reasoning) and implicit semantics (embedding and deep learning). Specifically, we will go over various techniques in knowledge acquisition, representation, and inferencing has been proposed for text understanding, and we will describe massive structured and semi-structured data that have been made available in the recent decade that directly or indirectly encode human knowledge, turning the knowledge representation problems into a computational grand challenge with feasible solutions insight.
Speaker Bio : Haixun Wang is a research scientist / engineering manager at Facebook. Before Facebook, he is with Google Research, working on natural language processing. He led research in semantic search, graph data processing systems, and distributed query processing at Microsoft Research Asia. He had been a research staff member at IBM T. J. Watson Research Center from 2000 to 2009. He was Technical Assistant to Stuart Feldman (Vice President of Computer Science of IBM Research) from 2006 to 2007, and Technical Assistant to Mark Wegman (Head of Computer Science of IBM Research) from 2007 to 2009. He received the Ph.D. degree in computer science from the University of California, Los Angeles in 2000. He has published more than 150 research papers in referred international journals and conference proceedings. He served PC Chair of conferences such as CIKM’12 and he is on the editorial board of IEEE Transactions of Knowledge and Data Engineering (TKDE), and Journal of Computer Science and Technology (JCST). He won the best paper award in ICDE 2015, 10 year best paper award in ICDM 2013, and best paper award of ER 2009.
Zhongyuan Wang (王仲远) is a Lead Researcher at Microsoft Research Asia. He leads two projects at MSR: Enterprise Dictionary (knowledge mining from Enterprise) and Probase (knowledge mining from Web). He got his Ph.D. degree in computer science from Renmin University of China, and his PhD thesis is “Short Text Understanding”. Zhongyuan Wang has published 20+ papers (including ICDE 2015 Best Paper Award on short text understanding) in the leading international conferences, such as VLDB, ICDE, IJCAI, CIKM, etc. He is also the co-author of the book “Web Data Management: Concepts and Techniques” (published in 2014), and the author of book “Short Text Understanding” (Will published in Sept. 2016). His research interests include knowledge base, natural language processing, semantic network, machine learning, and web data mining.
前沿技术讲座 4:知识图谱的摘要和集成
报告人:胡伟,程龚
摘要:大数据被认为是继信息化和互联网后整个信息革命的又一次高峰,然而如何将大数据转化为知识依然 面临巨大挑战。知识图谱旨在 述真实世界中存在的各种实体或概念及其关系,它是数据语义链接的基石,有助于自然语言理解、数据挖掘等领域的发展。然而知识图谱的大规模、异构性等给基于知识图谱的应用带来了 挑战。本次报告将首先介绍知识图谱、链接数据和本体的基础知识,接下来介绍知识图谱的摘要技术,其中重 点介绍实体 述摘要、实体关联摘要的最新研究进展,最后介绍知识图谱的集成技术,其中重点介绍本体匹配 和实体链接技术的最新研究进展。
报告人简介:
胡伟,博士,南京大学计算机科学与技术系副教授,美国斯坦福大学、荷兰阿姆斯特丹自由大学 访问学者。主要研究方向为语义网、数据集成、本体工程、生物医学知识发现。主持多项国家自 然科学基金项目,在 WWW、AAAI、ISWC 等重要国际期刊和会议上发表论文,他引超千次,还获得 过 JIST 最佳论文奖、ISWC 最佳论文 名。现为中国中文信息学会语言与知识计算专业委员会委 员,江苏省大数据专家委员会副秘书长。
程龚,博士,南京大学计算机科学与技术系副教授,德国卡尔斯鲁厄理工学院访问学者。目前 主要从事语义搜索、数据摘要、自动问答等方向的研究工作。主持多项国家自然科学基金项目, 在 WWW、IJCAI、ISWC 等重要国际期刊和会议上发表论文,其中两次获得 ISWC 最佳论文 名奖, 论文总引用超千次。现为中国计算机学会系统软件专业委员会委员、中国中文信息学会语言与知识计算专业委员会委员。