CCKS 2025 工业论坛

论坛主题:工业论坛

论坛时间:2025年9月21日 13:30-17:00

论坛主席

梁磊

梁磊(蚂蚁集团)

梁磊,蚂蚁集团知识引擎负责人,OpenSPG社区创始人,OpenKG TOC专家。个人主要技术方向为大模型、知识图谱、搜索引擎及AI工程等。 从2018年底开始从零到一基于蚂蚁多样化的业务场景构建了企业级知识图谱平台并开源了OpenSPG图谱引擎、大模型知识增强生成框架KAG等,平台累计提报专利140余项,软件著作权10余项,发表ACL/WWW/VLDB/AAAI等顶会论文40余篇,主导项目先后获得金融科技发展奖、BU总裁特别奖、数据科学奖、优秀科技成果、金融科技创新奖等。

王泉

王泉(北京邮电大学)

主席简介:王泉,北京邮电大学计算机学院(国家示范性软件学院)副研究员,博士生导师。研究方向为自然语言处理、知识图谱、信息检索等。主持多项国家自然科学基金面上项目及重点项目课题,作为骨干成员参与 科技创新2030——“新一代人工智能”重大项目、国家重点研发计划 等多项国家重要项目。在IEEE TKDE、ACM TOIS、ACL、SIGIR等国际重要期刊和会议发表论文60余篇,累计谷歌学术引用7900余次,相关成果入选ESI高被引论文,获CCF A类会议最佳学生论文奖。中国中文信息学会语言与知识计算专委会委员,青年工作委员会委员。

工业论坛(一):

报告一:

刘焕勇

报告嘉宾:刘焕勇(360人工智能研究院资深算法专家)

报告题目: 面向“搜、问、推、写”应用场景的文档解析及知识库建设实践

报告摘要:无论是在搜索、问答,还是在推荐、写作场景,都离不开一个根本命题,那就是有多少数据,就有多少智能。而在落地大模型的整个过程当中,知识库作为一个可插拔的组件,既影响大模型的输入,也影响大模型的输出,从而影响最终效果。而在知识库中,文档解析涵盖底层数据处理、清洗、加工、校验等多个环节,并引申出针对不同实际应用时的数据合成和评估策略,在真实场景下的文档解析任务存在诸多问题,内容形式多样,不同的业务对处理的精细度有不同的要求。因此,本报告讲介绍我团队在面向搜、问、推、写应用场景的文档解析及知识库建设思路,对其中遇到的问题表现、采取的措施(GraphRAG、数据合成、pipeline or end2end or ensemble)、支撑的应用、遇到的挑战以及未来可以做的点进行分享,以期达到抛砖引玉的效果。

嘉宾简介:刘焕勇,360人工智能研究院资深算法专家,知识图谱及文档理解方向负责人,曾就职于中国科学院。主导或参与全行业事理图谱(学迹)、360百科图谱、360自研文档解析模型(360Structure)、360智脑大模型等项目。发明专利授权3项、申请10余项,发表TOIS、ICASSP等顶会论文数篇,在OGB-Wikikg2实体链接预测、ICPR2024多行公式识别、ICDAR2025等国际竞赛中获多项冠亚军;开源项目70余项,累计star数超20k,follower数超6k,Github中国区排名Top70;创立“老刘说NLP”公众号/社区,读者数超54K。主页https://liuhuanyong.github.com

报告二:

梁斌

报告嘉宾:梁斌,八友科技创始人兼CEO

报告题目:大模型数据服务发展与前沿洞察

报告摘要:系统阐述大规模预训练模型中数据需求的演进脉络与发展趋势。早期阶段依赖海量无标注文本数据,但面临质量不均、标注代价高昂及伦理偏差等显著问题。随着模型能力提升,数据需求逐步转向指令微调与人类偏好对齐,其中监督微调(SFT)和基于人类反馈的强化学习(RLHF)等方法对数据的质量与一致性提出更高要求。

当前,数据范式呈现显著的多模态扩展特征,涵盖视觉、音频与合成数据等多种形态,以支撑跨模态语义理解与生成任务。这一趋势对细粒度标注、时序关系建模与异构数据融合提出了新的技术挑战。相应地,数据服务体系逐渐形成以质量为核心的发展范式,依托自动化工具链、数据闭环机制与人工专家校验实现数据效能的系统化提升。

然而,行业仍面临成本-效益失衡、合规风险、标注标准缺失及同质化竞争等诸多挑战。未来,合成数据技术、垂直领域专用数据集与生态化数据基础设施将构成关键发展方向,助力构建更高效、可靠且可持续的大模型数据供应链。

嘉宾简介:梁斌,八友科技创始人兼CEO,人工智能与大数据技术专家,全国智能技术社会应用与评估基础标准化工作组委员。获南京大学软件工程硕士学位、清华大学人工智能博士学位。长期致力于信息检索、自然语言处理及大规模数据系统研发,主持研发大规模Key-Value数据库、THUIR-DB官网、SNS寻人系统(微博寻人,访问超150万人次,用户20万)等一系列实际投入应用的系统;2014年起开发cikuaipi.com、pullword.com、pullwave.com等多类公共自然语言处理工具;发明专利授权3项;撰写《走进搜索引擎》,译著《Managing Gigabytes》(斯坦福信息检索课程教材),推动技术普及与行业教育。

报告三:

周研

报告嘉宾:周研(创邻科技CTO)

报告题目:企业图数据建模的挑战与大模型驱动的解决方案

报告摘要:图数据擅长表达和分析复杂关系,是释放企业数据价值的重要手段。然而现实中,大量业务数据仍存储在关系型数据库里,关系表转图往往出现“建得出来却用不好”的情况:模式与业务需求脱节、查询性能不佳,后续还需频繁返工,增加了时间和成本。基于在多个客户生产环境的实践经验,我们总结了表到图建模中的关键挑战与最佳实践,包括如何让模式设计更贴合业务问题、如何在性能与存储之间取得平衡。在此基础上,我们进一步探索了大语言模型(LLM)的应用。借助任务驱动的分析与推理,大模型能够辅助生成与优化图模式结构,提升查询性能并降低维护成本,为企业图数据建设提供了新的技术路径。

嘉宾介绍:周研博士,浙江创邻科技有限公司联合创始人、CTO,长期深耕图数据库、图计算与知识图谱领域,是 Galaxybase 分布式图数据库研发负责人、OpenKG SIGSPG 小组创始成员及《图数据库:理论与实践》的作者;以通讯作者身份在 VLDB、ICDE 等国际顶级会议发表多篇论文,并作为国内外多个相关标准化委员会成员,主导和参与制定多项国家及行业标准。

报告四:

桂正科

报告嘉宾:桂正科(蚂蚁)

报告题目:KAG–知识增强大模型

报告摘要:检索增强生成(RAG)技术推动了领域应用与大模型结合。然而,RAG 存在着向量相似度与知识推理相关性差距大、对知识逻辑(如数值、时间关系、专家规则等)不敏感等问题,这些都阻碍了专业知识服务的落地。因此,技术正从 RAG (Retrieval Augmented Generation, 检索增强生成) 走向 KAG (Knowledge Augmented Generation,知识增强生成框架) :通过整合知识库与结构化推理,让大模型在垂域推理更具严谨性、专业性、可信性,为垂直领域应用提供更加精准和高效的解决方案。

嘉宾简介:他拥有十年大数据领域的研发管理经验,并在诸多业务场景中落地;在数据仓库、分布式计算、流式计算、微服务架构、图存储、图计算、图学习、图谱构建、图谱挖掘等领域积累了丰富的工作经验;曾主导实施蚂蚁集团内安全、支付、网商银行、蚂蚁消金等场景的图谱建设,并取得显著业务收益。他当前聚焦在大模型&知识图谱结合方向,推进知识增强的可信问答在法律、医疗、政务、事理图谱等领域落地;作为KAG 架构师,打造了行业领先的知识增强生成的框架,开源后得到社区7.5K Stars 关注、550+forks, 在金融、安全、海洋、医疗、军事、互联网等领域有较好的落地效果。

报告五:

吴刚

报告嘉宾:吴刚(柯基数据)

报告题目:“知识图谱+大模型”双轮驱动的医药大健康行业应用落地避坑指南 – 在智能效率、循证合规和成本中寻找平衡点

报告简介: 医药大健康行业的强合规性和循证溯源要求,对于大语言模型的落地带来了很大的挑战,而知识图谱的可解释性可以在不同场景中消除大模型的幻觉、满足循证要求并赋能医疗医药行业的产学研全流程应用。本报告将立足新质生产力背景下医学产学研知识库的业务需求,分享如何利用基于知识图谱增强医学大模型的智能知识库Medical Copilot,与药械营养保健企业、医院、科研院所等在医学领域产学研(研发情报分析,医学循证证据生成、自动审核、学术传递、患者护理等)如何平衡医学循证合规、智能效率提升和成本的应用落地新范式、避坑指南、挑战和未来展望。

嘉宾介绍: 1.南京柯基数据CEO,毕业于中科院软件研究所,中国人民大学信息学院企业硕导;2.《医药大模型》作者,CMAC医学事务生成式AI联盟负责人;3.中华预防医学会慢性病预防与控制分会委员,中国计算机学会CCF数字医疗分会执行委员、中文信息学会知识图谱专委委员、OpenKG开放知识图谱联盟技术专委会委员;4.中华医学会《医疗场景下大模型应用效果评测专家共识》特聘专家,中华护理学会服务国家科协重大战略专项(基于生成式AI的慢病实时监测和主动管理知识增强大模型)子课题负责人。5.工业实战经验:近8年为赛诺菲、勃林格、强生、吉利德、云南白药、先声、国药中药、波科、Haleon、安利等数十家国内外药械营养保健企业成功落地AI数字化转型。6.科研经验:作为核心人员牵头、参与首都医科大学、华西医院、阜外医院、江苏省人民医院、协和医院、江苏省中医院、中国慢病中心等申请以知识图谱和大模型为核心的医工结合科技部、工信部、国家卫健委科技重大专项、国自然医学、省市及医院级重点科研项目等。

工业论坛(二):

报告一:

李中华

报告嘉宾:李中华(华为)

报告标题:九问深度搜索与知识应用实践

报告摘要:随着大模型及AI Agent的发展,深度搜索及研究等产品也不断涌现,成为解决复杂问答及研究类查询需求的有效措施。由于大模型幻象问题、向量检索的局限性,结构化知识凭借其知识的确定性、表达知识的丰富性等优点在深度搜索/研究等产品中也得到广泛的应用。本报告旨在分享九问深度搜索构建过程中,包含结构化知识应用等一些创新性的研究和实践。

嘉宾简介:李中华,华为2012泊松实验室架构师,目前负责九问RAG及深度搜索方向相关工作。博士毕业于新加坡国立大学计算机学院,本科毕业于西北工业大学。主要从事知识检索、RAG、大模型Agent应用方向研究和开发工作,相关工作已落地于华为终端、华为云、ICT等多产品中。

报告二:

邢俊威

报告嘉宾:邢俊威(百度)

报告题目:基于预生成知识优化编码智能体的实践

报告摘要:编码智能体在当前软件开发中的作用日益凸显。百度文心快码(Comate)通过代码上下文引擎预构建高质量的代码知识,显著提升了编码智能体的代码理解与任务执行能力,在代码检索、缺陷定位和智能代码生成等场景中表现优异。实践表明,准确且优质的预生成知识能够显著提升智能编码应用的效果与用户体验。本报告重点介绍了Comate优质预生成信息的构建及应用实践,涵盖代码库术语、代码知识图谱和代码检索工具等关键内容。

嘉宾简介:百度文心快码架构师,主要负责代码上下文引擎的设计规划以及编码智能体的知识增强应用设计。

报告三:

赵鑫晶

报告嘉宾:赵鑫晶(苏州展驰同扬人才)

报告题目:实践中的AI+人力资源解决方案

报告摘要:针对企业用工招聘存在的以下难点:(1)高频且大量的招聘需求;(2)机械性工作效率低下;(3)人岗匹配难度显著;(4)响应滞后且体验欠佳。报告提出基于现有大语言模型(LLM)与解析工具的招聘系统智能化升级方案,通过 AI 招聘助手、岗位标签画像、多渠道简历解析(含聊天语义)、动态人才库四大核心功能,构建高效招聘平台。

嘉宾简介:赵鑫晶毕业于中国人民大学,获法学硕士学位。自2019年投身创业以来,担任苏州展驰同扬人才科技有限公司总经理一职,负责主持搭建平台数字化系统,并自主研发了灵活用工数字平台。该公司已获得超过40件专利及软件著作权证书,还荣获第四届中国(南京)国际人力资源信息化创新创业大赛二等奖、第十届亚太人力资源服务数智技术应用实践案例奖,以及2025世界人工智能大会 – 中小企业协会推荐人工智能解决方案奖。

报告四:

陈自岩

报告嘉宾:陈自岩(中译语通)

报告题目:知识本体增强的Any-Any多模态大模型技术和应用

报告摘要:当前多模态大模型技术得到快速发展,并引起学术界和工业界的高度关注,但绝大部分多模态大模型往往聚焦视觉理解或视觉生成亦或音频问答等单向能力。Any-Any大模型则能够对涵盖文本、图像、音频和视频等全模态的输入进行理解并进行多模态生成,并因其更符合人类感知、思考和行动的范式,成为当前研究的热点之一。但当前Any-Any大模型对于复杂任务执行仍然面临较大挑战性。本报告旨在分享集成数据+工具+模型的本体体系增强Any-Any大模型复杂推理能力的一些创新技术研究和应用。

嘉宾简介:陈自岩博士,目前担任中译语通2030人工智能研究院副院长,并兼职知识图谱产业推进方阵的轮值主席,中国中文信息学会语言与知识计算专业委员会委员,一直从事知识图谱、大语言模型、多模态大模型的技术研究和企业应用,领导了JoveMind知识图谱和格物大模型体系的建设。陈自岩博士主持或参与科技部2030、中央引导地方、国家自然科学基金等多项国家省部级项目,在IJCAI、JASIST等会议和期刊上发表高质量论文10余篇,专利成果30多项。

报告五:

邱霖

报告嘉宾:邱霖(AGI-EVAL)

报告题目:AGI-Eval:全面严谨的大模型综合评测方案

报告摘要:大模型能力的飞速提升对大模型评测技术提出了更高的要求。目前学界的方案多为针对模型某项单点能力的针对性评测,对各类评测结论进行全面科学的总结和综合的工作较为缺乏。为此,AGI-Eval评测社区发布了AGI-Eval Bench,该评测方案主打全面、严谨两大特质,在评测范式、模型模态、模型能力项覆盖度、数据私有化程度、评测数据量、榜单更新速率等方面都做到了业内头部。与此同时,我们还将不断投入评测技术研发,力争走在模型能力发展的最前沿,成为国内外最权威的开源大模型评测社区。

嘉宾简介:邱霖博士目前在AGI-Eval评测社区担任评测技术负责人,其博士毕业于上海交通大学计算机系,本科毕业于上海交通大学计算机系ACM班。其研究兴趣包括机器学习和深度学习技术在大语言模型、自然语言处理、知识图谱等领域的应用,目前专注于大模型评测相关的前沿技术研究和探索,在ACL/EMNLP/Neurips/AAAI等国际顶会发表相关论文二十余篇。

报告六:

孙雄勇

报告嘉宾:孙雄勇(蓝耘科技)

报告题目:行业智能体基础设施实践:基于算力优化与MCP生态互联的探索

报告摘要:随着人工智能技术的迅速发展,企业级智能体正成为推动数字化转型的核心动力。蓝耘科技通过构建针对行业个性化需求的MaaS算力平台和MCP聚合平台,打造垂直行业企业级智能体服务的创新实践。本研究基于算力优化与MCP生态互联的技术探索,尤其是MCP聚合平台,使垂直智能体能够跨行业复用核心能力,同时保持特定领域的专业性。这种模块化架构支持快速定制和部署,为不同垂直领域的客户提供了即插即用的智能化解决方案。从而为企业智能化转型提供了可落地的技术路径和实践范式。

嘉宾简介:孙雄勇博士目前就职于蓝耘科技集团股份有限公司,本科毕业于清华大学,博士毕业于中国科学院声学研究所。在人工智能等领域有二十多年实践经验,作为主要负责人,开创中国学术不端文献检测先河并商业化,成果在多领域广泛应用。主持研制的“学术不端文献检测系统”获“北京市软件和信息服务业25年突出创新应用”奖。作为项目负责人,承担了“北京市文化创新发展专项资金支持项目”和“国家数字复合出版系统工程”等课题。