6月21日上午10:30,应华南师范大学软件学院梁军老师的邀请,深圳大学大数据技术与应用研究所刘涵副研究员通过腾讯会议网络平台作了题目为“基于粒计算的机器学习对非结构化数据的深度处理”的学术报告。
首先,刘涵副研究员以当前热门的深度学习技术作为切入点,阐述了深度学习取得广泛应用的关键因素:
通过端到端的学习模式提高了数据特征表达。传统的机器学习分为预处理、特征提取和选择、分类器设计等若干步骤。深度学习则提供了一种“端到端”的学习范式,整个学习的流程并不进行人为的子问题划分,是完全交给深度学习模型直接学习从原始数据到期望输出的映射。
利用卷积神经网络,可以在学习的过程中有效捕捉特征间的空间关系
利用循环神经网络,可以捕捉特征之间的顺序关系
同时,也指出了相较于深度学习的传统机器学习存在的问题。如特征提取中的深度不足(在自然语言处理中对于多语义词的语义分析时根据词频就显得深度不足,该词周围的上下文也会影响其语义)、特征选择时,某些次要信息对于分类结果产生影响(如在猫图像识别中,白天夜晚背景对于分类产生影响)。其中这些存在的问题大多与数据前期处理与抽样有关,刘副研究员提醒同学们在科研过程中不要忽视科研数据的质量与前期处理。
传统的机器学习算法的这些问题使得处理非结构化数据时缺乏学习深度,因此刘副研究员介绍了基于粒计算的机器学习算法,从广义上实现从浅度学习到深度学习。(非结构化数据:需要通过特征提取将数据变成以特征向量表示的结构化数据的数据。 浅度学习:指传统的人工神经网络,隐含层为多层感知机,网络中层与层之间的特征选择需要人手动实现)
粒计算是近些年的提出的新研究方向,它是将复杂的数据信息粒化,用信息粒代替样本,作为计算的基本单元来解决问题的一种方式。
粒计算有两个重要的操作粒化和组织,刘副研究员以大家熟悉的学校组织架构展示了粒化后的多粒度结构,并用粒计算的观点重新阐释了深度神经网络。在深度神经网络中,每一个神经元被看作一个信息粒,每一层被看作一个信息粒度层。在卷积神经网络中,卷积可以看作粒化,池化可以看作融合。
报告后期,刘涵副研究员向我们介绍了基于粒计算的机器学习新型方法。其中“基于规则学习的半随机数据抽取”方法能使机器学习中的训练数据和验证数据分布更一致,达到学什么就测什么的效果。该方法是将一个数据集分解成多个数据集,每一个数据集再分为一个训练子集和一个验证子集(即粒化的过程)。之后将多个训练子集或验证子集合并成最终训练子集或验证子集(即组织的过程)。该方法使得数据集的多粒度结构分为三层: Level 1原始数据集层、Level 2类数据集层、Level 3子类数据集层。
最后,刘涵副研究员和华南师范大学软件学院老师就粒计算在国内的研究发展现状以及应用粒计算解决公司商标识别等问题进行深入探讨。同时,刘涵副研究员也建议同学们尝试用粒计算的相关方法去解决科研中遇到的难题。
刘涵,现任深圳大学大数据技术与应用研究所副研究员。此前分别在英国朴茨茅斯大学和英国卡迪夫大学担任博士后研究员。2011年在朴次茅斯大学获得计算机科学学士学位,于2012年在英国南安普敦大学获得软件工程硕士学位,于2015年在朴次茅斯大学获得机器学习博士学位。研究方向包括机器学习,自然语言处理,模式识别,粒计算与计算智能等。于2016年2月被英国工程技术学会授予专业会员(MIET)的称号。在2015年博士第三年出版大数据研究系列书籍《Rule Based System for Big Data:A Machine Learning Approach》和《Granular Computing Based Machine Learning: A Big Data Processing Approach》。已在SCI期刊以及顶级会议上共发表10余篇论文。他在Granular Computing期刊担任副主编,在包括IEEE Transaction on Fuzzy System, IEEE Transaction on Pattern Analysis and Machine Intelligence以及Information Sciences在内的多个世界顶级期刊担任论文评委。
撰稿人:王帆