从知识表示看人工智能(中)
来源: 黄翰/
华南理工大学
1201
3
0
2022-02-23

《从知识表示看人工智能(上)》中提到,人工智能(Artificial Intelligence, AI)的核心是知识的表示,所以很多有关人工智能的问题都可以从知识表示的角度进行解释与回答。比方说,“目前AI所达到的应用效果并非很高级的智能,甚至只是一种低端的智能”这个观点就可以从知识表示的角度进行解释与分析。以计算机视觉为例,现在我们可以做人脸识别、物品检测、动植物分类等等。然而,例如猫和狗这些稍微有点智商的动物都能做到认人识物,人工智能只是达到了这种动物级别的低级智能,而难以实现像人一样能够解决复杂专业问题的高级智能,例如工业产品缺陷检测、工业产品自动设计、文章自动评论等。

图片

是什么原因使得AI在一些低级智能的应用中表现良好,而在一些高级智能的应用中表现不佳?从根本上说,人工智能成功与否取决于它所蕴含的知识表示是否清楚。比方说,在计算机视觉领域中,用AI识别一个物体在知识表示上是一个二分类的过程,即判断这个物体是否属于机器已知的某种物体,判断结果是0或1、真或假、是或否。前期,在大量训练数据的支持下,人工智能会借助选好的分类器模型,通过训练和计算使分类器记住数据中某个分类的特征。因此,在遇见新图像时,它就会根据之前的计算结果,利用模型上的表征计算一个分类结果,最终得出这张图片是否属于某一类的结论。这就是前文所述的大家认为比较低级的一种检测智能。

图片

图1 物体检测与识别

此外,在某些具有一定难度的工业级缺陷检测领域,人工智能应用的落地也存在困难。例如在陶瓷行业中,瓷砖产品可能会出现裂纹、釉色不均、凹凸不均、表面有污染等缺陷,这些缺陷有很多种不同的表征,很难用知识去表示它。一线工人也许能够具体描述缺陷的表征,但他们只是记住了缺陷的样子而不了解缺陷的规则。如果我们直接用分类器对不同的缺陷表征进行训练,分类器可能会将一些瓷砖上假劣的艺术效果当成缺陷,无法准确检测缺陷。如果专门为了一种瓷砖产品去设计一个分类器来检测其专有的缺陷,则会存在工作量过大和代价过高的问题。

图片

图2 不同种类的瓷砖缺陷

人工智能在医学图像检测领域的落地也面临相似的困难。例如帮助医生检测或者识别病灶,对AI来说都是十分困难的工作。医生可以根据MRCT、PICT等医学影像数据判断病灶的位置,甚至病灶的内容。他们可能可以提供一些关于检测和识别病灶的规则,但难以表述清楚一些与从业经验相关的知识。一旦识别和检测病灶的专业智能无法被处理为合适的知识表示,要使人工智能落地就会非常困难。如果难以实现基于规则驱动的模型,改用数据驱动的方法可以吗?如果让医生在图中分别标定他认为的正向病灶和反向病灶,然后用这些带有标记的图对分类器进行训练,当然是可行的。但是这种做法需要医生愿意配合,并且具备足够的人力以及时间成本。另外,这个模型只能根据医生所提供的数据来判断病灶,无法判断新的病灶,因为模型通过训练只是记住而并非学习到了病灶的特征。然而,经验丰富的医生却可以根据经验对熟悉或陌生的病灶做出专业的诊断。人类拥有根据以往的经验知识判断新病灶的高级智能,而现有的神经网络用图模型分类器表示知识时可能暂时无法实现知识拓展。因此,医学图像检测AI落地的难点在于很多医学专业知识是难以用目前的模型来进行准确表示的。

图片

图3 病灶检测

除了上述内容,还有许多人工智能陷于知识表示困境的例子。由于篇幅有限,这里就不再一一展开。

分析人工智能落地是否成功,要看这个人工智能的知识表示是否清晰。下围棋是规则很清晰的活动,所以AlphaGo能大获成功;识别病灶是规则较为模糊的行为,所以AI难以处理该行为。你或许很容易在人群中认出你母亲,但是可能很难将你母亲表示清楚。因此,人工智能可以根据你的数据积累去认出你母亲,却很难根据学习到的规则去判断你母亲,这是两个难度。知识表示难度很大,一些AI应用效果不佳的原因很可能就是这个领域的专业知识难以表示,目前没人去做或者没法做到相关知识的准确表示。知识表示是否清晰往往就是人工智能应用能否成功的关键。

图片

在人工智能的应用中,知识表示的重要手段之一是数学建模。什么是数学建模?这里借用网络上的一个段子来作为例子:

青年问禅师:“我想要很多钱,但又不想付出,你能教我方法吗?”

禅师微笑着说:“可以,但你能不能找到一样东西,它无穷无尽,但又不占任何地方?”

青年想了想,最后写了一个康托尔集。

图片

康托尔集是一个测度为0的集合。如果取一个长度为1的直线段,把它三等分,去掉中间的一段,再将剩下的两个部分分别三等分并去掉中间一段,以此类推,即可构造一个无穷尽的点集,名为康托尔集,但是它的测度为零。这个段子充分说明了数学建模的魅力就在于它能够找到客观世界中没有的、但在理论层面上能够存在的一种表示。

图片

图4 康托尔集图示

前文说人工智能的核心是知识表示,那么是否可以用数学来表示人工智能呢?其实在我们学习数学、拓展数学思维时,可以尝试用数学来表示知识。其中,需要重视以下三点:一是计算的思维;二是知识表示的数学基础;三是数学知识与人工智能的关系。

例如,在自然语言处理(Natural Language Processing, NLP)中,我们往往会采用某种模型来完成分类任务,比如较为常用的BERT模型。很多做NLP问题相关研究的同学在做应用研究或者刷测试集时,都会用到BERT模型及其变形。但很多同学不一定会从数学的角度思考如何表示BERT模型所处理的数据。在研究自然语言中两个词含义之间的差距时,最底层的模型是词向量模型。从数学的角度看,词向量模型是在用一个柱系直角坐标系建立两个词之间的欧式距离或者非欧式距离。如果让中学生去理解NLP问题,可以在学习直角坐标系的过程中把NLP作为一个应用的例子去理解,坐标系中两个点之间的距离可以表示两个词或者两句话的距离。词句的距离表示是自然语言处理的基础,因为通过充分的距离数据,AI就可以执行分类任务,也可以进行相似度的匹配,最终实现检索。实现分类和检索功能后,很多NLP相关的应用就能完成了。

图片

图5 词向量模型

此外,人工智能中有一个非常重要的计算机视觉模型——张量模型,它其实是线性代数中矩阵的一种数学模型。以深度学习中的Tensorflow架构为例,“Tensor”指的就是张量,而这个张量指的是高阶矩阵。高阶矩阵的数学性质跟线性代数的模型是分不开的。有些中学已经开设了与矩阵相关的课程,可以让学生通过矩阵的变换或者矩阵的性质了解矩阵与计算机视觉的联系,知道矩阵虽然看起来只是数字的排列,但它其实也是未来人工智能在计算机视觉中的一种知识表示的方式。

图片

图6 背景建模与应用

在计算机视觉中,我们经常还需要对背景进行建模,即先把计算机的原始背景记下来,检测闯入这个背景的所有移动的目标。在实际应用中,例如在智能交通中检测路上行驶的汽车是否变道、是否闯红灯、是否发生交通事故、是否非法停车等,均运用了背景建模的方法。而背景建模方法的本质就是对背景的图像特征进行建模,把背景图像特征按照不同颜色出现的次数构建统计直方图进行建模。如果把这个图画成曲线,我们很容易发现这个统计模型与统计学中的正态分布很接近。如果出现一些特定事件的特征,那么整个颜色统计直方图将会发生变化。但不管发生什么变化,都可以把颜色出现次数分布看成一个统计分布,即针对每一个视频画面都可以建立一个统计分布去刻画它包含的正常事件和异常事件。这意味着我们可以把视频事件的知识表示看成一个统计模型。所以大家在学习数理统计时,不要认为这仅仅是在抽灯泡、检验禾苗高低或摸鱼。事实上,在人工智能和计算机视觉的世界里,很多时候都是用统计模型去进行知识表示的。总之,尝试用数学来表示知识这个思想是非常深刻且有用的。

图片

研究团队介绍

图片

智能算法研究中心(原智能算法实验室,2018年与2020年更名)主要承担国内外重要智能算法类的研究课题,以算法与软件工具包的形式,根据国内外企业、科研与教育机构等单位在智能信息处理方面的需求,解决相关技术难点问题,并从中培养国际化算法研究型人才与算法工程化人才。

实验室必修课

图片

实验室精神

图片

-END-

总编:黄翰

责任编辑:袁中锦

文字:黄翰、邓淇

图片:邓淇、袁中锦

校稿:何莉怡

时间:2022年02月21日


登录用户可以查看和发表评论, 请前往  登录 或  注册
SCHOLAT.com 学者网
免责声明 | 关于我们 | 联系我们
联系我们: