InPlusLab关于QoS预测综述论文被TSC录用
来源: 郑子彬/
中山大学
1240
2
0
2020-06-08

【导语】随着Web服务数量不断增加,越来越多的Web服务提供相似的功能。服务质量(Quality of Service,QoS)描述了Web服务的非功能特性,是区分这些功能相似Web服务的重要标准。准确的QoS预测对于这些QoS感知方法越来越重要。协同过滤(CF)是推荐系统中最成功的个性化预测技术之一,在Web服务QoS预测中也得到了广泛的应用。尽管在这方面已有大量的工作,但似乎没有一个权威的调研综述。为了弥补这一不足,最近,中山大学InPlusLab关于协同过滤在Web服务QoS预测应用的调研综述论文Web Service QoS Prediction via Collaborative Filtering: A Survey被IEEE Transactions on Services Computing(TSC)期刊录用,影响因子5.707。文章首先总结和分析了传统的基于内存和基于模型的CF-QoS预测方法以及扩展CF方法。其次,调研了混合CF-QoS预测方法,并给出了适当的分类和分析。此外,还介绍了几个用于QoS预测评估的Web服务QoS数据集,并在最后提出一些可能的未来QoS预测的研究方向。


论文下载链接: http://inpluslab.com/files/wsqos.pdf






1. 简介

QoS预测对一些QoS感知的方法非常重要,比如图1的基于QoS的服务选择:复合服务S_com由几个抽象服务(S1到S5)组成,每个抽象服务都可以从一组功能相似的具体服务(si1, si2, ..., siN)中选择。QoS感知服务选择的目的是从这些功能相似的服务集合中选择合适的服务,形成一个优化的复合服务。


QoS预测的方法分类如下:


2. QoS预测问题介绍

图3是QoS预测的一个示例。在图3(a)中,U={u1,u2,…,u4}为Web服务用户集,S={s1,s2,…,s6}为Web服务集,E(实线)为U和S之间的调用集。ui和sj之间的连线eij表示用户ui以前调用过Web服务sj。线段eij上的权重wij指的是该调用的QoS值(例如,响应时间等)。用户服务调用可以由矩阵P表示,如图3(b)所示。P中的每个值pij表示服务用户ui观察到的Web服务si的QoS值。P中缺少的QoS值表示对应的用户和Web服务之间没有调用。Web服务QoS预测问题可以定义为:给定已知的用户调用Web服务的QoS值矩阵P(用户-服务矩阵),预测P中缺失的QoS值。


3. 协同过滤背景简介

协同过滤算法大致可以分为两类:基于内存的和基于模型的协同过滤。

典型的基于内存的CF方法可以描述为一个三阶段的过程:相似性计算、邻居选择和缺失值预测。Pearson相关系数(PCC)算法和向量空间相似性(VSS)算法通常用于相似性计算,然后选择相似度高的用户或项目作为彼此的相似邻居,在确定了邻居集之后,下一步是利用来自相似邻居的信息来预测未知评分。根据相似度的计算类型,基于内存的CF方法可以分为三类:基于项目的方法、基于用户的方法以及这两种方法的融合。与基于内存的方法不同,基于模型的CF方法通常先构造具有适当参数的预定义模型,该模型在学习过程结束后将具有一定的预测未知评分的能力,可以对整体结构产生良好的估计。许多CF方法只处理两种类型的实体,即用户和项目,而不考虑任何上下文信息,如时间、位置等。然而,仅考虑用户和项目可能是不够的。通过考虑上下文信息,可以提供更好的建议。


4. 基于内存的QoS预测

4.1 传统的基于内存的QoS预测方法

许多方法使用传统的基于内存的CF来进行QoS预测。它们只使用用户-服务QoS矩阵,并试图从以下四个方面来提高预测性能:

(1)数据预处理:数据预处理是提高数据质量的重要步骤,提高了Web服务QoS预测的性能。

(2)相似度计算:在基于内存的协同预测方法中,相似性扮演着双重角色:过滤不同的邻居(为目标用户或服务获取相似的邻居)和加权相似邻居对协同预测的重要性。因此,相似性计算是CF中最重要的设计决策之一,良好的度量往往会带来良好的性能。

(3)相似邻居选择:在预测失的值之前,需要确定包含相似用户或服务的邻居。相似邻居的选择是准确预测缺失值的重要步骤,因为不相似的邻域会降低预测精度。

(4)QoS值预测:在为每个用户或服务计算了一组邻居之后,通常通过这些邻居来预测QoS值。基于用户的方法使用相似用户的QoS值,基于项的方法使用相似Web服务的QoS值来预测QoS值。融合方法结合基于用户和基于项目的方法来预测缺失值。


4.2 融合地理位置的基于内存的QoS预测方法

QoS高度依赖于底层网络的性能。如果用户和被调用的服务位于因特网上彼此相距较远的不同网络中,则由于数据传输延迟和不同网络之间链路的有限带宽,网络性能可能较差。相反,当用户和Web服务位于同一个网络中时,更可能获得高的网络性能。因此,用户和服务的位置是影响QoS的关键因素。通过考虑位置信息,可以避免选择不合适的邻居的问题,从而提高QoS预测的准确性。

根据位置的表示方法,我们将融合地理位置的基于内存的QoS预测方法分为三类:经纬度坐标、IP地址和自治系统方法。


4.3 融合时间信息的基于内存的QoS预测方法

Web服务的QoS性能与服务调用时间密切相关,因为服务状态(例如,工作负载或客户端数量)和网络环境(例如,拥塞)随时间而变化。一般来说,较长的时间跨度表示QoS值偏离其原始值的概率较高。因此,时间因素是预测QoS的一个非常重要的因素。

我们将融合时间信息的基于内存的QoS预测方法分为三类:时间间隔模型、时间衰减模型和时间序列模型。


4.4 融合其他上下文的基于内存的QoS预测方法

除了与用户或服务相关联的空间和时间信息,在实际应用中,如果加入更多的上下文信息,CF算法的性能将得到提高。Table 1总结了基于内存的QoS预测方法使用的上下文信息。


5. 基于模型的QoS预测

5.1 传统的基于模型的QoS预测方法

基于内存的CF算法实现简单,效率高,但受数据稀疏性的影响较大,并且存在冷启动、可扩展性差等问题。基于内存的CF方法的关键步骤是通过利用用户的历史QoS值和上下文信息来识别每个用户或服务的相似邻居。这些方法很好地利用了本地信息,但却忽略了全局结构。由于基于模型的CF算法使用用户服务矩阵(全局信息)中的所有QoS值来构建用于进行QoS值预测的全局模型,因此它们能够很好地估计与所有用户或服务相关的总体结构。


5.2 融合地理位置的基于模型的QoS预测方法

矩阵分解是比较受关注的基于模型的方法。为了整合位置信息,矩阵分解模型需要完成两个任务。首先,对相似性进行改进,融合位置信息,然后选择相似的邻域。其次,将相似邻居的QoS值集成到矩阵分解模模型中。


5.3 融合时间信息的基于模型的QoS预测方法

我们将融合时间信息的基于模型的QoS预测方法分成:张量的潜在因子分解模型、统计时间序列模型、基于神经网络的模型以及其他模型。


5.4 融合其他上下文的基于模型的QoS预测方法

Table 2总结了基于模型的QoS预测方法使用的上下文信息。


6. 混合协同过滤的QoS预测方法

基于内存的方法利用用户-服务矩阵中相似用户或服务的局部信息来检测邻域关系,往往忽略了用户的绝大多数QoS值,因此它们无法捕获包含在用户的所有QoS值中的弱信号。基于模型的方法基于观测到的QoS数据构造一个全局模型,它们通常能有效地估计与大部分或所有服务相关的总体结构。然而,这些方法在检测一组密切相关的用户或服务之间的强关联方面很差。基于内存和基于模型的方法处理数据中不同层次的结构,因此它们都不是自己的最佳方法。混合CF方法结合了基于内存和基于模型的方法,解决了上述CF方法的局限性,提高了预测性能。Table 3总结了基于内存的、基于模型的以及混合的QoS预测方法的优缺点。


7. 现有的一些挑战

以上讨论的方法集中在如何在稀疏性、可伸缩性和客观性的挑战下提高预测的准确性。然而,最近一段时间,又出现了三个挑战:

(a)在动态环境中,现有的QoS值将用新观察到的值不断更新。

(b)某些用户提供的QoS值可能不可信,这是由恶意用户提交不正确的QoS值造成的。

(c)由于用户的隐私信息可能是从提交的QoS值中推断出来的,因此应该有保护用户隐私的策略。

在这一部分中,我们分别讨论了通过自适应CF-QoS预测、可信CF-QoS预测和隐私保护CF-QoS预测来应对这三个挑战的方法。


8. 数据集介绍

随着各种Web服务QoS预测方法的深入研究,需要一个大规模的现实Web服务QoS数据集来比较它们的预测性能。在Table 4中,我们总结了一些用于QoS预测的数据集。


9. 未来可研究方向

以往的工作表明,CF方法在Web服务QoS预测方面已经取得了很大的进展。然而,在某些条件下,CF方法还不能提供令人满意的解决方案。在这一部分中,我们考虑了一些有希望的进一步研究方向。

(1)其他新兴服务的QoS预测:

Web服务QoS预测的研究应该扩展到非WSDL描述的服务,因为现代Web服务中有很大一部分是非WSDL描述的,如基于云的服务、移动服务和物联网服务。首先,云计算的普及促进了云服务的快速增长。数以百万计的基于云的服务提供多种实时功能。其次,智能手机、平板电脑、可穿戴设备和自主车辆等智能移动设备越来越受欢迎。在移动设备时代,数百万的移动服务可以从应用商店下载。第三,在物联网环境中,大量的异构设备引起了对QoS的关注,在物联网体系结构的每一层都提出了QoS方法,并考虑了不同的QoS特性。为了满足用户需求,预测大规模、高动态服务的QoS值是一个关键的挑战。

(2)分布式QoS预测方法:

典型的QoS预测系统收集自己用户的QoS数据。这导致了历史QoS数据分布在不同的平台上。其中一些平台可能没有足够的用户数据来实现高预测精度。由于数据隐私,这些平台可能愿意但不敢与其他平台共享数据。尽管有人提出了一些解决分布式场景下数据隐私的研究,但是在分布式场景中,性能和隐私保护仍然是一个挑战。另一方面,预测是基于用户贡献的QoS数据。不过,目前还没有鼓励用户捐款的激励机制。需要一个公平的激励机制,即用户贡献越多,获得的回报就越大。此外,参与者的真实性应该是可验证的,因为有些参与者可能会表现出不正常的行为,甚至故意表现出模糊或潜在的敌对行为,以最大限度地提高他们的经济利益。设计基于区块链的QoS预测方法,通过保证用户不受欺诈的影响,鼓励用户参与,将是未来的一个重要研究方向。

(3)QoS预测的新方法:

虽然最近的方法在一定程度上取得了良好的效果,但仍有很大的改进空间。采用新技术进一步提高预测精度是一个有希望的方向。例如,图神经网络(GNN)作为一种新兴的推荐模型,最近被用于推荐系统中。GNN对相邻节点的特征信息进行聚合,得到目标节点的特征信息,然后通过逐层融合获取整个图的结构信息。将GNN应用于QoS预测中,可以利用相邻节点的特征信息和整个图的结构信息进行预测,从而缓解数据稀疏和冷启动的问题。作为另一个例子,上下文感知服务网络中存在着各种各样的对象和丰富的关系,例如空间和时间信息,它们自然形成了一个异构的信息网络。丰富的异构信息可以结合到QoS预测中,解决数据稀疏和冷启动问题。

(4)工业实施案例研究:

QoS预测在基于服务的系统开发中扮演着越来越重要的角色。但目前对于QoS预测的工业实现还缺乏研究。一方面,在现实世界的实现中,数以百万计的服务为数以百万计的用户提供实时功能。为了满足用户的需求,预测大规模、高动态服务的QoS值是一项困难的任务。另一方面,由于用户数据隐私问题,工业公司可能不愿意披露如何使用QoS预测方法的信息。然而,研究基于CF的QoS预测在工业中的应用是非常重要的,这将增加本文工作的意义。工业实施的案例研究可能提供一个有希望的方向,这需要迫切关注。


登录用户可以查看和发表评论, 请前往  登录 或  注册
SCHOLAT.com 学者网
免责声明 | 关于我们 | 联系我们
联系我们: