我们关于车联网隐私保护的研究
来源: 刘忆宁/
桂林电子科技大学计算机与信息安全学院
2041
1
0
2021-07-08

车联网正在成为智慧交通的重要部分,同时车联网中的安全与隐私也日益受到关注。安全性目标包括完整性、机密性、认证性,需要使用好的密码算法保障信息不被非法获取、不被篡改、不被假冒等等。从本质上来说,这些要求与其他信息系统的要求是一样的,对于高速行驶的车辆尤其要求在上面运行的算法是高效的、轻量级的,否则,车辆开出去很远了,认证算法还没有执行完毕,系统还没有提供通信服务,是会出问题的,这就不仅是Information Security,而是Driving safety。车联网系统的另一个关切点是数据隐私,很多人可能会说,隐私与安全不是一样的吗?加密不能保障隐私吗?这里需要先厘清什么是安全,什么是隐私。我觉得可以这样理解:

安全性针对的数据是只在授权用户之间分享的机密数据,授权用户可得到全部的信息,而非授权者得不到任何信息。用于数据安全的算法可以看作是盔甲(例如国密算法https://www.oscca.gov.cn/sca/xxgk/bzgf.shtml),把数据严严实实地包裹起来。当然,在保证防护效果的前提下希望盔甲越轻越好,这也和密码算法的Lightweight的要求是一致的。花木兰这套盔甲保护效果不错,战友们一直没有发现她是女的。

隐私性是在数据开放和数据保护之间的一个折衷机制。如果数据无条件开放,则直接明文发送,比如气象台发布暴雨预警;如果数据需要严格保密,则使用前面所说的安全算法。而隐私性针对的数据,既不是完全开放,又不是严格保密。隐私化处理通常是指非机密数据在面向公众发布前进行的处理,以保护数据所蕴含的敏感信息不被泄露。比如,薪资是衡量区域或行业经济状况的重要指标,个体的薪资数据虽然不属于国家秘密,但是属于敏感信息不宜公开发布。现在通行的作法是发布平均值,平均值既能作为行业的指标,又不泄露个体隐私。虽然有时候公众会有被平均的感觉,但总的来说,发布的数据保留了原始数据的部分属性,又消除了原始数据的部分属性。与花木兰的盔甲对比,隐私化处理类似女名星的深V装,既要向公众展示好身材,又不想一览无余。

image.png 女明星深V禮服大比拼,誰更加風情萬種? - MP頭條

让红毯女明星穿上花木兰的盔甲,他们肯定是不愿意的,因为这样就没法向公众发布自己的身材,因此,他们更愿意用隐私化处理的方法;让花木兰穿上深V裙,当然更不行了,还怎么代父从军,怎么上阵杀敌,完全起不到保护效果。

通过上面的例子,说明了隐私性与安全性是不同的,是一个新的概念,有很多问题需要关注和解决,包括:隐私性的定义、假设的攻击者类型、要保护的目标、要采取的手段等等,正因为新,才给普通研究人员留下了空间和机会。我们主要做了两个方面的研究:1)车联网路径规划中的隐私保护;2)轨迹发布中的隐私保护。

  1. 路径规划中的隐私保护

三国演义曹操杀杨修的故事大家都很熟悉,曹操正在吃晚饭,很可能正在啃一根鸡肋,秘书来请示当晚巡逻用什么口令,曹操随口说“鸡肋”。

       image.png

这里有几个信息安全的问题:

1) 为什么要用口令,因为晚上黑灯瞎火的,看不清人脸,如果要到跟前再来验视腰牌或人脸,很可能站岗的已经被砍了,也就是说传统的复杂的认证成本很高。口令作为一次性的session secret则简单的多,听到远处有人走过来,如果能答对口令,放他过来,如果答的不对,立马放箭。诸葛亮就是靠这个赚了好多箭,对曹操来说,这个认证的成本太高了。

        image.png

2) 口令的选择当然是越随机越好,如果选择的口令经常重复,攻击者就很容易拿用过的口令来蒙混过关。口令当然由最高长官来定,至少他每天吃饭的品种多一些,随手指一个菜,可选择的集合也多。攻击者想要试猜,难度也更大。更重要的是口令选择太重要了,如果别人选的不恰当,肯定会掉脑袋,曹丞相作为最高指挥官,顶多是把胡子割掉就算受惩罚了。当然就由他来选。

        image.png

在车联网系统里面,车辆进入基站的范围时,当然也要进行相互的认证,如果当车辆进入到基站边缘时再来认证,相当于晚上站岗时双方再验视身份牌,一来一往,车开出去好远了,这种效率当然是不能令人满意的。怎么办?借鉴鸡肋的故事,最好是车辆在出发前,与要经过的基站完成“鸡肋”的分发。当进入一个基站时,基站问“来者通名报姓”,车辆答“鸡肋”,基站答“过”。

接下来还有一个问题,站岗的小兵和晚上查岗的,他们并不直接认识,他们之间能共同知道“鸡肋”是当晚的口令,有赖于一个管理系统(包括曹丞相以及整个中军行辕)协助 “鸡肋”在站岗的和查岗的之间分发。

同样的,车辆与基站之间也不直接认识,他们之间完成“鸡肋”的分发,同样依赖于车联网管理中心。这就带来另一个问题,证书中心很可能会知道车辆可能经过哪些基站,也就知道这辆车可能走哪条路,可能会给豪车车主带来很多意想不到的麻烦(https://sh.qq.com/a/20121025/000147.htm)。

   C:\Users\ynliu\AppData\Roaming\Tencent\Users\523584362\TIM\WinTemp\RichOle\]D1C1AQ3OO77)1A`~K3NUCF.png

因此,最好的方式是:证书中心协助车辆与基站之间完成“鸡肋”的分发,以保障高速行驶的车辆与基站之间的快速认证,同时不让证书中心知道车辆可能经过哪些基站,从而保护车辆所规划的路径隐私。比如从家开车去机场,可能走市区道路A线路,也可能走绕城高速B线路,证书中心知道车辆要走两条线路中的一条,但是不知道走哪一条。

在一次答辩时,用老师提出,差分隐私能不能实现这个功能。差分隐私当然可以保护位置隐私,比如开车出去在洗头房停留了一下,用差分加噪的方式可以让人看不出是在洗头房还是在小超市。但是对于相距很远的两条路径:A线路或B线路来说,用差分加噪的方式是不行的。

  1. 轨迹发布中的隐私保护

轨迹数据与人们的生活息息相关,一条两条的轨迹数据仅涉及出行者的隐私,海量的轨迹数据涉及国家安全。但是,能不能把这些数据全部封存起来不向外开放,不就没有数据泄露的风险了吗?当然是不行的,因为数据是重要的资源,只有发布共享才能创造更大的价值,当然前提是对其做隐私化处理或脱敏处理。

因此,应该用深V裙来遮盖,而非用盔甲来包裹这些数据。事实上轨迹隐私的保护,学术界很早就在关注,主要分为四种情形:K-匿名方案:将识别用户的属性泛化,使真实轨迹不能与其它轨迹相区分;轨迹抑制方案:不发送那些能够暴露用户隐私的信息,以此来达到保护用户真实轨迹的目的; 差分隐私方案:添加噪声扰动敏感数据,在使某些数据失真的同时,保持其统计性质;假轨迹方案:为真实轨迹产生一定的假轨迹来降低真轨迹暴露的机率。

上述的k-匿名、轨迹抑制、差分等方法,都是在数据已经被收集到平台后,由平台对其做相应的处理,然后向外发布。虽然发布出去的数据不泄露用户的隐私,但是平台是掌握所收集到的原始数据的,大多数的互联网平台都是可以拿到用户产生的精准数据的。这些数据中心一旦出问题,将会造成无数预料的后果,因此,可行的做法是在数据上传到平台前,在终端即对其做隐私化处理后再发送出去,不管是中间结点还是最后的数据中心,都不能得到原始的数据。我们关注较多的假轨迹方案属于此种情形。比如骑行共享单车结束后,一段轨迹数据就生成了,在上传到平台之前,生成若干条与真实轨迹相似的假轨迹,一起上传到平台。真假轨迹具有统计特征上的一致性,又具有不可区分性。美国总统出行有两辆完全一样的车,外人无法判断总统坐在哪个车里,从而起到保护作用。

image.png

最初的假轨迹生成方法,是较为简单粗暴的,在真实轨迹上取一系列的采样点,在每个采样点做一些旋转伸缩等随机化动作,生成一个假的位置点,然后把它们连接起来就生成了一条假轨迹。由于这样的假轨迹是基于随机化偏移生成的,有些偏移就会显得不合常理,比如可能偏移到河里去了,或者偏移的角度过去尖锐不符合人类行走的特点。如果一条轨迹上不合理的段落太多,就有理由怀疑这条轨迹是人为生成的假轨迹。假轨迹被发现,自然真实轨迹暴露的概率就增加了。我们在2017-2018年时,曾经设计了两个假轨迹检测器,并对几个假轨迹算法生成的轨迹进行检测,发现超过80%的假轨迹是可以被检测出来的,误判率仅在10%左右。这一实验足以说明原有的假轨迹生成算法,并不具备很好的“以假乱真”的效果。

为了找到更好的假轨迹生成算法,我们想到了生成对抗网络(Generative Adversarial Networks, GAN),GAN同时训练两个模型:生成模型G和判别模型D。我们通过例子来说明一下: 比如要做出以假乱真的假币,左手是生成器,拿画笔画假币,右手是判别器,设计验钞机来检测假币。最初左手画的假币,右手一下就发现是假的,左手就分析右手是根据什么特征发现是假的,左手在下一次画的时候就修正这个特征;然后再送到右手的检测器检测,如果还能发现,再根据是什么特征发现的,左手再继续修改,…,直到左手画出来的,右手检测不出来了,这时候,右手的检测器就看以前缺少了什么特征,对右手的检测器进行升级,以便能检测出左手新画出的特征,…,直到最后,右手能不能检测左手画的东西,和丢硬币瞎猜来判断是一样的。这时候,左右手就实现了平衡,也就是达到了以假乱真的地步。

用GAN生成假轨迹,和上述的例子是完全一样的,在不停的训练和检测中,实现一种平衡,以生成以足“以假乱真”的假轨迹。


登录用户可以查看和发表评论, 请前往  登录 或  注册
SCHOLAT.com 学者网
免责声明 | 关于我们 | 联系我们
联系我们: