我们关于车联网隐私保护的研究

来源: 刘忆宁/

无业

2478

2021-07-08 10:24:58

2021-07-08

车联网正在成为智慧交通的重要部分，同时车联网中的安全与隐私也日益受到关注。安全性目标包括完整性、机密性、认证性，需要使用好的密码算法保障信息不被非法获取、不被篡改、不被假冒等等。从本质上来说，这些要求与其他信息系统的要求是一样的，对于高速行驶的车辆尤其要求在上面运行的算法是高效的、轻量级的，否则，车辆开出去很远了，认证算法还没有执行完毕，系统还没有提供通信服务，是会出问题的，这就不仅是Information Security,而是Driving safety。车联网系统的另一个关切点是数据隐私，很多人可能会说，隐私与安全不是一样的吗？加密不能保障隐私吗？这里需要先厘清什么是安全，什么是隐私。我觉得可以这样理解：

安全性针对的数据是只在授权用户之间分享的机密数据，授权用户可得到全部的信息，而非授权者得不到任何信息。用于数据安全的算法可以看作是盔甲(例如国密算法https://www.oscca.gov.cn/sca/xxgk/bzgf.shtml)，把数据严严实实地包裹起来。当然，在保证防护效果的前提下希望盔甲越轻越好，这也和密码算法的Lightweight的要求是一致的。花木兰这套盔甲保护效果不错，战友们一直没有发现她是女的。

隐私性是在数据开放和数据保护之间的一个折衷机制。如果数据无条件开放，则直接明文发送，比如气象台发布暴雨预警；如果数据需要严格保密，则使用前面所说的安全算法。而隐私性针对的数据，既不是完全开放，又不是严格保密。隐私化处理通常是指非机密数据在面向公众发布前进行的处理，以保护数据所蕴含的敏感信息不被泄露。比如，薪资是衡量区域或行业经济状况的重要指标，个体的薪资数据虽然不属于国家秘密，但是属于敏感信息不宜公开发布。现在通行的作法是发布平均值，平均值既能作为行业的指标，又不泄露个体隐私。虽然有时候公众会有被平均的感觉，但总的来说，发布的数据保留了原始数据的部分属性，又消除了原始数据的部分属性。与花木兰的盔甲对比，隐私化处理类似女名星的深V装，既要向公众展示好身材，又不想一览无余。

让红毯女明星穿上花木兰的盔甲，他们肯定是不愿意的，因为这样就没法向公众发布自己的身材，因此，他们更愿意用隐私化处理的方法；让花木兰穿上深V裙，当然更不行了，还怎么代父从军，怎么上阵杀敌，完全起不到保护效果。

通过上面的例子，说明了隐私性与安全性是不同的，是一个新的概念，有很多问题需要关注和解决，包括：隐私性的定义、假设的攻击者类型、要保护的目标、要采取的手段等等，正因为新，才给普通研究人员留下了空间和机会。我们主要做了两个方面的研究：1）车联网路径规划中的隐私保护；2）轨迹发布中的隐私保护。

路径规划中的隐私保护

三国演义曹操杀杨修的故事大家都很熟悉，曹操正在吃晚饭，很可能正在啃一根鸡肋，秘书来请示当晚巡逻用什么口令，曹操随口说“鸡肋”。

这里有几个信息安全的问题：

1）为什么要用口令，因为晚上黑灯瞎火的，看不清人脸，如果要到跟前再来验视腰牌或人脸，很可能站岗的已经被砍了，也就是说传统的复杂的认证成本很高。口令作为一次性的session secret则简单的多，听到远处有人走过来，如果能答对口令，放他过来，如果答的不对，立马放箭。诸葛亮就是靠这个赚了好多箭，对曹操来说，这个认证的成本太高了。

2）口令的选择当然是越随机越好，如果选择的口令经常重复，攻击者就很容易拿用过的口令来蒙混过关。口令当然由最高长官来定，至少他每天吃饭的品种多一些，随手指一个菜，可选择的集合也多。攻击者想要试猜，难度也更大。更重要的是口令选择太重要了，如果别人选的不恰当，肯定会掉脑袋，曹丞相作为最高指挥官，顶多是把胡子割掉就算受惩罚了。当然就由他来选。

在车联网系统里面，车辆进入基站的范围时，当然也要进行相互的认证，如果当车辆进入到基站边缘时再来认证，相当于晚上站岗时双方再验视身份牌，一来一往，车开出去好远了，这种效率当然是不能令人满意的。怎么办？借鉴鸡肋的故事，最好是车辆在出发前，与要经过的基站完成“鸡肋”的分发。当进入一个基站时，基站问“来者通名报姓”，车辆答“鸡肋”，基站答“过”。

接下来还有一个问题，站岗的小兵和晚上查岗的，他们并不直接认识，他们之间能共同知道“鸡肋”是当晚的口令，有赖于一个管理系统（包括曹丞相以及整个中军行辕）协助 “鸡肋”在站岗的和查岗的之间分发。

同样的，车辆与基站之间也不直接认识，他们之间完成“鸡肋”的分发，同样依赖于车联网管理中心。这就带来另一个问题，证书中心很可能会知道车辆可能经过哪些基站，也就知道这辆车可能走哪条路，可能会给豪车车主带来很多意想不到的麻烦（https://sh.qq.com/a/20121025/000147.htm）。

$C:\Users\ynliu\AppData\Roaming\Tencent\Users\523584362\TIM\WinTemp\RichOle\]D1C1AQ3OO77)1A`~K3NUCF.png$

因此，最好的方式是：证书中心协助车辆与基站之间完成“鸡肋”的分发，以保障高速行驶的车辆与基站之间的快速认证，同时不让证书中心知道车辆可能经过哪些基站，从而保护车辆所规划的路径隐私。比如从家开车去机场，可能走市区道路A线路，也可能走绕城高速B线路，证书中心知道车辆要走两条线路中的一条，但是不知道走哪一条。

在一次答辩时，用老师提出，差分隐私能不能实现这个功能。差分隐私当然可以保护位置隐私，比如开车出去在洗头房停留了一下，用差分加噪的方式可以让人看不出是在洗头房还是在小超市。但是对于相距很远的两条路径：A线路或B线路来说，用差分加噪的方式是不行的。

轨迹发布中的隐私保护

轨迹数据与人们的生活息息相关，一条两条的轨迹数据仅涉及出行者的隐私，海量的轨迹数据涉及国家安全。但是，能不能把这些数据全部封存起来不向外开放，不就没有数据泄露的风险了吗？当然是不行的，因为数据是重要的资源，只有发布共享才能创造更大的价值，当然前提是对其做隐私化处理或脱敏处理。

因此，应该用深V裙来遮盖，而非用盔甲来包裹这些数据。事实上轨迹隐私的保护，学术界很早就在关注，主要分为四种情形：K-匿名方案：将识别用户的属性泛化，使真实轨迹不能与其它轨迹相区分；轨迹抑制方案：不发送那些能够暴露用户隐私的信息，以此来达到保护用户真实轨迹的目的；差分隐私方案：添加噪声扰动敏感数据，在使某些数据失真的同时，保持其统计性质；假轨迹方案：为真实轨迹产生一定的假轨迹来降低真轨迹暴露的机率。

上述的k-匿名、轨迹抑制、差分等方法，都是在数据已经被收集到平台后，由平台对其做相应的处理，然后向外发布。虽然发布出去的数据不泄露用户的隐私，但是平台是掌握所收集到的原始数据的，大多数的互联网平台都是可以拿到用户产生的精准数据的。这些数据中心一旦出问题，将会造成无数预料的后果，因此，可行的做法是在数据上传到平台前，在终端即对其做隐私化处理后再发送出去，不管是中间结点还是最后的数据中心，都不能得到原始的数据。我们关注较多的假轨迹方案属于此种情形。比如骑行共享单车结束后，一段轨迹数据就生成了，在上传到平台之前，生成若干条与真实轨迹相似的假轨迹，一起上传到平台。真假轨迹具有统计特征上的一致性，又具有不可区分性。美国总统出行有两辆完全一样的车，外人无法判断总统坐在哪个车里，从而起到保护作用。

最初的假轨迹生成方法，是较为简单粗暴的，在真实轨迹上取一系列的采样点，在每个采样点做一些旋转伸缩等随机化动作，生成一个假的位置点，然后把它们连接起来就生成了一条假轨迹。由于这样的假轨迹是基于随机化偏移生成的，有些偏移就会显得不合常理，比如可能偏移到河里去了，或者偏移的角度过去尖锐不符合人类行走的特点。如果一条轨迹上不合理的段落太多，就有理由怀疑这条轨迹是人为生成的假轨迹。假轨迹被发现，自然真实轨迹暴露的概率就增加了。我们在2017-2018年时，曾经设计了两个假轨迹检测器，并对几个假轨迹算法生成的轨迹进行检测，发现超过80%的假轨迹是可以被检测出来的，误判率仅在10%左右。这一实验足以说明原有的假轨迹生成算法，并不具备很好的“以假乱真”的效果。

为了找到更好的假轨迹生成算法，我们想到了生成对抗网络（Generative Adversarial Networks, GAN），GAN同时训练两个模型：生成模型G和判别模型D。我们通过例子来说明一下：比如要做出以假乱真的假币，左手是生成器，拿画笔画假币，右手是判别器，设计验钞机来检测假币。最初左手画的假币，右手一下就发现是假的，左手就分析右手是根据什么特征发现是假的，左手在下一次画的时候就修正这个特征；然后再送到右手的检测器检测，如果还能发现，再根据是什么特征发现的，左手再继续修改，…,直到左手画出来的，右手检测不出来了，这时候，右手的检测器就看以前缺少了什么特征，对右手的检测器进行升级，以便能检测出左手新画出的特征，…,直到最后，右手能不能检测左手画的东西，和丢硬币瞎猜来判断是一样的。这时候，左右手就实现了平衡，也就是达到了以假乱真的地步。

用GAN生成假轨迹，和上述的例子是完全一样的，在不停的训练和检测中，实现一种平衡，以生成以足“以假乱真”的假轨迹。

登录用户可以查看和发表评论，请前往登录或注册。