看论文:《University-1652: A Multi-view Multi-source Benchmark for Drone-based Geo-localization》
- 这是一篇“发布数据集”的论文,这个数据集是世界范围内72所大学的1652个建筑物的图像。
作者将他整理好的数据集免费发出来,如果别人在训练模型的时候、或者在模型比较的时候,只要用到了他的数据集,那么别人在发布成果的时候就必须引用这一篇论文。
看完感觉:“证明数据集好”的工作量要大于“把好的数据集做出来”,证明过程值得学习。
- 研究动机:
想要用一张手机拍的建筑物照片,来定位建筑物的GPS坐标。可以让这张照片与“带有GPS标记的卫星图片集”进行匹配。但用地面视角去匹配卫星视角,即便对人来说也是个挑战。训练模型需要数据集,而主流的数据集视点太少(1张地面视角配1张卫星视角),难度很大。如果引入无人机视角,能降低难度。
- 数据集是怎么做的:
卫星俯瞰图:谷歌地图
无人机航拍图:谷歌地球3D模型 + 模拟无人机镜头
建筑物街拍图:谷歌地图街景(为主),图片搜索引擎(作补充)
平均每个建筑物都有71.64张图像,其中有1张是卫星视角、54张是无人机视角、16.64张是地面视角。
- 怎么证明数据集好:
首先,横向比较,总结特点。
与同类的其他数据集进行横向比较,列个表格。
例如,其他5个数据集,每个地点有2张图片,而这个数据集,每个地点有71.64张图片,就说这个数据集有“More image per class”的特点,但不能说71.64张的比2张的好,因为现在还没有实验依据。
其次,广泛实验,得出结论。
引出实验课题:跨视点图像检索。
定义评价指标,介绍模型结构、损失函数。
根据同一种模型在不同情况下的表现,得出结论。
例如,用这个数据集训练、和用其他几个数据集训练,哪个效果好;
再例如,用不同的“image per class”训练,看是不是真的越多越好;
再例如,对同一地点用多张图片检索,是不是比只用一张图片检索效果更好;
最后,进一步讨论,排除无关因素。
针对读者可能的疑虑,进行实验。
例如,把实验用的损失函数换成其他的损失函数行不行;
再例如,输入图像的尺寸改小一点或改大一点行不行;
再例如,实验过程中带点主观成分的小改动是好是坏;需要用实验数据,证明最终实验的各处细节都是最好的,数据集和实验是足以当“benchmark”的。
做边缘平台:
虽然KubeEdge平台上周搭好了,但现在还不知道怎么用它部署东西。这周在看KubeEdge的文档。
学者网

评论 0