OSDataset2.0:SAR-光学影像匹配数据集及评估基准

向俞明 陈锦杨 洪中华 焦念刚 王峰 尤红建 童小华

向俞明, 陈锦杨, 洪中华, 等. OSDataset2.0:SAR-光学影像匹配数据集及评估基准[J]. 雷达学报(中英文), 待出版. doi: 10.12000/JR25176
引用本文: 向俞明, 陈锦杨, 洪中华, 等. OSDataset2.0:SAR-光学影像匹配数据集及评估基准[J]. 雷达学报(中英文), 待出版. doi: 10.12000/JR25176
XIANG Yuming, CHEN Jinyang, HONG Zhonghua, et al. OSDataset2.0: SAR-optical image matching dataset and evaluation benchmark[J]. Journal of Radars, in press. doi: 10.12000/JR25176
Citation: XIANG Yuming, CHEN Jinyang, HONG Zhonghua, et al. OSDataset2.0: SAR-optical image matching dataset and evaluation benchmark[J]. Journal of Radars, in press. doi: 10.12000/JR25176

OSDataset2.0:SAR-光学影像匹配数据集及评估基准

DOI: 10.12000/JR25176 CSTR: 32380.14.J25176
基金项目: 上海市科技计划项目(2024CSJZN01300),微波成像全国重点实验室基金
详细信息
    作者简介:

    向俞明,博士,副教授,主要研究方向为SAR影像高精度几何处理

    陈锦杨,硕士生,主要研究方向为异源遥感影像匹配

    洪中华,博士,教授,主要研究方向为全球遥感高精度测图

    焦念刚,博士,助理研究员,主要研究方向为遥感影像几何处理

    王 峰,博士,副研究员,主要研究方向为多源遥感影像精细化处理

    尤红建,博士,研究员,主要研究方向为遥感影像几何精准处理等

    童小华,博士,教授,中国工程院院士,主要研究方向为航天测绘遥感与深空探测

    通讯作者:

    洪中华 zhhong@shou.edu.cn

    责任主编:杨文 Corresponding Editor: YANG Wen

  • 中图分类号: TP751

OSDataset2.0: SAR-optical Image Matching Dataset and Evaluation Benchmark

Funds: Shanghai Science and Technology Program Project (2024CSJZN01300), National Key Laboratory of Microwave Imaging Foundation
More Information
  • 摘要: 合成孔径雷达(SAR)和可见光是地球观测领域中两类关键的遥感传感器,其影像匹配在图像融合、协同解译与高精度定位等任务中具有广泛应用。随着对地观测数据的迅猛增长,SAR-光学跨模态影像匹配的重要性日益凸显,相关研究也取得了显著进展。特别是基于深度学习的方法,凭借其在跨模态特征表达与高层语义提取方面的优势,展现出卓越的匹配精度与环境适应能力。然而,现有公开数据集多局限于小尺寸图像块,缺乏涵盖真实大尺度场景的完整影像对,难以全面评估匹配算法在实际遥感场景中的性能,同时也制约了深度学习模型的训练与泛化能力提升。针对上述问题,该文构建并公开发布了OSDataset2.0,一个面向SAR-光学影像匹配任务的大规模基准数据集。该数据集包含两部分:局部训练数据集与全幅场景测试集,局部训练数据集提供覆盖阿根廷、澳大利亚、波兰、德国、俄罗斯、法国、卡塔尔、马来西亚、美国、日本、土耳其、新加坡、印度、中国14个国家的6476块512×512像素的配准图像块,全幅场景测试集则提供一对光学与SAR整景影像。团队为整景影像提供了利用成像机理一致性原则提取出的高精度均匀分布的真值数据,并配套通用评估代码,支持对任意匹配算法进行配准精度的量化分析。为进一步验证数据集的有效性与挑战性,该文在OSDataset2.0上系统评估了11种具有代表性的SAR-光学影像匹配方法,涵盖了传统特征匹配与主流深度学习模型。实验结果表明,该数据集不仅能够有效支撑算法性能对比,还可为后续研究提供可靠的训练资源与统一的评估基准。

     

  • 随着卫星载荷技术的持续进步,轻量化组网与高频次覆盖已成为对地观测的新范式。然而,这一模式也带来了新的挑战:受限于轨道控制与测控能力,以及低成本元器件在空间环境下的性能约束,遥感影像的绝对定位精度仍处于十米量级,导致不同影像之间普遍存在不可忽视的几何偏差[1]。在此背景下,多时相、多视角、多模态遥感数据的高精度配准成为实现图像融合[2]、影像镶嵌[3]、三维重建[4]和变化检测[5]等后续应用的前提与关键。而影像匹配作为配准流程的核心技术,旨在建立跨传感器、跨时间、跨视角影像间的可靠对应关系,对提升遥感数据的协同利用能力具有重要意义。其中尤其以合成孔径雷达(Synthetic Aperture Radar, SAR)-光学匹配最具有应用价值。SAR沿航迹侧视发射脉冲微波并接收地物散射回波,利用回波的时延与相位进行相干积累等效扩展孔径,从而获得高分辨率的地表成像。相对于光学卫星,SAR卫星采用主动微波成像,对云滴/雾滴散射和大气吸收不敏感,可穿透云雾及大部分降水;同时以自发射-自回波方式工作,不依赖太阳辐射,具备全天时全天候稳定成像能力。因此,SAR能在云雨夜间等光学受限场景弥补信息缺口,与光学数据形成互补。然而如图1所示,在相同地物上SAR影像往往包含大量随机噪声、斑点噪声,同时与光学影像之间存在几何变形以及非线性辐射差异(Nonlinear Radiation Distortion, NRD),这些因素导致了SAR-光学影像匹配成为具有挑战的任务。

    图  1  相同场景下的SAR-光学影像对
    Figure  1.  SAR-optical image pairs of the same object

    为应对所面临的辐射差异、几何变形和严峻噪声问题,已有大量研究致力于SAR-光学影像匹配算法的改进。这些算法大致可归为3类:基于区域的方法、基于特征的方法,以及基于深度学习的方法。

    (1) 基于区域的方法:该类方法通常在一幅图像中选取小区域作为模板,在另一幅图像中通过滑动窗口进行搜索,并计算各位置的相似度,最终选取相似度最高的区域作为匹配结果。传统的区域匹配方法如归一化互相关(Normalized Cross-Correlation, NCC)[6],因仅依赖像素强度进行相似性度量,难以应对SAR-光学影像中普遍存在的噪声与NRD问题。为此,Ye等人[7]将定向梯度直方图(Histogram of Oriented Gradient, HOG)[8] 与相位一致性特征结合,提出了定向相位一致性直方图(Histogram of Oriented Phase Congruency, HOPC)方法,利用结构信息增强匹配能力,从而适用于多模态影像匹配。Fan等人[9]进一步结合相位一致性与非线性扩散技术,有效提升了匹配精度。Xiang等人[10]则提出了一种改进的相位一致性模型,在SAR-光学匹配中展现出更优表现。为提高匹配速度,Ye等人[11]结合快速傅里叶变换(Fast Fourier Transform, FFT),提出了定向梯度的通道特征(Channel Feature of Oriented Gradients, CFOG),以构建高效的密集结构图像模板。随后,他们又提出通过引入一阶与二阶可调滤波器增强结构特征的判别能力[12],进一步提升了匹配效果。基于区域的方法通常能够获得较高的匹配精度,尤其在纹理丰富且几何差异较小的图像对中表现良好;然而,此类方法普遍依赖于滑动窗口在固定尺度和方向下进行匹配,因此主要适用于存在平移变换的图像,对于包含尺度变化、旋转或非刚性变形的影像则适应性较差。

    (2) 基于特征的方法:该类方法通常包括特征检测、特征描述与特征匹配3个关键步骤。早期方法多依赖图像的梯度或强度信息,如尺度不变特征变换(Scale-Invariant Feature Transform, SIFT)[13] 虽然在单一模态下具有良好的匹配性能,但难以直接应用于多模态影像。为克服模态差异带来的挑战,Xiang等人[14]结合Sobel滤波与指数加权平均比(Ratio of Exponentially Weighted Averages, ROEWA)滤波,构建了统一的梯度图,从而实现了光学与SAR影像间的特征匹配。Hou等人[15]在Log-Gabor滤波的基础上引入改进的Daisy描述符[16],提升了多模态匹配的性能。Li等人[17]还提出采用局部强度二元变换(Local Intensity Binary Transformation, LIBT)生成中间图像以进行特征检测与描述,取得了良好的匹配效果。Xiong等人[18]提出增强定向自相似性(Enhanced Oriented Self-Similarity, EOSS)描述符,通过高斯平滑与邻域下采样策略,有效抑制了冗余信息,提高了匹配的鲁棒性。Hong等人[19]则基于多尺度、多方向滤波,构建显著性相对响应图,并结合由粗到细的匹配策略,在保持较强抗辐射差异的同时显著提升了匹配点数量。总体而言,基于特征的方法具备较强的通用性与几何不变性,能够适应尺度变化、旋转以及一定程度的非刚性形变,但匹配精度受限于特征点的重复率。

    (3) 基于深度学习的方法:随着神经网络技术的迅速发展,深度学习方法也被广泛应用于SAR-光学影像匹配任务中。Zhang等人[20]提出的OSMNet通过多级特征融合与特征通道激励机制兼顾了局部细节与全局鲁棒性,成功实现了光学与SAR影像间的高精度匹配。ReDFeat[21]引入相互权重策略,在特征学习过程中重新耦合检测与描述的约束关系,从而增强了训练稳定性并提升了跨模态特征的判别能力。MINIMA[22]则通过数据增强手段,利用生成模型合成多种模态图像,有效提升了网络对多模态变化的适应性。尽管深度学习方法在多模态影像匹配中展现出巨大潜力,但其性能与训练数据集密切相关。在缺乏大规模标注匹配对的遥感场景下,模型的泛化能力仍需进一步提升。

    总体而言,尽管SAR-光学影像匹配算法近年来发展迅速,但该任务仍属于遥感领域中的相对小众方向,尚未形成如计算机视觉通用任务中那样广泛认可的大规模基准数据集。更为关键的是,由于光学与SAR传感器成像机理存在本质差异,二者所反映的地表信息具有显著异构性,理论上并不存在严格意义上的“同名点”。然而,现有匹配方法大多依赖人工标注,选取道路交叉口、建筑物角点等显著地物作为对应点,虽具几何可辨识性,但在成像物理机制上并不真正对应,导致标注结果隐含系统性偏差,进而影响匹配算法性能评估的准确性与可靠性[23]。针对上述问题,本文构建并公开发布了OSDataset2.0—一个面向SAR-光学影像匹配任务的大规模基准数据集。该数据集包含两个子集:子集1为配准训练集,涵盖全球多种地形地貌场景下的大量配对图像块,支持深度学习模型的训练与泛化能力验证;子集2为全幅场景测试集,代表真实遥感应用环境,其中真值控制点基于成像机理一致性原则进行采集,具备更高的物理合理性与几何精度。该数据集可有效支撑对任意匹配算法输出结果的高精度几何配准性能量化评估,为推动SAR-光学跨模态匹配技术的标准化发展提供了可靠的数据基础与评估基准。该数据集可通过《雷达学报》官网的相关链接(https://radars.ac.cn/web/data/getData?newsColumnId=992fa882-30f1-4bda-9553-36c56a8b457d)免费下载使用。

    目前的SAR-光学匹配数据集相对来说较为稀缺,这很大程度上限制了SAR-光学影像匹配能力的验证以及深度学习匹配方法的训练。目前常用的公开数据集如表1所示。

    表  1  现有SAR-光学遥感影像数据集
    Table  1.  Existing SAR-optical Remote Sensing Image Datasets
    数据集 空间分辨率 规模 配准方式/真值
    OSDataset 1 m 10692对256×256像素影像切片 RPC粗配准后用分块仿射/三角网精配准,人工复核
    BRIGHT 0.3~1.0 m 4246对1024×1024像素影像切片 专家人工挑选控制点配准(1.0~1.4像素)
    Multi-Resolution-SAR 0.16~10.00 m 10850对512×512像素影像切片 互信息+RANSAC粗配准,人工选择8~12个控制点精修,
    并对0.16 m子集二次复核确保精度
    QXS-SAROPT 1 m 20000对256×256像素影像切片 专家人工选取8~12个同名控制点配准,人工复查
    OsEval 0.33~0.56 m 1232对3500×3500~5500×5200像素
    影像块
    以路灯杆基座为控制点实现亚像素定位
    下载: 导出CSV 
    | 显示表格

    (1) OSDataset[10]:数据由高分三号(GF-3)聚束模式C波段SAR影像(空间分辨率1 m,单景覆盖约 10 km×10 km)与来自Google Earth的光学影像组成。制作流程为先基于影像原始有理多项式系数(Rational Polynomial Coefficients, RPC)完成粗配准,再通过相位一致性框架、分块仿射与三角网局部优化实现精配准;随后从512×512像素原始块中心裁剪为256×256像素子块,并按7:1:2的比例以不同区域的方式划分训练、验证与测试集合。真值为图像对间的单位矩阵。数据均进行了8-bit量化,但同时保留了SAR乘性斑点噪声。涵盖城市、农田等多类地物,极端高楼密集区与大面积纹理稀疏区样本较少。

    (2) QXS-SAROPT[24]:SAR数据来自GF-3聚束模式1 m分辨率;光学数据来自Google Earth,并统一重采样至 1 m。覆盖圣迭戈、上海与青岛三地,面积约300 km2;原始大幅影像裁切为20000对256×256像素严格对齐子块,子块间设置约20%重叠。制作流程为“人工选点-自动配准-人工复检”:每个区域人工选择8~12个稳定同名点,将光学影像以双线性插值配准到SAR坐标系,并剔除配准误差超过2像素、纹理缺失或云雾遮挡等不合格样本。数据覆盖港口、集装箱堆场、道路与建筑等典型目标,同时保留海面与植被等自然要素以及船舶目标。

    (3) BRIGHT[25]:数据集针对建筑损毁评估任务构建,整合了0.3~0.5 m光学影像与0.3~0.6 m SAR影像,涵盖了2020年—2024年14起灾害事件。共包含42461024×1024像素的配准影像块,涉及23个受灾区域与384596栋建筑,总覆盖面积超过1000 km2。数据集制作流程包括光学辐射定标与几何校正、SAR地形校正等预处理步骤,其中配准由多名专业人员人工标注控制点完成,平均误差为1.0~1.4像素。

    (4) Multi-Resolution-SAR[26]:数据集覆盖了0.16~10.00 m分辨率影像,包含Sentinel-1 C波段10 m(VV/VH)、HT1-A X波段3 m (条带模式)、GF-3 C波段1 m (单极化聚束模式)与Umbra 0.16 m (单极化)等多源SAR载荷;光学参考影像来自高分辨率底图,原始分辨率0.15~0.50 m,经重采样与SAR严格对齐。数据总计10850对,覆盖全球30个典型区域与6类场景类型。制作流程为“自动粗配准 + 人工精修”:先以区域互信息与RANSAC建立全局仿射,再由专业人员在重叠区均匀量测8~12个稳定控制点,0.16 m的数据集部分进行二次复核以保证亚像素精度。

    (5) OsEval[23]:数据集面向SAR-光学影像匹配精度评估,包含相对定向与绝对定向两个子集。相对定向采用分辨率优于0.5 m的全色光学影像与GF-3聚束模式斜距影像,后者采样间隔约为0.56 m (距离向)与0.33 m (方位向);绝对定向由0.3 m谷歌底图与19幅GF-3聚束影像组成。覆盖区域包括美国奥马哈市与檀香山市,总面积超过1000 km2,共包含1232对无重叠的大幅影像块,尺寸范围为3500×35005500×5200像素。真值以路灯杆基座作为控制点获取,共包含30余个点。

    表1可以看到,大多公开数据集呈现为图像块形式(一般在64×64至1024×1024尺寸范围)。这类数据集体量大、覆盖面广,适合用于深度学习模型的训练与初步测试,在一定程度上促进了SAR-光学影像匹配方法的发展。然而,这些数据集的局限性也十分明显:一方面,图像裁剪导致影像仅保留局部区域的结构与纹理,无法全面反映真实遥感场景下存在的几何畸变及辐射不一致性;另一方面,在实际工程任务中,配准往往需要基于整幅大范围影像完成,而仅在小图块上获得的匹配性能难以外推至大规模影像处理流程。为弥补这一缺陷,本团队构建并发布了OSDataset2.0,不仅包含全球分布的小图块样本,便于模型训练和快速验证,还引入了完整的遥感影像场景,能够更真实地模拟工程任务需求。同时,数据集中提供了基于成像机理一致性原则进行采集的高质量同名点及配套验证代码,研究者可在此基础上直接评估算法在整幅影像配准与校正中的表现。该设计不仅为传统算法与深度学习方法提供了统一的公平比较平台,也为探索SAR-光学匹配方法在真实应用中的泛化能力提供了坚实支撑。

    本文构建发布的数据集组织结构如图2所示,由两部分组成,局部训练数据集与全幅场景测试集。局部训练数据集由512×512像素的配准SAR-光学影像对构成,配准精度可达1.5像素以内,影像分辨率均重采样至1 m。覆盖阿根廷、澳大利亚、波兰、德国、俄罗斯、法国、卡塔尔、马来西亚、美国、日本、土耳其、新加坡、印度、中国共14个国家,涵盖海港、城市、机场、农田等多种典型地物类型,OSDataset2.0同时涵盖了作者团队先前发布的OSDataset数据部分。全幅场景测试集由一对整景GeoTIFF格式的光学与SAR影像构成,覆盖范围广泛且地物类型丰富,既包括自然要素(如大面积植被、河流流域) ,也涵盖典型人工目标(如密集的城市街区、机场跑道、港口设施等),场景内部兼具多样性与复杂性,能够充分反映不同地物在异构成像机制下的匹配挑战性。其中,光学影像尺寸为35783×35783,SAR影像尺寸为35507×27298,二者均采用GCS_WGS_1984 地理坐标系。光学影像的原始空间分辨率为0.33 m,SAR影像的原始采样间隔分别为:距离向0.56 m,方位向0.36 m。光学影像均来自Google Earth而SAR影像均来自高分三号。 为便于匹配处理,光学与SAR影像均被重采样至统一的0.43 m分辨率。同时,全幅场景集提供了72对基于成像机理一致性原则采集的亚米级高精度同名点,可用于匹配算法精度评估。图3展示了部分典型数据。

    图  2  OSDataset2.0数据集结构
    Figure  2.  Structure of OSDataset2.0
    图  3  OSDataset2.0的部分数据展示
    Figure  3.  Partial data display from OSDataset2.0

    图4展示了局部训练数据集构建流程图,具体构建方式如下:

    图  4  局部训练数据集构建流程图
    Figure  4.  Patch-level subset construction flowchart

    (1) 首先,收集具备空间重叠关系的光学与SAR影像对,并确保其具有良好的观测质量与大面积场景覆盖。随后,将原始SAR影像进行地理编码处理,再根据地理坐标将SAR影像重采样至对应的光学影像参考框架,使其和光学影像具有相同分辨率。

    (2) 提取影像对的重叠区域,并按1000×1000尺寸进行裁切;仅当裁切块中有效像素比例超过50%时予以保留,否则剔除。首先使用Block-Harris在光学影像上检测特征点,随后在每个候选特征点处同时计算CFOG[11]与MAGD[23]两种特征描述,并基于两种特征描述同时进行局部匹配以估计位移。若该特征点在两种方法上所得位移的差异小于1.5像素,则判为一致并保留该点的匹配;否则丢弃。对所有通过一致性检验保留下来的匹配点使用快速抽样一致性(Fast Sample Consensus, FSC)[27]算法进行误匹配剔除,当最终的匹配点数量不少于10时,将该影像块判定为有效块,利用全部保留匹配点估计仿射变换模型,并据此将SAR影像块变换到光学影像坐标系;不满足条件的影像块则不予保留。最后,从配准完成的影像对中裁剪中心512×512的子块作为最终结果。

    (3) 对所有的影像块进行目视检查,去除存在较大扭曲及有效地物过低的影像块。最后共包含6476个配准完成的512×512大小的影像对。

    (1) 利用哥白尼数字高程模型(Copernicus DEM)对SAR影像进行地形校正处理。随后,对来自Google Earth的光学影像进行重采样,使其空间分辨率与地形校正后的SAR影像保持一致。

    (2) 由于光学和SAR影像的成像机理存在显著差异,导致同一目标在两类影像中呈现出截然不同的表征,反映了不同的特性。传统人工挑选的显著同名点虽具几何可辨识性,但在成像物理机制上并不真正对应,这导致了纯人工视觉挑选的匹配点精度无法保证。因此本文采用基于成像机理一致性原则即在两类传感器的成像物理机制下都能产生明确、可对应的点进行同名点采集。选择在SAR影像中呈现出强“十字形”结构的街灯杆基座作为候选点,如图5所示。在SAR影像中先以候选目标为中心裁剪64×64邻域块,进行32倍上采样定位强散射峰值,由此获得亚像素级的SAR图像坐标;随后在对应的高分辨率光学影像中,根据杆体与阴影的交会位置进行人工标注,得到光学图像坐标。最终形成成像机理一致、精确的SAR-光学真值同名点,所有坐标均以影像的像素坐标形式表示,用于配准精度的定量评估。

    图  5  在SAR影像中具有十字形强散射响应的街灯杆
    Figure  5.  Streetlight poles exhibiting cross-shaped strong scatter responses in SAR images

    (3) 为了更简单地对不同算法的匹配点进行评估,我们提供了一套标准化的校正与评估代码工具,该工具专用于全幅场景测试集,并选用了更加适合于整景大幅遥感影像的评估方式,以便全面反映算法在真实应用环境下的表现。代码运行需输入5个参数,分别为参考影像、待校正影像、算法生成的匹配点、人工标注的真值点,以及所采用的变换模型。为适应不同场景的配准需求,本工具支持3种变换模型,包括仿射变换、一/二/三阶多项式变换以及薄板样条(TPS)变换。该工具首先通过输入的匹配点构建影像间的几何映射关系,并以参考影像的地理坐标系与分辨率为基准对SAR影像进行重采样校正。随后,将人工标注的真值点投影至校正后的影像上,与其理想位置进行对比,从而计算像素级误差指标。最终结果以GeoTIFF输出配准影像,并生成详细的评估报告CSV文件,便于后续分析与可视化使用。具体评估方式如下:

    H=affine(Popt,Psar)
    (1)
    [xiyi1]=H[xiyi1]
    (2)
    ei=(Xixi)2+(Yiyi)2
    (3)

    其中,H表示由匹配算法所得到的匹配点对所计算出的将SAR影像的匹配点转换到光学影像坐标系的仿射变换模型;affine()表示计算仿射变换模型操作;PoptPsar分别表示由匹配算法所得出的在光学和SAR影像上的匹配点集合;(xi ,yi)表示真值文件中SAR影像上的第i个点的坐标;(xi,yi)表示经过仿射变换后真值文件中SAR图像上的点在光学影像上的位置;ei表示计算出的误差;(Xi ,Yi)表示真值文件中光学影像上的第i个点的坐标。我们统计所有真值点的均方根误差(Root Mean Square Error, RMSE)、平均误差(Mean Error, MEAN)、误差中位数(Median Error, MEDIAN)以及最大误差(Max Error, MAX)作为评估指标,以下为计算方式:

    RMSE=1NGTi=1NGTei2
    (4)
    MEAN=1NGTi=1NGTei
    (5)
    MEDIAN=median(ei)
    (6)
    MAX=max(ei)
    (7)

    NGT表示真值点的数量,此处取72; median()和max()分别表示取中位数操作和取最大值操作。

    RMSE能够综合衡量整体误差水平并对大误差敏感,体现整体精度与稳定性;MEAN表示平均误差,反映总体偏差趋势但易受极端值影响;MEDIAN则能较好地刻画典型匹配点的误差水平,不受异常值干扰,更能体现大多数点的真实表现;而MAX强调最坏情况下的误差,揭示算法在极端条件下的性能下限。四者结合能够从整体精度、典型表现到最差情况全面评估配准算法的可靠性与稳健性。

    为了验证本文构建的OSDataset2.0数据集的有效性,我们选取了11 种具有代表性的SAR-光学影像匹配算法进行效果评估。在局部训练数据集上,评估方法涵盖3大类:包括EOSS[18], ECSS[19], POS-GIFT[15]和SRIF[17] 4种基于特征的方法,CFOG与MAGD两种基于区域的方法,以及XFeat[28], OSMNet, MINIMA-LG和MINIMA-LoFTR 4种基于深度学习的方法。在全幅场景测试集中,除上述10种方法外,进一步引入了基于区域的SFOC[12]方法进行对比评估。所有传统匹配方法均采用作者在原论文中推荐的参数设置,所有基于深度学习的算法则使用其公开发布的预训练模型进行测试并在匹配完成后统一采用阈值为3像素的RANSAC[29]算法进行误匹配剔除,并将剔除后的匹配点作为最终输出结果,用于后续的评估与分析。所有实验均在搭载英特尔i9-13980HX处理器(2.20 GHz)、NVIDIA GeForce RTX 4080 Laptop GPU显卡、64 GB内存及Windows 11 x64操作系统的MSI Titan 16HX笔记本电脑上完成。深度学习方法采用Python 3.10.16+PyTorch 2.5.1+CUDA 11.8。

    在局部训练数据集效果评估中,本文采用了3项定量指标进行匹配算法的性能对比,分别为正确匹配点数量(Number of Correct Matches, NCM)、匹配点的均方根误差(Root Mean Square Error, RMSE)以及匹配成功率(Success Rate, SR)。其中,NCM用以衡量匹配能力,较高的NCM值代表更强的匹配能力,定义为

    correct match=|ref(x,y)Ttruth(sen(x,y))|th
    (8)

    ref(x,y)表示参考图像上的点;Ttruth表示参考影像和待匹配影像之间真实的变换关系;sen(x,y) 表示在待匹配影像上与ref(x,y)对应的匹配特征点;th表示设定的匹配成功的阈值。

    RMSE反映了匹配的精准度,较低的RMSE值表示更高的匹配精度:

    RMSE=1NOMi=1NOM[(xixi)2+(yiyi)2]
    (9)

    NOM表示匹配算法输出的所有匹配点数量;(xi ,yi)表示参考图像上的位置;(xi,yi)表示在待匹配图像上与(xi ,yi)对应的匹配点位置经过真值变换后的坐标位置。

    SR用于衡量匹配算法的鲁棒性,其值越高,说明在数据集中成功完成配准的影像对数量越多,反映出算法对不同场景的适应能力越强。在具体评估中,当某对影像的NCM大于10个且RMSE小于给定阈值时,该影像对被视为匹配成功:

    I(pi)={1,NCM(pi)10&RMSE(pi)th0,else,SR=1MiI(pi)100%
    (10)

    I(pi)表示该对影像是否匹配成功;pi表示第i对影像;&表示与运算;M表示总影像数量。

    为更全面地评估不同匹配算法在局部影像数据集上的性能,我们将匹配成功的判定阈值(th)分别设定为3, 5, 7和10像素。同时,在计算平均RMSE时,若某对影像的RMSE超过对应阈值th,则将该匹配对的RMSE记为th,以避免个别异常值对整体评价结果产生过大影响。表2给出了不同方法在局部影像对集上的评估结果。为更加直观地对比不同算法在各指标上的表现,图6图7以及图8分别展示了在不同阈值下,各方法的SR, RMSE和NCM指标。

    表  2  不同方法在局部训练数据集上的评估结果
    Table  2.  Evaluation results of different methods on Patch-level subset
    类别 方法 th=3 th=5 th=7 th=10
    NCM
    (个)↑
    RMSE
    (像素)↓
    SR
    (%)↑
    NCM
    (个)↑
    RMSE
    (像素)↓
    SR
    (%)↑
    NCM
    (个)↑
    RMSE
    (像素)↓
    SR
    (%)↑
    NCM
    (个)↑
    RMSE
    (像素)↓
    SR
    (%)↑
    特征 EOSS 155 2.94 16 264 4.20 54 320 4.92 72 358 5.55 84
    ECSS 503 2.81 28 771 3.92 58 895 4.61 72 974 5.29 82
    SRIF 27 2.96 10 44 4.38 47 52 5.22 66 56 6.04 77
    POS-GIFT 58 2.99 3 105 4.82 15 139 6.37 28 165 8.34 40
    区域 MAGD 41 2.70 30 56 3.88 50 66 4.76 61 72 5.78 70
    CFOG 39 2.71 32 48 3.94 44 52 5.00 49 54 6.48 52
    深度
    学习
    OSMNet 175 2.58 42 235 3.50 63 264 4.13 73 286 4.80 81
    XFeat 6 2.99 3 12 4.83 13 17 6.47 23 23 8.52 40
    MINIMA-LG 43 2.90 20 66 4.24 44 76 5.23 56 82 6.40 65
    MINIMA-LoFTR 107 2.24 47 108 3.21 57 111 3.94 70 124 4.64 81
    注:加粗数值表示最优。
    下载: 导出CSV 
    | 显示表格
    图  6  不同方法在局部训练数据集上不同th对应的SR
    Figure  6.  SR of different methods at different th on the patch-level subset
    图  7  不同方法在局部训练数据集上不同th对应的RMSE
    Figure  7.  RMSE of different methods at different th on the patch-level subset
    图  8  不同方法在局部训练数据集上不同th对应的NCM
    Figure  8.  NCM of different methods at different th on the patch-level subset

    在传统匹配方法中,我们对比了4种基于特征的方法(EOSS, ECSS, SRIF, POS-GIFT)与两种基于区域的方法(MAGD, CFOG)的性能。整体来看,当匹配成功的判定阈值设置为较宽松的5, 7, 10像素时,除了POS-GIFT以外的基于特征的方法在匹配成功率上明显优于基于区域的方法。例如,在10像素阈值下,EOSS, ECSS和SRIF的SR分别达到84%, 82%和77%,而MAGD与CFOG的SR分别仅为70%和52%。这主要归因于基于特征的方法具有更强的适应性,能够提取更具鲁棒性的局部结构信息,从而提升在复杂场景中的匹配稳定性。然而,当阈值收紧至3像素时,情况出现明显反转:此时基于区域的方法在SR和RMSE两个指标上均优于基于特征的方法。具体来看,在3像素条件下,MAGD和CFOG的SR分别为30%和32%,明显高于除ECSS(28%)以外的其他特征方法(低于20%),且二者的RMSE亦保持在较低水平(2.70像素和2.71像素),优于全部基于特征方法。这是因为,基于特征的方法在特征描述符设计中通常更关注匹配的鲁棒性与成功率,往往通过增强不变性来适应几何和辐射差异,这在一定程度上模糊了特征点的局部结构信息,降低了点与点之间的判别能力。此外,该类方法需在两幅影像中分别检测特征点,因此图像噪声、纹理缺失或定位偏差带来的误差可能在匹配过程中被累积,进一步影响最终匹配精度。相比之下,基于区域的方法通常只在一幅影像中提取参考点,并在另一幅影像中以滑动窗口的方式在局部邻域内进行逐像素相似性计算。这种方法不依赖显式的特征点匹配,而是通过密集的区域相似度搜索获得位移估计,特别适用于图像变形较小的区域,从而能够在误差控制严格的条件下实现更高精度的匹配。这也充分体现了基于区域的方法在高精度匹配任务中的天然优势。

    在所有传统方法中,POS-GIFT的整体表现最差。即使在阈值设定为10像素的条件下,SR仍低于50%;而在最严格的3像素阈值下,SR更是仅为3%。其性能不佳的主要原因在于,POS-GIFT直接利用多方向Log-Gabor滤波器的响应幅度构建特征描述符。然而,Log-Gabor的响应幅度在不同模态影像之间缺乏稳定性,即使针对相同地物在相同方向上,其幅度响应仍可能存在较大差异。再加上本数据集中普遍存在较强的NRD,这进一步削弱了该方法的鲁棒性。

    4种基于深度学习的算法在本数据集上呈现出明显分化的性能表现,反映出基于深度学习的方法在SAR-光学影像匹配中具有潜力的同时,也凸显了训练数据的重要性。其中,XFeat并未采用多模态数据进行训练,因而难以适应光学与SAR之间的模态差异,在所有评估指标上均表现最差,明显落后于其他方法。相比之下,MINIMA-LG与MINIMA-LoFTR通过引入数据增强策略,借助生成模型合成多模态图像进行训练,从而具备了较强的跨模态匹配能力;OSMNet则是专为SAR-光学影像匹配任务设计的网络结构,因此具备良好的匹配性能。在具体评估结果中,OSMNet与MINIMA-LoFTR在SR指标上的表现相近,均能在不同阈值设定下保持较高的SR。其中,MINIMA-LoFTR由于采用半稠密匹配策略,在所有阈值条件下取得了最低的RMSE,体现出半稠密的匹配方法在精度控制方面的优势。

    在全幅场景测试集的评估中,除了采用之前的10种算法外,我们还引入了当前较为先进的基于区域的大场景匹配方法SFOC,以实现更为全面的性能对比。全幅场景集附带72个以街灯杆基座为基准、人工标注的高精度控制点。我们利用各算法生成的匹配点,输入数据集附带的评估代码中即可获得校正后的影像及精度报告。

    为更真实且公平地评估各匹配算法在实际工程任务中的性能,除SFOC外的所有方法均采用了分块匹配策略。具体而言,传统方法与OSMNet在匹配过程中将两幅影像的重叠区域划分为1024×1024的图像块进行处理;而其余基于深度学习的方法则根据网络输入尺寸的要求,将影像划分为小块以进行匹配。所有块匹配完成后会将匹配点合并,并对合并后的匹配点进行一次RANSAC误匹配剔除。SFOC的开源程序直接支持大场景的匹配验证,无须分块操作。表3展示了不同方法在全幅场景测试集上的评估结果。图9展示使用真值点评估11种方法的箱线图,箱体表示误差在所有点的25%~75%位置处的点,工字线表示误差最小值和最大值,实线表示误差中位数线,虚线表示误差均值线。

    表  3  不同方法在全幅场景测试集上的评估结果
    Table  3.  Evaluation results of different methods on scene-level subset
    类别 方法 RMSE(像素)↓ MEAN↓ MEDIAN↓ MAX↓
    特征 EOSS 5.05 4.46 3.91 12.63
    ECSS 4.92 4.50 4.53 9.76
    SRIF 5.72 5.04 5.21 11.23
    POS-GIFT 6.58 5.84 5.16 16.58
    MAGD 4.29 3.71 3.46 8.86
    区域 CFOG 5.68 5.15 4.81 15.08
    SFOC 5.01 4.61 4.48 11.12
    深度
    学习
    OSMNet 4.13 3.59 3.45 9.81
    XFeat 6.66 6.28 5.85 12.06
    MINIMA-LG 6.16 5.37 5.19 12.45
    MINIMA-LoFTR 4.96 4.51 4.19 11.47
    注:加粗数值表示最优。
    下载: 导出CSV 
    | 显示表格
    图  9  使用真值点评估11种方法的箱线图
    Figure  9.  Boxplots evaluating 11 methods using ground truth points

    图9可以看出,不同算法在全幅场景集上的误差分布具有明显差异。OSMNet在整体表现上最为优异,不仅中位误差最低,误差分布也较为集中,展现出优良的精度与稳定性。然而,除OSMNet之外,其余深度学习方法并未普遍优于传统方法。例如,MINIMA-LG和MINIMA-LoFTR的最大误差和误差离散程度均较高,且在中位误差上也不具优势,劣于部分传统方法。XFeat的箱体较小,但是其中位误差和均值误差均最大。这说明,深度学习方法的性能依旧高度依赖于训练数据。只有OSMNet专门在真实的SAR-光学数据集上进行了有针对性的训练。

    在传统方法中,MAGD的表现最为优越,不仅误差中位数较低,误差范围也较为紧凑,优于其他特征或区域方法。ECSS算法虽然在平均精度上略逊于OSMNet和MAGD,但其箱体最小,表明其误差波动最小、匹配结果更加稳定。相对而言,POS-GIFT的匹配效果最差,不仅中位误差和均值误差均居于各方法末位,而且其最大误差远高于其他方法,稳定性较差。这主要归因于其使用的Log-Gabor响应在NRD显著的多模态影像中表现不稳定,导致描述符在不同模态之间缺乏一致性。

    在全幅场景集上的实验中,所有匹配算法的校正精度均未能将RMSE压低至4像素以内,说明在高分辨率的大范围遥感场景中,SAR-光学影像匹配仍面临较大挑战。造成这一现象的原因主要包括3点:首先,影像存在一定程度的局部非线性变形,因而需要分布更均匀、精度更高的匹配点,才能更有效地支撑整幅影像的高精度配准;其次,目前多数算法在误匹配剔除及变换过程中采用仿射模型,而影像间的误差并不总是严格满足仿射变换,这可能导致一些本质正确但不符合仿射约束的匹配关系被剔除,使得局部区域缺乏有效控制点,从而影响整体校正效果;最后,本数据集中光学与SAR影像的分辨率均为0.43 m,误差容忍空间较小,微小的几何偏差也会被放大为较高的像素误差,进一步增加了精度控制的难度。因此,提升匹配算法在复杂地形和高精度场景下的适应能力仍是今后的研究重点。

    本文构建并发布了OSDataset2.0,这是首个同时包含局部训练影像与全幅场景测试影像的SAR-光学匹配数据集。并且提供了基于成像机理一致性原则采集的高精度真值点,避免了人工标注显著地物的误差。在局部与全幅两个子集上,本文系统评估了多种匹配算法的表现和本数据集的有效性。结果显示,尽管部分方法表现较优,但在全幅场景中所有算法的RMSE仍高于4个像素,说明高精度SAR-光学匹配仍存在显著挑战。此外,深度学习方法因训练数据受限,尚未完全优于传统方法。我们希望 OSDataset2.0能作为训练数据和评估标准,促进SAR-光学影像匹配方法的持续发展。OSDataset2.0:SAR-光学影像匹配数据集及评估基准依托《雷达学报》官方网站发布,数据及使用说明已上传至学报网站(图10),网址为:https://radars.ac.cn/web/data/getData?newsColumnId=992fa882-30f1-4bda-9553-36c56a8b457d

    图  10  OSDataset2.0:SAR-光学影像匹配数据集及评估基准
    Figure  10.  Release webpage of OSDataset2.0
  • 图  1  相同场景下的SAR-光学影像对

    Figure  1.  SAR-optical image pairs of the same object

    图  2  OSDataset2.0数据集结构

    Figure  2.  Structure of OSDataset2.0

    图  3  OSDataset2.0的部分数据展示

    Figure  3.  Partial data display from OSDataset2.0

    图  4  局部训练数据集构建流程图

    Figure  4.  Patch-level subset construction flowchart

    图  5  在SAR影像中具有十字形强散射响应的街灯杆

    Figure  5.  Streetlight poles exhibiting cross-shaped strong scatter responses in SAR images

    图  6  不同方法在局部训练数据集上不同th对应的SR

    Figure  6.  SR of different methods at different th on the patch-level subset

    图  7  不同方法在局部训练数据集上不同th对应的RMSE

    Figure  7.  RMSE of different methods at different th on the patch-level subset

    图  8  不同方法在局部训练数据集上不同th对应的NCM

    Figure  8.  NCM of different methods at different th on the patch-level subset

    图  9  使用真值点评估11种方法的箱线图

    Figure  9.  Boxplots evaluating 11 methods using ground truth points

    图  10  OSDataset2.0:SAR-光学影像匹配数据集及评估基准

    Figure  10.  Release webpage of OSDataset2.0

    表  1  现有SAR-光学遥感影像数据集

    Table  1.   Existing SAR-optical Remote Sensing Image Datasets

    数据集 空间分辨率 规模 配准方式/真值
    OSDataset 1 m 10692对256×256像素影像切片 RPC粗配准后用分块仿射/三角网精配准,人工复核
    BRIGHT 0.3~1.0 m 4246对1024×1024像素影像切片 专家人工挑选控制点配准(1.0~1.4像素)
    Multi-Resolution-SAR 0.16~10.00 m 10850对512×512像素影像切片 互信息+RANSAC粗配准,人工选择8~12个控制点精修,
    并对0.16 m子集二次复核确保精度
    QXS-SAROPT 1 m 20000对256×256像素影像切片 专家人工选取8~12个同名控制点配准,人工复查
    OsEval 0.33~0.56 m 1232对3500×3500~5500×5200像素
    影像块
    以路灯杆基座为控制点实现亚像素定位
    下载: 导出CSV

    表  2  不同方法在局部训练数据集上的评估结果

    Table  2.   Evaluation results of different methods on Patch-level subset

    类别 方法 th=3 th=5 th=7 th=10
    NCM
    (个)↑
    RMSE
    (像素)↓
    SR
    (%)↑
    NCM
    (个)↑
    RMSE
    (像素)↓
    SR
    (%)↑
    NCM
    (个)↑
    RMSE
    (像素)↓
    SR
    (%)↑
    NCM
    (个)↑
    RMSE
    (像素)↓
    SR
    (%)↑
    特征 EOSS 155 2.94 16 264 4.20 54 320 4.92 72 358 5.55 84
    ECSS 503 2.81 28 771 3.92 58 895 4.61 72 974 5.29 82
    SRIF 27 2.96 10 44 4.38 47 52 5.22 66 56 6.04 77
    POS-GIFT 58 2.99 3 105 4.82 15 139 6.37 28 165 8.34 40
    区域 MAGD 41 2.70 30 56 3.88 50 66 4.76 61 72 5.78 70
    CFOG 39 2.71 32 48 3.94 44 52 5.00 49 54 6.48 52
    深度
    学习
    OSMNet 175 2.58 42 235 3.50 63 264 4.13 73 286 4.80 81
    XFeat 6 2.99 3 12 4.83 13 17 6.47 23 23 8.52 40
    MINIMA-LG 43 2.90 20 66 4.24 44 76 5.23 56 82 6.40 65
    MINIMA-LoFTR 107 2.24 47 108 3.21 57 111 3.94 70 124 4.64 81
    注:加粗数值表示最优。
    下载: 导出CSV

    表  3  不同方法在全幅场景测试集上的评估结果

    Table  3.   Evaluation results of different methods on scene-level subset

    类别 方法 RMSE(像素)↓ MEAN↓ MEDIAN↓ MAX↓
    特征 EOSS 5.05 4.46 3.91 12.63
    ECSS 4.92 4.50 4.53 9.76
    SRIF 5.72 5.04 5.21 11.23
    POS-GIFT 6.58 5.84 5.16 16.58
    MAGD 4.29 3.71 3.46 8.86
    区域 CFOG 5.68 5.15 4.81 15.08
    SFOC 5.01 4.61 4.48 11.12
    深度
    学习
    OSMNet 4.13 3.59 3.45 9.81
    XFeat 6.66 6.28 5.85 12.06
    MINIMA-LG 6.16 5.37 5.19 12.45
    MINIMA-LoFTR 4.96 4.51 4.19 11.47
    注:加粗数值表示最优。
    下载: 导出CSV
  • [1] 向俞明, 滕飞, 王林徽, 等. 基于快速异源配准的高分辨率SAR影像海岛区域正射校正[J]. 雷达学报(中英文), 2024, 13(4): 866–884. doi: 10.12000/JR24022.

    XIANG Yuming, TENG Fei, WANG Linhui, et al. Orthorectification of high-resolution SAR images in island regions based on fast multimodal registration[J]. Journal of Radars, 2024, 13(4): 866–884. doi: 10.12000/JR24022.
    [2] YE Yuanxin, ZHANG Jiacheng, ZHOU Liang, et al. Optical and SAR image fusion based on complementary feature decomposition and visual saliency features[J]. IEEE Transactions on Geoscience and Remote Sensing, 2024, 62: 5205315. doi: 10.1109/TGRS.2024.3366519.
    [3] HONG Zhonghua, ZHANG Zihao, HU Shangcheng, et al. A robust seamline extraction method for large-scale orthoimages using an adaptive cost A* algorithm[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2025, 18: 13322–13347. doi: 10.1109/JSTARS.2025.3570614.
    [4] HONG Zhonghua, ZHANG Hongyang, TONG Xiaohua, et al. Rapid fine-grained damage assessment of buildings on a large scale: A case study of the February 2023 earthquake in turkey[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2024, 17: 5204–5220. doi: 10.1109/JSTARS.2024.3362809.
    [5] WAN Ling, XIANG Yuming, KANG Wenchao, et al. A self-supervised learning pretraining framework for remote sensing image change detection[J]. IEEE Transactions on Geoscience and Remote Sensing, 2025, 63: 5630116. doi: 10.1109/TGRS.2025.3579416.
    [6] YOO J C and HAN T H. Fast normalized cross-correlation[J]. Circuits, Systems and Signal Processing, 2009, 28(6): 819–843. doi: 10.1007/s00034-009-9130-7.
    [7] YE Yuanxin, SHAN Jie, BRUZZONE L, et al. Robust registration of multimodal remote sensing images based on structural similarity[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(5): 2941–2958. doi: 10.1109/TGRS.2017.2656380.
    [8] DALAL N and TRIGGS B. Histograms of oriented gradients for human detection[C]. 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’05), San Diego, USA, 2005: 886–893. doi: 10.1109/CVPR.2005.177.
    [9] FAN Jianwei, WU Yan, LI Ming, et al. SAR and optical image registration using nonlinear diffusion and phase congruency structural descriptor[J]. IEEE Transactions on Geoscience and Remote Sensing, 2018, 56(9): 5368–5379. doi: 10.1109/TGRS.2018.2815523.
    [10] XIANG Yuming, TAO Rongshu, WANG Feng, et al. Automatic registration of optical and SAR images via improved phase congruency model[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2020, 13: 5847–5861. doi: 10.1109/JSTARS.2020.3026162.
    [11] YE Yuanxin, BRUZZONE L, SHAN Jie, et al. Fast and robust matching for multimodal remote sensing image registration[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(11): 9059–9070. doi: 10.1109/TGRS.2019.2924684.
    [12] YE Yuanxin, ZHU Bai, TANG Tengfeng, et al. A robust multimodal remote sensing image registration method and system using steerable filters with first-and second-order gradients[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2022, 188: 331–350. doi: 10.1016/j.isprsjprs.2022.04.011.
    [13] LOWE D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91–110. doi: 10.1023/B:VISI.0000029664.99615.94.
    [14] XIANG Yuming, WANG Feng, and YOU Hongjian. OS-SIFT: A robust SIFT-like algorithm for high-resolution optical-to-SAR image registration in suburban areas[J]. IEEE Transactions on Geoscience and Remote Sensing, 2018, 56(6): 3078–3090. doi: 10.1109/TGRS.2018.2790483.
    [15] HOU Zhuolu, LIU Yuxuan, and ZHANG Li. POS-GIFT: A geometric and intensity-invariant feature transformation for multimodal images[J]. Information Fusion, 2024, 102: 102027. doi: 10.1016/j.inffus.2023.102027.
    [16] TOLA E, LEPETIT V, and FUA P. A fast local descriptor for dense matching[C]. 2008 IEEE Conference on Computer Vision and Pattern Recognition, Anchorage, USA, 2008: 1–8. doi: 10.1109/CVPR.2008.4587673.
    [17] LI Jiayuan, HU Qingwu, and ZHANG Yongjun. Multimodal image matching: A scale-invariant algorithm and an open dataset[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2023, 204: 77–88. doi: 10.1016/j.isprsjprs.2023.08.010.
    [18] XIONG Xin, JIN Guowang, WANG Jiajun, et al. Robust multimodal remote sensing image matching based on enhanced oriented self-similarity descriptor[J]. IEEE Geoscience and Remote Sensing Letters, 2024, 21: 4010705. doi: 10.1109/LGRS.2024.3398725.
    [19] HONG Zhonghua, CHEN Jinyang, TONG Xiaohua, et al. Robust multimodal remote sensing image matching using edge consistency scale-space and significant relative response[J]. IEEE Transactions on Geoscience and Remote Sensing, 2025, 63: 5627022. doi: 10.1109/TGRS.2025.3577755.
    [20] ZHANG Han, LEI Lin, NI Weiping, et al. Explore better network framework for high-resolution optical and SAR image matching[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 4704418. doi: 10.1109/TGRS.2021.3126939.
    [21] DENG Yuxin and MA Jiayi. ReDFeat: Recoupling detection and description for multimodal feature learning[J]. IEEE Transactions on Image Processing, 2023, 32: 591–602. doi: 10.1109/TIP.2022.3231135.
    [22] REN Jiangwei, JIANG Xingyu, LI Zizhuo, et al. MINIMA: Modality invariant image matching[C]. 2025 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, USA, 2025: 23059–23068. doi: 10.1109/CVPR52734.2025.02147.
    [23] XIANG Yuming, WANG Xuanqi, WANG Feng, et al. A global-to-local algorithm for high-resolution optical and SAR image registration[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61: 5215320. doi: 10.1109/TGRS.2023.3309855.
    [24] HUANG Meiyu, XU Yao, QIAN Lixin, et al. The QXS-SAROPT dataset for deep learning in SAR-optical data fusion[EB/OL]. https://arxiv.org/abs/2103.08259, 2021. doi: 10.48550/ARXIV.2103.08259.
    [25] CHEN Hongruixuan, SONG Jian, DIETRICH O, et al. BRIGHT: A globally distributed multimodal building damage assessment dataset with very-high-resolution for all-weather disaster response[EB/OL]. https://arxiv.org/abs/2501.06019, 2025. doi: 10.48550/ARXIV.2501.06019.
    [26] ZHANG Wenfei, ZHAO Ruipeng, YAO Yongxiang, et al. Multi-resolution SAR and optical remote sensing image registration methods: A review, datasets, and future perspectives[EB/OL]. https://arxiv.org/abs/2502.01002, 2025. doi: 10.48550/ARXIV.2502.01002.
    [27] WU Yue, MA Wenping, GONG Maoguo, et al. A novel point-matching algorithm based on fast sample consensus for image registration[J]. IEEE Geoscience and Remote Sensing Letters, 2015, 12(1): 43–47. doi: 10.1109/LGRS.2014.2325970.
    [28] POTJE G, CADAR F, ARAUJO A, et al. XFeat: Accelerated features for lightweight image matching[C]. 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, USA, 2024: 2682–2691. doi: 10.1109/CVPR52733.2024.00259.
    [29] FISCHLER M A and BOLLES R C. Random sample consensus: A paradigm for model fitting with applications to image analysis and automated cartography[J]. Communications of the ACM, 1981, 24(6): 381–395. doi: 10.1145/358669.358692.
  • 加载中
图(10) / 表(3)
计量
  • 文章访问数: 107
  • HTML全文浏览量: 17
  • PDF下载量: 18
  • 被引次数: 0
出版历程
  • 收稿日期:  2025-09-16
  • 修回日期:  2025-12-10
  • 网络出版日期:  2025-12-26
您可能感兴趣的文章

目录

AI智能化辅读

1 引言

本章节重点介绍了SAR-光学影像匹配的研究背景、挑战、现有方法及其局限性,并引出了本文构建的新数据集。具体包括:1. 对地观测新范式(轻量化组网、高频次覆盖)带来的几何定位精度挑战,凸显了多模态遥感数据高精度配准的重要性。2. 阐述了SAR与光学影像的互补优势(SAR全天时全天候,光学受限时可弥补信息缺口),以及二者匹配面临的主要困难(噪声、几何变形、非线性辐射差异)。3. 将现有匹配算法归纳为三类:基于区域的方法(精度高但对几何变形适应性差)、基于特征的方法(几何不变性强但精度受特征重复率限制)和基于深度学习的方法(潜力大但依赖大规模标注数据,泛化能力待提升)。4. 指出当前该领域缺乏广泛认可的大规模基准数据集,且现有数据标注因成像机理差异存在系统性偏差,影响评估可靠性。5. 针对以上问题,本文构建并发布了OSDataset2.0数据集,包含用于训练的配准图像块子集和基于成像机理一致性采集真值点的全幅场景测试子集,旨在为算法评估提供高精度基准。

2 SAR-光学遥感影像数据集现状

本章节重点介绍了现有SAR-光学遥感影像匹配数据集的概况、特点与局限性。目前公开数据集相对稀缺,主要包括OSDataset、QXS-SAROPT、BRIGHT、Multi-Resolution-SAR和OsEval等。这些数据集通常以裁剪后的小尺寸图像块(如256×256像素)形式提供,覆盖多种地物类型,并通过人工选点、自动配准与人工复核等方式确保对齐精度,支持深度学习模型的训练与初步测试。然而,现有数据集存在明显局限:一是小图块仅保留局部纹理,难以全面反映真实遥感场景中存在的几何畸变与辐射差异;二是小图块上的匹配性能难以直接推广到实际工程中所需的大范围整幅影像配准任务。为此,本文提出的OSDataset2.0在包含小图块样本的基础上,增加了完整遥感场景数据及高质量同名点,以更真实地模拟工程需求,并为算法评估提供统一平台。

3 OSDataset2.0数据集

本章节重点介绍了OSDataset2.0数据集的构成、构建方法和评估方式。数据集分为两部分:一是局部训练数据集,由512×512像素、配准精度在1.5像素以内的SAR-光学影像对组成,覆盖14个国家多种地物类型;二是全幅场景测试集,由整景光学与SAR影像对构成,地物类型复杂,并提供了72对基于成像机理一致性原则采集的高精度同名点用于评估。章节详细说明了局部训练数据集的自动构建流程(包括影像预处理、裁切、特征匹配与一致性检验等)和全幅测试集中同名点的采集方法(以街灯杆等具有明确成像机理对应的特征为目标)。最后,介绍了配套的标准化评估工具,该工具支持多种几何变换模型,并采用均方根误差、平均误差、误差中位数和最大误差四项指标全面评估匹配算法的性能。

4 实验与结果分析

本章节重点介绍了在OSDataset2.0数据集上进行的SAR-光学影像匹配算法评估实验与结果分析。主要内容包括:1. **实验设置**:选取了11种代表性算法(包括基于特征、区域和深度学习的方法)进行评估。实验在指定硬件和软件环境下进行,并统一了匹配后处理流程。2. **局部训练数据集评估**: * **评估指标**:采用正确匹配点数量(NCM)、均方根误差(RMSE)和匹配成功率(SR)三项指标。 * **阈值设定**:为全面评估,设定了多个匹配成功判定阈值(3, 5, 7, 10像素)。 * **结果分析**: * **传统方法对比**:在宽松阈值下,基于特征的方法(如EOSS、ECSS)的SR通常优于基于区域的方法(如MAGD、CFOG);但在严格阈值(3像素)下,基于区域的方法在SR和RMSE上表现更优,显示出其高精度匹配优势。POS-GIFT方法整体表现最差。 * **深度学习方法表现**:性能分化明显。OSMNet和MINIMA-LoFTR表现较好,其中MINIMA-LoFTR的RMSE最低。XFeat因未使用多模态数据训练,表现最差。结果凸显了训练数据对深度学习模型性能的重要性。3. **全幅场景测试集评估**: * 在10种算法基础上,引入了基于区域的SFOC方法进行对比。大多数方法采用分块匹配策略。 * **结果分析**: * OSMNet整体表现最优,误差中位数最低且分布集中。 * 其他深度学习方法(如MINIMA-LG、MINIMA-LoFTR)并未普遍优于传统方法,其误差离散程度较高。 * 传统方法中,MAGD表现优越,ECSS误差波动最小、最稳定。POS-GIFT效果最差。 * **挑战与结论**:所有算法校正后的RMSE均未低于4像素,表明高分辨率大场景SAR-光学影像匹配仍面临挑战,主要原因包括局部非线性变形、变换模型限制以及高分辨率下误差容忍度小。提升算法在复杂场景下的适应能力是未来重点。

5 结语

本章节总结了OSDataset2.0数据集的构建、特点与评估结果。重点包括:该数据集是首个同时包含局部训练影像与全幅场景测试影像的SAR-光学匹配数据集,并提供了基于成像机理的高精度真值点。评估表明,现有算法在全幅场景中的匹配精度(RMSE>4像素)仍面临挑战,且深度学习方法因训练数据有限,性能尚未全面超越传统方法。最后,本章公布了数据集在《雷达学报》官网的发布地址,希望其能作为训练与评估基准,推动该领域发展。

* 以上内容由AI自动生成,内容仅供参考。对于因使用本网站以上内容产生的相关后果,本网站不承担任何商业和法律责任。

AI智能问答

  • 1. OSDataset2.0数据集的主要组成部分是什么?
  • 2. OSDataset2.0数据集在构建全幅场景测试集的真值点时,采用了什么原则来确保精度?
  • 3. 在OSDataset2.0数据集上评估的SAR-光学影像匹配方法主要分为哪几类?
  • 4. 根据实验结果,基于区域的方法和基于特征的方法在局部训练数据集上的表现有何不同?
  • 5. OSDataset2.0数据集如何支持对匹配算法的评估?
  • 6. 在全幅场景测试集上,所有评估算法的匹配精度面临的主要挑战是什么?
  • OSDataset2.0数据集的主要组成部分是什么?
  • OSDataset2.0数据集在构建全幅场景测试集的真值点时,采用了什么原则来确保精度?
  • 在OSDataset2.0数据集上评估的SAR-光学影像匹配方法主要分为哪几类?
  • 根据实验结果,基于区域的方法和基于特征的方法在局部训练数据集上的表现有何不同?
  • OSDataset2.0数据集如何支持对匹配算法的评估?
  • 在全幅场景测试集上,所有评估算法的匹配精度面临的主要挑战是什么?

AI思维导图

* 以上内容由AI自动生成,内容仅供参考。对于因使用本网站以上内容产生的相关后果,本网站不承担任何商业和法律责任。

导出图片导出Markdown

/

返回文章
返回
AI助手
AI助手(RAG)

Hi,AI搜索已经支持DeepSeek

检索增强生成

(Retrieval-augmented Generation)