基于深度学习的无人机检测和识别研究综述

作者：那振宇，程留洋，孙鸿晨、林彬等

来源：《信号处理》

原文：https://signal.ejournal.org.cn/cn/article/doi/10.16798/j.issn.1003-0530.2024.04.001

摘要

近年来，由于在各行各业发挥了不可替代作用，无人机产业和应用得到了迅速发展。然而，无人机的“黑飞”、携带危险物品等事件频繁发生，对社会安全构成了严重威胁。因此，无人机的检测和识别变得尤为迫切和必要。

随着无人机类型不断地变化，传统的检测与识别方法已不再适应当前需求。深度学习技术的快速发展为无人机检测与识别提供了一种高效且准确的解决方案。深度学习模型具备自主学习特征的能力，能够从大规模数据中提取高级特征，并且在无人机检测与识别任务中表现出色。该模型不仅能够显著提高准确性，还能够适应各种复杂环境和无人机类型。

对此，本文综述了基于深度学习的无人机检测与识别技术的最新进展，主要包括基于深度学习的无人机视觉检测和识别、基于深度学习的无人机音频检测和识别、基于深度学习的无人机雷达检测和识别以及基于深度学习的无人机射频检测和识别。最后，对目前无人机检测和识别现存问题进行分析，并展望了未来研究方向。

引言

近年来，无人机以其体积小、动作灵活和易于操控等特点，在民用、军事以及科学研究等多个领域展现出巨大的潜力。例如，在恶劣环境下的电力线路检测、大气环境监测、抢险救灾和侦察敌情等方面［1-3］，无人机都发挥着重要作用。然而，无人机数量的快速增加和广泛应用，也带来了一系列公共安全和隐私问题［4-5］。

为了更好地监督和管理无人机、及时了解无人机的活动情况，无人机检测和识别变得尤为重要［6-7］，其核心目标是利用无人机搭载的视觉、音频、雷达、射频等传感器，对目标或环境的检测、分析和识别。其中，视觉传感器用于捕捉和处理可见光及其他波段图像；音频传感器感知环境声音并将其转换成电信号；雷达传感器发射无人机脉冲并接收回波；射频传感器利用无线电信号感知距离、位置、运动和温度等特性。

作者通过不同类型传感器对无人机进行检测和识别，而不同类型传感器生成不同类型的无人机信号，如视觉信号［8］、音频信号［9］、雷达信号［10］、射频信号［11］等。针对不同类型的信号数据，需要采用不同的检测和识别技术，其原理和优缺点各不相同。

传统的无人机检测和识别方法主要依赖于人工特征提取［12］，这个过程需要大量的时间和精力，并且无法处理所有复杂的情况。然而，近年来，随着深度学习［13］的蓬勃发展，基于深度学习的无人机检测和识别技术取得了长足进展。深度学习的关键特点是其算法模型可以自主学习特征，而无须依赖于人工提取。

基于深度学习的方法极大地提高了无人机检测和识别的准确性和效率，且能够处理各种复杂情况。从不同类型的无人机数据角度，可以将无人机检测和识别分为基于音频、视觉、雷达和射频的方法［14-22］。无人机音频检测和识别利用环境中的音频信号进行环境感知，并利用神经网络分类器自动识别无人机音频信号［14］。

但是，现实环境中存在的各种噪声和干扰信号会导致无人机音频检测和识别的性能下降。为此，文献［15］提出了一种结果级融合的卷积神经网络，用于无人机音频检测。图像数据具有丰富的视觉信息，可以捕捉到无人机的外观特征。因此，研究人员构建神经网络对无人机视觉数据集进行训练，进而实现对无人机的检测与识别［16-18］。然而，在特定场景下，无人机的高速移动会带来图像检测的巨大挑战，因为即使无人机距离很近，也可能由于反应不及时而无法采取及时的反制措施。

为解决上述问题，文献［19］提出了一种基于热量图的检测方法。无人机的金属结构和机体形状通常导致雷达波的反射，形成独特的回波信号，可用于区分其他非目标物体。因此，一些研究人员尝试利用雷达信号对无人机进行检测和识别［20-21］。然而，由于目标无人机的体积较小，这导致雷达信号无法有效覆盖到无人机。

与上述方法不同，无人机射频检测和识别由于射频信号在传播中的稳定性较好，不易受环境影响，并且有较高的实时性。例如，文献［22］提出了一种基于深度学习的无人机射频信号分类方法，并且在真实无人机数据集上取得了95%的识别率。可以看出，深度学习方法在不同场景下的检测和识别均具有较好的适应性，特别是基于射频数据的方法在无人机检测和识别方面性能更佳、鲁棒性更强。

综上所述，基于深度学习的无人机检测和识别研究具有重要的理论意义与应用价值。本文首先明确了无人机检测和识别的定义，以及传统方法在该领域的研究现状。接着，分析了深度学习在无人机检测和识别方面的研究意义和重要性。随后，根据不同数据类型对无人机检测和识别进行了分类综述，探讨了各种技术的原理和优缺点。最后，对当前存在的问题进行了分析，并展望了未来研究方向和发展趋势。

基于传统方法的无人机检测和识别

无人机检测和识别是指从数据集中检测无人机样本，并对检测到的无人机样本进行进一步的识别［23］。

在本文中，我们将无人机的检测定义为一个二分类问题，而识别则是一个多分类问题（根据类型、数量和飞行模式等对无人机进行识别）［24］。无人机检测和识别的属性包括无人机的存在、距离、类型、高度、数量以及飞行模式等关键特征，这些属性详细记录在表1中。

表1 无人机检测和识别参数

以往，无人机的检测和识别采用各种传统方法设计特征，然后使用分类器进行检测和识别。无人机视觉检测和识别技术通常分为两个步骤。

具体地说，先利用方向梯度直方图和尺度不变特征变换等技术对无人机图像提取特征，再使用支持向量机等算法对提取的特征进行分类［25］。无人机音频检测和识别技术通常先提取无人机音频信号的线性预测编码、傅里叶系数和梅尔频率倒谱系数等特征［26］，然后将提取出来的特征与预先保存的标签进行比较，以便识别无人机。无人机雷达检测和识别常利用调频连续波雷达发送连续波并测量发送和接收信号的频率差异以确定目标无人机及其距离［27］。

早期的研究者使用从捕获的射频信号中提取的统计特征来检测和识别无人机。例如，文献［28］运用无线数据包嗅探器来捕获无人机射频信号，并提取统计特征以识别无人机。可以看出，这些传统方法均需要手工提取特征，而这一过程比较复杂且性能较差。

相比下，基于深度学习的算法能够简化特征提取过程，并显著提高检测和识别效果。因此，深度学习在无人机检测和识别方面的应用显得尤为必要。接下来的章节将详细论述基于深度学习的无人机检测和识别方法的最新研究成果。

基于深度学习的无人机视觉检测和识别

无人机视觉检测和识别旨在运用搭载于无人机上的视觉传感器以及图像处理技术，实现对目标进行自动化检测和识别的任务。

与传统的无人机视觉检测和识别方法依赖手动提取无人机图像特征不同，基于深度学习的方法使用深度神经网络训练一个端到端的模型，能够实现高精度的检测和识别。基于深度学习的无人机视觉检测和识别方法可分为单阶段检测和两阶段检测，相关工作总结在表2中。

表2 无人机检测和识别视觉方法相关工作总结

深度学习的核心在于从大量数据中提取特征进行检测和识别。然而，在无人机视觉领域，可靠的数据集相对匮乏。

为解决这一问题，文献［29］发布了一个大规模无人机图像数据集。该数据集通过多种型号的无人机进行收集，包含8599张图像，涵盖了各种真实世界场景。卷积神经网络（Convolutional Neural Network， CNN）作为神经网络的一种重要模型，因其能够自动学习和提取数据的重要特征而备受关注。特别是在目标检测方面，CNN已经取得了令人瞩目的性能突破。

文献［30］提出了一种基于深度卷积神经网络的无人机识别方法。该方法首先使用SSD算法对视频图像数据集进行目标检测，然后通过训练一个基于VGG16的学习网络来得到高效地识别模型。以上研究结果表明，将深度学习应用在基于无人机视觉数据的检测和识别领域具有巨大的潜力，并为无人机检测和识别系统的智能化和自主化发展提供了重要支持。

3.1 单阶段检测

单阶段检测算法通过将目标检测问题转化为回归问题，能够显著提高算法的计算速度［31］。该算法通常使用神经网络提取数据中的高级特征，并对特征图进行融合处理以实现目标的定位。目前常见的单阶段检测算法有YOLO、SSD和RetinaNet，其流程图如图1所示。

图1 单阶段检测算法

YOLO是一种强大的多目标检测算法，它能够将复杂的识别问题转化为回归问题，并通过单个端到端神经网络实现高精度和快速检测［32］。然而，由于YOLO在训练过程中所使用的数据与新输入的无人机图像数据的样本空间几乎没有交集，导致YOLO在无人机图像数据中空间定位边界框的过程存在问题。为了将YOLO应用于无人机图像中，研究者通常会采取各种技术来修改YOLO的超参数，如微调、数据增强和优化超参数。文献［33］针对上述问题提出了一种改进的YOLO算法“YOLODrone”，用于检测无人机图像中的物体。在VisDrone2019数据集上对该算法进行了评估。实验结果表明，与YOLOv3算法相比，YOLODrone算法的性能更好。

随着无人机趋向小型化，YOLO在应对检测任务上存在效率不高的问题。相较之下，SSD在不同尺度的特征图上执行检测，能够捕捉不同尺寸目标，对小尺寸物体的检测效果更佳。

例如，文献［34］提出了一种改进的基于深度学习的目标检测与跟踪算法。该算法在SSD单阶段检测算法的基础上，结合了目标检测和跟踪技术，实现了更精确的动态目标追踪。实验结果表明，该算法的平均准确率达到了91.5%，取得了良好的效果。RetinaNet引入了Focal Loss，有效解决了上述算法目标检测中正负样本不平衡的问题，从而有助于应对无人机类别的不平衡。文献［35］提出了一种基于RetinaNet框架的方法，用于从无人机航拍图像中检测车辆。在VisDrone2019数据集上评估了探测器在车辆检测方面的性能。结果表明，在所使用的数据集上，该方法具有较高的检测精度和稳定性，为无人机车辆检测提供了重要参考。

3.2 两阶段检测

两阶段检测算法包括两个目标检测步骤：首先，候选区域提取模块用于检测前景和背景区域；随后，候选区域分类和坐标修正模块构成第二个检测器，用于对第一个检测器的结果进行目标分类和位置回归，以确定目标的准确类别和位置［36］。图2展示了两阶段检测的流程。与单阶段检测算法相比，两阶段检测算法模型虽然更复杂，但实现了更高的检测精度，代表有Faster R-CNN和Mask R-CNN。

图2 两阶段检测算法

Faster R-CNN是R-CNN系列目标检测模型的改进版本，引入了区域生成网络以实现端到端的目标检测［37］。文献［38］将Faster R-CNN引入无人机图像检测领域，用于多类电气设备缺陷检测。该模型由深度全卷积网络和快速R-CNN检测器组成，前者用于生成区域建议，后者将区域建议和图像数据作为输入传递至训练网络。通过共享深度卷积层的特征，整个算法形成了一个统一的双阶段目标检测网络。实验结果表明，该方法在真实的电气设备图像数据集上优于传统的目标检测算法。

相对于Faster R-CNN，Mask R-CNN在其基础上增加了一个分支网络，并引入了ROI Align，不仅能够检测目标的位置，还能够精确地分割出目标的像素级别的区域。文献［39］将Mask R-CNN应用于无人机图像中的车辆检测。该方法不仅适用于静态图像，还可用于动态图像和视频。为了解决低空航拍图像中尺度变化的问题，文献［40］在两阶段检测框架中引入了特征金字塔网络，成功实现对各种尺度物体的有效检测，从而显著提高无人机图像目标检测的性能。

3.3 深度学习在无人机视觉检测和识别中的技术挑战与未来方向

近年来，深度学习技术的发展和应用推动了无人机视觉数据检测和识别的研究。深度学习方法通过端到端训练自动学习任务相关的特征，替代了传统手工提取特征的方法，从而获取了图像数据的高层次抽象表示。然而，目前面临的问题是缺乏用于无人机检测和识别的大规模、多样化数据集。为了解决这个问题，研究者们采用了迁移学习的思想。

此外，当前的深度学习方法在处理多目标遮挡和小尺寸目标等复杂场景时表现出的效果还不够理想。尽管增加额外的训练数据可以提高模型的性能，但无法完全克服这些困难。因此，需要改进模型结构以进一步提升无人机检测和识别效果。为此，需要深入挖掘深度学习理论并提出新的模型结构和训练方法，以加速模型训练并提高检测效果。数据增强和迁移学习是当前最有效的方法，而生成对抗网络等生成模型可能成为未来的发展方向。此外，考虑到无人机视觉检测和识别的实际应用场景，将多媒体信息（如音频、雷达、射频等）融合进深度学习模型也是一个值得探索的方向。

基于深度学习的无人机音频检测和识别

音频信号包含音源的语义信息和声音的特定特征，这些特性可以被广泛应用于识别不同的声音源以及进行声音事件检测等任务［41-42］。无人机噪声通常分为气动噪声和机械噪声［43-44］。

前者源于旋翼切割空气和机体与空气摩擦，其通常分布在声音信号的低频部分，衰减较慢；后者源于电机和传动部件，通常分布在声音信号的高频部分，衰减较快。此外，风和雨声作为实际环境中最常见的背景噪声，属于宽带噪声信号，其信号特性与无人机信号特性存在明显差异，容易在时域和频域上进行区分。因此，可以通过利用无人机声音的独特性质来与环境噪声进行有效区分。

无人机音频检测和识别技术旨在通过无人机搭载的音频传感器获取环境中的声音数据，并应用算法实现目标检测和识别。由于深度学习算法能够更好地提取无人机音频数据集中的特征，因此可以实现对无人机产生的各种类型音频信号的准确检测和识别［45］。本节根据研究内容和方法，将基于深度学习的无人机音频检测和识别研究分为无人机分类、异常检测和声源定位三个方面。表3总结了基于深度学习的无人机音频信号检测和识别相关研究的工作。

表3 无人机音频信号检测和识别方法相关工作总结

4.1 无人机分类

基于音频信号的无人机分类旨在通过分析无人机产生的声音数据，将无人机区分为不同的类别，包括检测无人机存在的二分类模型，以及识别无人机类型、模式等的多分类模型。

文献［46］提出了一种用于无人机存在检测的二分类模型，首次在高噪声真实环境中探究了无人机音频检测，并使用高斯混合模型（Gaussian Mixture Model， GMM）、CNN和递归神经网络（Recurrent Neural Network， RNN）三种模型在城市街道收集的数据集上进行实验。实验结果证实了这些模型在真实环境中的有效性。并且，RNN模型在真实环境中表现出最佳的检测性能，仅需240毫秒的输入音频数据即可获得0.8009的F-score。这表明RNN模型在高噪声真实环境中进行无人机检测具有较好的高效性和较短的处理时间，适用于实时检测系统。

在将深度学习技术应用到无人机音频领域之前，需要对深度学习算法进行修改验证。为验证无人机音频检测和识别多分类任务，文献［47］构建了一个开源的无人机音频数据集，并通过实验证实了基于卷积递归神经网络、CNN和RNN等深度学习技术的无人机检测和识别方法在无人机音频检测中的有效性。这些方法不仅能够检测无人机的存在，还能够识别无人机的类型。由于无人机音频信号通常包含长时间的时序信息，堆叠双向LSTM能够捕捉和利用时序数据中的长期依赖关系，有助于更准确地识别音频中的特定模式和事件。文献［48］首次尝试将堆叠双向LSTM应用于无人机音频数据分类任务。实验结果表明，提出的方法可以将无人机的音频信号分为“已装载的无人机”、“未装载的无人机”和“没有无人机”。此外，开发的堆叠双向LSTM模型能够以94.02%的良好精度对多个无人机的音频信号进行分类。

4.2 异常检测

在无人机音频检测中，异常检测被用于捕捉与正常无人机音频信号不同或不寻常的声音模式，其目标是在大量无人机音频数据中发现潜在的异常事件。

Liu和Katta等人分别构建了自己的无人机螺旋桨音频数据集，并设计神经网络对其进行检测［49-50］。

其中，文献［49］将无人机音频数据转换为时频频谱图，并采用迁移学习来增强基于CNN诊断模型的适用性。该模型可以检测频谱图的异常特征以判断螺旋桨的物理损坏。文献［50］使用自己构建的无人机音频数据集进行实验，验证了CNN、深度神经网络（Deep Neural Network， DNN）、长短期记忆（Long Short-Term Memory， LSTM）和变压器编码器异常检测的有效性。然而，部分研究者过于关注算法的识别精度，而忽略了神经网络的训练速度，导致目前神经网络的参数数量不断增加。

为解决这一问题，文献［51］提出了一个混合的基于深度学习的Transformer和CNN框架，用于通过分析无人机发出的音频信号来检测无人机中的异常情况。该框架将VGG-16的参数数量从138M减少到仅有3.6M个，并实现了高精度的无人机异常检测。

4.3 声源定位

声源定位（Sound Source Localization， SSL）指对采集到的音频信号进行去噪、滤波和放大等处理后，提取处理后的信号特征，并通过神经网络算法计算无人机的准确位置。

例如，文献［52］提出了一种端到端的一维膨胀卷积神经网络——DOANet，旨在解决在搜救行动中从无人机中检测人类语音的SSL的挑战。作者使用DREGON数据集和计算机模拟生成的合成数据集对DOANet进行训练。实验结果表明，与基准方法相比，DOANet在SSL性能方面表现更出色。在特定场景下，无人机的高速移动为声源定位带来了新的技术挑战。

为了克服无人机和声源的移动、旋转电机和螺旋桨所产生的强烈自噪声，文献［53］提出了一种基于深度学习的无人机声源定位框架。该框架结合了单声道降噪和多通道声源定位，采用了可控响应功率（Steered Response Power， SRP）DNN和时间-频率空间滤波（Time-Frequency Spatial， TFS）DNN两种下游多通道声源定位算法。实验结果表明，在实际场景和模拟数据下，TFS-DNN相比于竞争方法（包括SRP-DNN）都表现出更好的性能。

4.4 深度学习在无人机音频检测和识别中的技术挑战与未来方向

通过上述文献调研可以看出，基于深度学习的无人机音频信号检测和识别是一个新兴且有实际应用前景的研究领域。无人机的小型化使摄像头有时无法检测其存在，雷达也难以反射小目标的信号，而自主无人机可以绕过无线电检测。

现有的无人机音频信号的检测和识别存在多种不同的预处理和特征提取方法，包括提取哪些时域和频域特征、采用何种音频片段长度、是否需要片段间的重叠等。然而，这些方法尚未形成统一的标准。因此，需要进行敏感性研究，以获得最佳的无人机音频检测预处理和特征提取参数。

为解决无人机音频数据集稀缺的问题，通常采用生成对抗网络（Generative Adversarial Network， GAN）的生成模型产生大规模的数据集［54］。这一方法为解决数据集匮乏提供了有效思路。未来的研究重点可集中在充分利用多种传感器信息，提高音频数据集的多样性和真实性，以提高检测和识别的准确性和鲁棒性。此外，目前大部分研究侧重于无人机检测，对于声源定位的研究相对较少。因此，我们希望未来能有更多的研究人员致力于该领域，深入研究音频信号的声源定位，推动无人机音频检测和识别技术的发展和应用。

基于深度学习的无人机雷达检测和识别

在现代高科技战争中，无人机因其搭载雷达传感器而被广泛应用于电子战［55-56］。雷达作为一种主动传感器，与计算机视觉和声学传感器技术不同，其不受光照和音频等因素的影响，能够全天候工作。因此，无人机雷达检测和识别一直在电子战中扮演关键角色，其核心目标在于从拦截的敌方无人机雷达信号中提取重要信息［57］。

无人机雷达检测和识别系统的结构如图3所示。无人机雷达信号的截获阶段构成后续信号检测和识别的基础；信号预处理主要用于降噪和对齐，信号主要处理则涉及有效特征提取方法，以实现无人机雷达信号的检测和识别，进而确定无人机的类型和功能，以及威胁评估等［58-60］。

图3 无人机雷达检测和识别系统

深度学习技术的引入能够极大简化无人机雷达信号检测和识别的过程，并提高准确性。不同于图3中传统信号处理系统的方法，深度学习方法在信号预处理后直接利用神经网络提取无人机雷达信号特征，避免过于依赖人工处理，从而简化了信号处理过程［61］。此外，深度神经网络能够捕捉无人机雷达信号的更深层次特征，从而大幅提高了检测和识别的准确性。

本节将基于深度学习的无人机雷达检测和识别划分为无人机与无人机之间的分类和无人机与非无人机之间的分类，并分析了当前存在的问题和未来的研究方向。表4概括了无人机雷达信号检测和识别的相关研究工作。

表4 无人机雷达信号检测和识别方法相关工作总结

5.1 无人机与无人机分类

无人机与无人机的分类通过对无人机雷达信号进行检测和识别，将不同类型的无人机进行有效分类。鉴于神经网络在图像处理领域的卓越性能，通常将采集到的无人机雷达信号处理成图像形式，如频谱图等［62-63］，再利用神经网络进行分类。

在文献［62］中，作者通过使用CNN处理模拟雷达信号的短时傅里叶变换频谱图，对五种不同的无人机进行分类，同时考虑了噪声误报情况。实验证实了使用机器学习对无人机雷达信号数据进行分类的可行性。

另一方面，文献［63］提出了一种基于深度学习的无人机分类模型。该模型通过学习雷达频谱图像上的微多普勒特征实现对无人机的精准分类，解决了上述模型不能实时检测和识别的问题。在自建的雷达频谱图数据集上进行验证，证明了所提出的模型相较于ResNet-18模型，具备更短的训练时间和更高的准确率。

5.2 无人机与非无人机分类

由于环境中存在来自其他信号源的干扰，实现对无人机雷达信号的分类需要先将无人机与非无人机的信号进行区分。无人机与非无人机分类的流程如图4所示。

首先，研究人员收集原始的雷达信号数据，并对其进行数据预处理。随后，利用神经网络进行训练，得出分类结果。值得注意的是，大部分研究不仅能实现无人机的检测，还可以对无人机进行更细致地分类，比如对不同类型的无人机进行区分。同时，这些方法还具备识别非无人机信号的能力，例如鸟类信号。文献［64］提出了一种基于深度学习的无人机分类方法，用于区分无人机和非无人机（如鸟类、噪声等）。

作者使用真实的无人机雷达信号数据进行评估，实验验证了该方法的有效性，整体分类准确率可达95.0%。在无人机飞行中，与鸟类碰撞的事件时有发生，因此许多研究采用雷达系统对天空中的鸟类进行连续监测，并进行无人机和鸟类的识别分类。例如，文献［65］利用深度学习分类器区分无人机和鸟类（目标检测）以及不同类型的无人机（目标分类），分类准确率达到98%。文献［66］研究了CNN在无人机和非无人机识别方面的应用。

该研究在真实数据集（包括无人机、鸟类、汽车和未知类别）上评估了CNN和决策树网络的性能。研究结果表明，相比决策树网络，CNN能更准确地区分无人机和非无人机，对鸟类的识别准确率达到了82.5%，整体正确分类性能高达98.89%。

图4 基于雷达信号的无人机与非无人机分类流程

5.3 深度学习在无人机雷达检测和识别中的技术挑战与未来方向

无人机雷达检测利用雷达信号在无人机机体反射回接收端的回波信号来实现，同时也能够实现对无人机距离的探测。传统方法［67］和机器学习［68］方法一直是该领域的主要研究手段。

近年来，基于深度学习的无人机雷达信号检测和识别受到了广泛关注。深度学习在图像识别和目标检测领域已经取得了显著成就，并开始广泛应用于雷达目标检测和识别［69］。研究者通常将雷达回波信号转化为图像形式，如合成孔径雷达图像［70］和频谱图等，以便于应用CNN进行训练。

然而，当前基于深度学习的无人机雷达信号检测和识别仍存在一些问题。首先，可用于训练和测试深度学习算法的数据集数量仍然有限。其次，对雷达信号的特征提取方法需要进一步研究和探索，以提高算法的性能和泛化能力。此外，无人机飞行过程中的各种因素（如姿态变化和雷达探测角度）会影响雷达回波信号的特征。因此需要寻找有效的方法进行自适应特征提取和调整，以提高检测和识别的准确性。

未来，在条件允许下，应构建更多优质的数据集，研究更有效的特征提取方法、优化模型结构以提升算法性能和泛化能力。同时，可以考虑将深度学习与传统方法相结合，充分发挥它们各自的优势，提高算法的鲁棒性和可靠性。

基于深度学习的无人机射频检测和识别

无人机射频信号检测和识别旨在监测和识别无人机在遥测遥控、通信或导航过程中发射的射频信号，以确定无人机的存在、类型、位置、行为以及可能的威胁等信息［71］。

无人机通常包含一个机载发射器，该发射器通过射频信号进行数据交换以控制和操作无人机。由于无人机在射频频谱中使用特定的频率，因此可以将无人机通信与其他设备（如智能手机和笔记本电脑）发射的所有无线电频率区分开来。在无人机射频检测与识别过程中，核心在于捕获其射频信号。通常，无人机射频信号的采集流程如图5所示。

首先，无人机信号经接收天线接收，然后通过接收机进行下变频处理，将接收的高频信号转换为更易于处理的中频信号。此后，该信号进入模数转换器（Analog-to-Digital Converter， AD）进行采样，并传输至2个可编程逻辑门阵列（Field-Programmable Gate Array， FPGA）进行后续处理［72］。为了获取持续的无人机射频数据以便后续分析，需构建缓存转发机制（如DDR3 SDRAM）。最后，通过以太网将缓存数据发送至计算机。

图5 无人机射频信号的采集流程

传统无人机射频检测和识别方法依赖于研究人员利用从捕获的射频信号中提取的统计特征。然而，由于射频信号的非线性，传统算法在实际大规模部署中通常难以提供足够的准确性和鲁棒性。因此，研究人员开始转向更复杂的深度学习方法用于对无人机进行检测和识别。

基于深度学习的无人机射频检测和识别利用深度神经网络对捕获的无人机射频信号进行特征提取，并使用分类器对其进行检测和识别。深度学习的方法不仅可以提高无人机检测和识别精度，在某些情况下还可以确定无人机的制造商和型号。

本节将基于深度学习的无人机射频检测和识别分为二分类（无人机与非无人机）和多分类（多种无人机分类），相关工作总结如表5所示。

表5 无人机射频信号检测和识别方法相关工作总结

6.1 二分类

射频天线被动接收空中无人机及地面控制和图传信号，从而实现无人机的检测定位，且其没有电磁辐射，检测距离远，具有低误判率和高准确率。因此，近年来研究人员尝试使用射频信号进行无人机检测和识别，特别是在二分类方面取得了显著的性能表现。

基于深度学习的无人机射频检测和识别框架如图6所示。首先对无人机射频信号进行数据处理，将其划分训练和测试集。

在二分类阶段（图6中的部分Ｉ），测试样本输入第一个分类器（二分类器）进行学习，分类器1将信号分为无人机和非无人机。例如，文献［73］提出了一种基于CNN的无人机检测和识别方法，并在射频信号数据集上进行了实验。实验结果验证了基于射频信号数据和CNN相结合的无人机射频检测和识别方法的有效性和可行性。该方法在无人机检测方面的F1-score超过99.7%，同时能够准确地识别无人机，其F1-score达到了88.4%。文献［74］提出了一种将区块链、深度循环神经网络（Deep Recurrent Neural Network， DRNN）和边缘计算相结合的框架，用于无人机识别和飞行模式的检测。

作者使用公开数据集DroneRF对DRNN模型进行评估，并采用二分类、四分类和十分类的标记方法对数据集进行处理。实验结果表明，所提DRNN模型在两类、四类和十类的检测准确率分别达到了99.9%、90.0%和56.0%。

图6 基于深度学习的无人机射频检测和识别框架

6.2 多分类

二分类任务将信号分为两个类别，即“有或无无人机”，而多分类任务则需要将输入的射频信号分为多个不同类别，每个类别代表特定的无人机类型或模式。因此，多分类问题需要更多的输出神经元，每个神经元对应一个类别的概率。这样的设计使得模型结构变得更为复杂，参数数量也相应增加。

无人机射频的多分类框架如图6部分Ⅱ所示，本节展示了3个分类器。分类器1在检测到无人机信号时，将该信号传递给后续的分类器进行分类。分类器2对检测到的无人机信号进行识别，区分出不同无人机类型（如大疆御Mavic 2、大疆御Mavic Air和大疆晓Spark等）。在确定无人机类型后，分类器3对其进行更精细的识别，辨别相关无人机的飞行模式（如开机模式、悬停模式、飞行模式和追踪模式等），最终得出识别结果。

为了更好地满足复杂环境下对无人机监管的需求，研究人员开始深入研究无人机射频检测和识别的多分类，并取得了显著的研究成果［75-77］。文献［75］提出了一种利用复值卷积神经网络进行无人机信号识别的方法，该方法在分类精度和检查设备运行时间方面都表现出更高的性能。通过对比五种最先进的识别算法在射频信号数据集上的识别性能和设备效率，验证了所提出方法的有效性。实验结果表明，所提方法能够在较短的计算时间内有效地识别各种无人机的信号。

为了更全面、有效地检测和识别无人机，一些研究人员开始致力于对无人机类型和状态进行识别。文献［76］采用三个DNN用于检测无人机的存在、无人机的存在及其类型、无人机的存在及类型和飞行模式。实验结果显示，在射频信号数据集上，三个实验的平均准确率分别为99.7%、84.5%、46.8%。文献［77］在DroneRF数据集上采用多通道一维卷积神经网络进行实验。在检测无人机的实验中，平均准确率高达100%；在检测无人机并识别其类型的实验中，平均准确率为94.6%；检测无人机、识别其类型并确定其飞行模式的平均准确率也能达到87.4%。从上述文献可以看出，随着类别数的增加，无人机的检测和识别性能也随之下降。

6.3 深度学习在无人机射频检测和识别中的技术挑战与未来方向

射频信号作为无人机的重要特性具有多种优点，例如不受物理特性和天气影响，实用性强。与基于雷达信号的无人机检测和识别技术相比，射频感应设备/接收器具有被动监听、无须发射信号、节能和保密性好等优势。通过上述文献调研，证实了深度学习在无人机射频检测和识别领域的可行性，并取得了一系列显著成果。然而，该技术的主要限制在于无法有效检测自主飞行的无人机。未来，随着自主无人机的广泛应用，为了更全面地评估射频检测的潜力，无人机射频检测和识别的准确性性能仍需更深入的研究和实地验证。此外，目前大部分基于射频的无人机检测和识别方法仅适用于特定通信方式的无人机，即仅能检测和识别公开协议的无人机，如Wi-Fi信号的无人机。

最近的研究表明，基于射频指纹的检测和识别方法可应用于检测未加密、专有协议的无人机，但需要对这些协议进行深入研究和分析，以获取它们的射频指纹信息。因此，射频指纹检测和识别方法需要进一步发展和完善，以满足不同类型和协议的无人机检测需求。基于深度学习的方法为解决这一问题提供了新的研究途径。通过建立大规模、多样化的射频数据集，并应用深度学习算法进行特征提取和模式识别，可以提高无人机射频信号的检测准确性和可靠性。大数据的分析和挖掘能够揭示射频信号中的关键模式和特征，从而实现对不同类型无人机的精确识别和分类。

结论与展望

近年来，无人机行业的飞速发展引发了许多公共安全的问题。频繁发生的“滥飞”和“黑飞”事件突显了无人机检测和识别的紧迫性。当前，无人机检测和识别主要依赖视觉、音频、雷达和射频等方法，以适应不同的检测和识别场景。

视觉检测成本低、检测速度快，但其检测范围有限。音频检测适用于相对安静的环境，但在嘈杂环境中难以检测到目标无人机。雷达检测和识别可广泛应用于大型物体检测，具有远距离检测和高效率的优势，但在小型无人机方面效果较差。射频检测不受光照、地形遮挡等限制，且具有实时检测和长距离检测的优势，因此研究人员开始广泛应用射频技术于无人机检测和识别。

然而，无人机检测和识别首先面临一个主要的共性问题——缺乏高质量的公开数据集。无论采用何种检测和识别的方法，其有效性和可靠性都依赖于大规模数据集。因此，建立高质量的标记数据集对于基于深度学习的无人机检测与识别研究至关重要。其次，由于小样本学习能够在样本有限的情况下，通过小样本分类器实现对目标无人机精准地检测和识别，因此，开发高效地小样本学习算法是解决无人机检测和识别所需数据不足的有效途径。

此外，如上文所述，由于现有无人机检测和识别方法只针对特定的应用场景，而多模态技术能够将不同类型的数据融合在一起，可以更有效获取数据特征、进一步提升准确性与可靠性，因此，在复杂场景下将多模态思想引入无人机检测和识别是一个切实可行的研究思路。进而，还应全面考虑外部因素，如障碍物、天气条件和环境噪声等，以确保在实际环境中对无人机进行检测和识别的效果依然具有鲁棒性。

最后，由于现有研究主要关注检测与识别的准确性，而忽视了无人机与接收机之间的距离信息，因此，还应对其进行特征增强，以确保在千米级的范围内实现对无人机的高效检测与识别。

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）
后台回复或发消息“UADR” 就可以获取《基于深度学习的无人机检测和识别研究综述》专知下载链接

点击“阅读原文”，了解使用专知，查看获取100000+AI主题知识资料