世界模型（二）：智能电磁博弈

前言

%% 以下为2019年我硕士论文的删减内容 %%

如下我的硕士论文主要对雷达的抗干扰检测网络进行了详细的介绍和研究，我们解决了任意发射波形下的检测网络的泛化问题。

这里将解决抗干扰检测网络的另一个问题：对干扰形式的泛化。要让网络能够泛化尽可能多的干扰形式，就必须能够给出足够多干扰形式的样本，这仍然是手工设计无法满足的，我们将借助干扰网络来生成干扰，所以首先要解决的是干扰生成网络的构建和训练。之后本章将对智能电磁博弈中的其他部分，如发射波形、记忆体以及雷达与干扰的动态博弈给出猜想和相关实验。

干扰、检测、生成的联合优化

干扰接收的雷达信号的检测降噪及恢复网络

当干扰机接收到雷达信号时，首先有两个主要工作：对雷达信号的检测和波形恢复。关于其检测网络的性能及传统检测理论可见文献[37]，我们（在上面的论文中）验证了网络性能逼近于最优检测的理论值，下面主要介绍干扰机对接收的雷达信号的恢复网络。我们建立如下的代价函数，其中回波为

\[X=S+N\]

干扰机生成信号与原始雷达信号的均方误差损失为

\[L_{MSE}=|G(X)-S|^2\]

脉冲压缩损失定义为

\[L_{PC}=1-\frac{S^H G(X)}{|S|\;|G(X)|}\]

生成对抗网络损失为

\[L_{GAN}=\log(1-D(S|X))+\log(D(G(X)|X))\]

最终训练干扰网络的优化函数为

\[\min_G \max_D C_{MSE} L_{MSE}+C_{PC} L_{PC}+C_{GAN} L_{GAN}\]

干扰生成网络

其中 $X$ 为干扰机接收到的带噪声的雷达信号，$S$ 表示雷达的发射信号，$N$ 为高斯白噪声，$Y$ 为干扰端恢复并发射的干扰信号，我们的目标便是对接收到的带噪声信号进行去噪，$G$ 便是干扰机对雷达信号的波形恢复网络，该网络与上文相似，也是一个生成网络，即其输出为包含结构信息的张量，可以利用与上文中雷达检测网络相同的网络结构。$L_{MSE}$ 为均方误差损失，衡量的是恢复信号与原始信号在欧式空间中的距离；$L_{PC}$ 为脉冲压缩损失，衡量的是恢复的干扰信号经过脉冲压缩后的峰值损失（即恢复信号在原始信号上投影长度与单位长度的差），当雷达采用传统的脉冲压缩处理来检测目标时干扰恢复网络应当针对这种损失函数来优化；$L_{GAN}$ 为生成对抗网络损失，衡量的是给定的鉴别网络对真实信号和生成信号的鉴别混淆程度，当雷达方采用深度网络来检测目标时干扰恢复网络应当针对这种损失函数来优化。$c_{MSE}$, $c_{PC}$, $c_{GAN}$ 为三种损失函数的比例系数，可视具体情况而定。

我们定义波形相似度为

\[similarity(G(X))=1-L_{PC}=\frac{S^H G(X)}{|S|\;|G(X)|}\]

下图为针对不同类型的发射波形，干扰恢复网络的信号恢复效果。图中从左到右，分别为相位码、三阶调频码以及线性调频码信号的波形恢复效果，上侧为波形恢复的样例，其中蓝色线条为干扰接收的带噪声信号，橘黄色线条为干扰端生成的降噪信号，下侧为波形降噪的相似度随信噪比变化的改善效果，其中蓝色线条为干扰接收的带噪声信号与雷达发射波形的相似度，橘黄色线条为。从图中可以看出，不同类型的波形，降噪网络的恢复效果是不同的，越是复杂的波形，其降噪改善效果越差，这是符合实际情况的。

干扰恢复网络的测试样例

干扰恢复网络对不同信号的改善性能

针对雷达检测网络的干扰生成网络

在上文（指硕士论文）中雷达的抗干扰目标检测方法中，我们建立了如下的目标检测交叉熵损失：

\[L(P(Y|X,S),D(X,S))=-P(Y|X,S) \log(D(X,S))-(1-P(Y|X,S))\log(1-D(X,S))\]

我们通过最小化损失函数来优化检测网络：

\[\min_D E_X [L(P(Y|X,S),D(X,S))]\]

其中干扰形式是给定的，那么有没有可能去求解出一种干扰形式能最大化干扰效果呢？我们知道雷达回波中包含有目标信号、干扰信号和噪声：

\[X=T+J+N\]

其中 $T=HS$ 为目标回波，$H$ 表示目标的响应方式，$S$ 为雷达的发射波形，$N$ 为噪声，$J$ 为干扰端经过生成网络产生的干扰信号，有

\[J=G(\Gamma S)\]

其中 $\Gamma$ 为干扰方对雷达发射波形的采样方式，而 $G$ 即为干扰生成网络，对于该网络的具体结构可以参考本文（硕士论文）中的目标检测网络，只不过输出的不再是各个距离单元上目标的概率，而是干扰信号，这里我们需要关注的只是一个端到端的网络模型。那么我们可以这样求解：

\[\min_D \max_G E_X[L(P(Y|X,S),D(X,S))]\] \[X=HS+G(\Gamma S)+N\]

当整个从雷达发射波形到干扰、目标回波生成，再到雷达抗干扰检测的过程都可以表达成上述可微分的形式之后，我们便可以通过交替的优化雷达检测网络 $D$ 和干扰生成网络 $G$，在不断提高干扰生成网络的干扰能力同时，也会不断提高雷达抗干扰检测的能力。其中，在训练检测网络 $D$ 时，我们使用了不断更新的干扰生成网络 $G$ 产生的所有形式的干扰，所以最终得到的检测网络必然会对各种形式的干扰都具有鲁棒性，也就是说我们得到了一个能够泛化到任意形式的干扰的目标检测网络。

端到端抗干扰检测的发射波形优化

在我们得到了优化好的雷达检测网络 $D$ 和干扰生成网络 $G$ 之后，我们其实得到了一个关于任意发射波形和任意形式的干扰都是最优的检测网络 $D$，和一个对于任意发射波形都是最优的干扰生成网络 $G$，此时我们便可以去求解最优化的发射波形：

\[\min_S E_X [L(P(Y|X,S),D(X,S))]\] \[X=HS+G(\Gamma S)+N\]

通过直接最大化检测结果，来优化发射波形，得到一个同时拥有低旁瓣和抗干扰能力的发射波形，在面对最优的抗干扰检测网络以及最优的干扰生成网络时，能达到最好的检测效果，真正做到端到端的模型优化。在下面的示意图中可以看到，反向梯度传播将同时优化发射波形的两个性能，即目标检测性能（也就是自相关的低旁瓣要求等）和抗干扰性能。该想法在附录 A 中可以体现。与传统的手工设计发射波形相比，端到端的网络优化做到了自动化和闭环反馈。

端到端抗干扰检测网络

长期记忆、评估、策略的叠加

多脉冲联合抗干扰检测网络

之前的雷达检测都是单脉冲的检测，而更多情况下目标需要多个脉冲才能被检测出来，如静态杂波环境中的运动目标。此时，关于多脉冲联合检测的问题便显露出来。

把当前时刻及之前相邻的多个脉冲的雷达接收数据称为当前时刻的观测信息：

\[o_t=[X_{t-T},…,X_t ]\]

建立多脉冲联合抗干扰检测网络 $D(o_t)$，并通过最小化检测误差进行优化：

\[\min_D E_{o_t} [L(P(Y_t|o_t ),D(o_t ))]\]

通过上式，可以优化得到多脉冲联合抗干扰检测网。需要说明的是，多脉冲联合抗干扰检测网络的输入信息除了上面提到的观测信息外，当然也需要已知雷达发射波形（这点和上文中单脉冲检测是相同的），而雷达发射波形是雷达检测网络很容易获得的知识（对于一个同时收发的雷达来说），为了表达方便这里省略。

关于多脉冲联合抗干扰的网络结构形式有以下思考：我们在单个脉冲回波上采用和之前单脉冲检测相同的卷积网络形式，同时针对之前脉冲提取的环境状态信息，在每一层卷积网络中添加长短期记忆网络（LSTM）结构，结合当前脉冲和之前脉冲共同通过卷积提取特征信息作为下一层的输入，并输出当前时刻的环境状态信息，用于下一时刻的检测。其中循环卷积网络 Conv-LSTM 便是将 LSTM 添加到卷积网络中的结构。此时可将检测网络表达为

\[{detect}_t,{state}_t=D(X_t,{state}_{(t-1)})\]

其中 $detect$ 为网络输出的检测结果，而 $state$ 便是网络提取的环境状态信息，也可称为检测网络的记忆信息。

当然这是一种可能的方法，该方法的优势在于，对于每一个时刻来说，只用重新计算当前时刻的原始脉冲信息，而之前时刻的脉冲信息已经通过上一时刻的网络处理为环境状态信息保留了下来，不需要再对之前时刻的所有回波信息一一处理，这样便可以简化计算过程。但相反的，将多个时刻的回波信息压缩为一个环境状态信息，必然不是最直接的处理方式。上述方法想要取得一个好的检测结果，必须有以下公式近似成立：

\[P(Y_t |X_t,X_(t-1),…,X_(t-T) )=P(Y_t |X_t,state_(t-1) )\]

也就是说之前多个脉冲中的与当前目标相关的信息能够被一个环境状态信息全部表示。

另外，更加直接的多脉冲联合检测方式是直接在多个脉冲和多个距离单元上做二维卷积（甚至是三维卷积，如果采用本文（硕士论文）第三章中的滑窗匹配的方式来适应多变的发射波形），但这样做所带来的计算压力甚至是模型复杂度的压力则需要多加考虑；同时在多脉冲维度使用卷积和传统的相干脉冲积累一样，需要人为地设定相干脉冲个数，其余的非相干脉冲信息将会丢失，而 LSTM 却可以利用长期记忆保留所有历史脉冲中的有用信息。

多脉冲联合抗干扰检测网络

卷积与循环网络的结合 Conv-LSTM

端到端多脉冲联合抗干扰检测的发射波形优化

在得到关于多脉冲的联合检测网络 $D(o_t)$ 后，我们便可以通过最小化检测误差，来优化发射波形。首先建立发射波形的策略行动网络：

\[S_t=\pi (o_{(t-1)})\]

通过上一时刻的观测信息得出当前时刻的发射波形，也就是说我们要优化的发射波形是通过对历史的观测信息进行分析得到的，这是一个合理而常见的假设，在认知雷达领域中已有广泛的应用。

我们把当前时刻的检测误差取负后称为当前时刻的检测回报：

\[R_t=-L(P(Y_t|o_t ),D(o_t ))\]

而我们最终的目标就是，通过最大化未来的检测回报来优化当前时刻的发射波形：

\[\max_{S_t} \sum_{\tau=t}^{+\infty} R_\tau\]

但上式不可直接求解，因为未来回报不可知：未来的检测回报需要未来的观测信息，而未来的观测信息则需要未来的发射波形，优化未来时刻的发射波形则需要更远时刻的检测回报。

但我们可以利用价值网络来评估未来回报，通过 Bellman 方程求解：

\[V(o_t )=\sum_{\tau=t}^{+\infty} R_\tau = R_t + E_{X_{t+1}} [V(o_{t+1}]\]

价值网络是一个对未来回报的估计函数，它仅通过当前观测信息直接评估未来回报，而不需要实际给出未来每一时刻的检测回报值。其中当前时刻的发射波形由策略网络给出，即 $S_t=\pi(o_{t-1})$，而 $R_t$ 则可以由检测网络的检测结果计算得到，即 $R_t=-L(P(Y_t

o_t ),D(o_t ))$。我们用 Bellman 方程的右边的值来不断修正左侧的评估网络，直至等式近似成立，即：

\[\min_V {ValueLoss} = \min_{V_{new}} [V_{new}(o_t) - [R_t+V_{old}(o_{t+1})]]^2\]

最后再通过最大化价值网络评估的未来回报来优化当前时刻的发射波形策略：

\[\max_\pi V(o_t)\]

不断交替重复更新价值网络和策略网络，完成对发射波形的优化。

实际上整个优化过程是利用了强化学习[45]的方法，具体如下：

将雷达端看做一个智能体（agent）。
将雷达接收的回波或干扰数据作为智能体对环境的观测信息（observation）：$o$。
将雷达的发射波形看做智能体的行动（action），智能体依据策略（policy）函数，根据不同的观测信息采取行动：$S_t=\pi(o_{t-1})$。
雷达对环境中目标的检测（detection）：$D(o_t)$ 看做智能体对环境的感知（上文提到的根据观测信息对未来回报进行评估的价值（value）网络：$V(o_t)$ 也属于环境感知，所以在具体构建检测网络和价值网络时可以共享低层的卷积参数，同时策略网络 $\pi(o_{t-1})$ 也是通过分析观测信息才获得的行动，所以也可以共享这些参数。）
将雷达检测网络的检测效果看做智能体行动的立即回报奖励（reward）：$R$。

上述想法如下图所示，在于环境的交互过程中，通过同一个多层的 Conv-LSTM 网络进行检测、价值评估及策略选择，并利用各种优化目标反向更新网络参数，最终，我们仅利用一个网络，便完成了包括目标的抗干扰检测、长期检测回报的评估以及基于最大化长期检测回报优化得到的发射波形。上述想法在文献 [46] [47] 中可以看到。

检测网络和评估网络的训练

实际上，反向梯度传播并没有上图中描述的那么简单，其真正的前向和反向传播如下图所示。其中，对检测网络 $D$ 的优化仅需要利用当前的检测损失就可以了；对价值网络 $V$ 的优化，则需要利用当前的评估误差，而计算评估误差不仅需要当前的检测损失，还需要下一时刻的评估价值以及当前时刻的评估价值。

前向和反向传播示意图

策略网络的训练方式：真实环境 or 模拟估计

而对于策略函数的优化则有以下两种方式，一种是基于模型的方式，这种方式需要我们对环境信息进行建模，建立从发射波形到回波信号的前馈可微分过程。这样便建立了可微分的从策略网络到评估网络的前馈过程：通过上一时刻的观测信息得到当前发射波形，再通过环境作用得到当前的观测信息，然后通过价值网络得到回报评估。最后，便可以沿着前馈的计算过程，通过最大化回报评估，反向传播优化策略网络。

基于模型的策略网络训练

上述方法有效的条件是要对环境进行可微分的建模，而若要建立免环境建模的方法，则需要对价值网络的输入信号做出改进：

\[V(o_t )\rightarrow V(o_{t-1},S_t)\]

价值网络不再通过当前的观测信息来进行回报评估，而是根据上一时刻的观测信息以及当前时刻的发射信号进行评估。实际上我们隐性的把对环境模型的估计建立在了价值网络当中，其需要自行的根据当前发射波形来估计当前回波的可能性，进而才能做出回波评估。

免模型的策略网络训练

免环境建模雷达智能体：应对位置场景（地图迷雾）

免环境建模的雷达智能体如下图所示。免环境建模的方法有一个重要的优势就是，在面对真实的抗干扰检测任务中，我们自然是无法得知干扰方的模型。此时利用免环境建模的方法，我们依然可以在线进行学习，包括检测网络、价值网络和策略网络，当干扰方或环境发生变化时，也可以通过对价值网络的优化，重新对环境进行评估。这些想法已应用于一些简单的实验当中，如固定干扰策略下的雷达跳频策略优化。

免模型雷达智能体

最后，特别需要说明的是，在以上利用深度强化学习对雷达发射波形做优化的过程中，我们使用了检测网络的实际检测效果来产生回报奖励，在检测与发射波形间形成了闭环，真正做到了以最优化检测效果来设计发射波形，相比于通过建模分析得到的虚假的回报奖励，这样做显然更加的真实有效。

智能电磁博弈：雷达与干扰在连续脉冲上的深度网络对抗检测

我们将上述多脉冲联合的目标检测称为连续脉冲检测。在上面的连续脉冲检测中，我们对雷达的智能体进行了建模，而对环境，尤其是对环境中的干扰并没有进行智能体建模。这就导致我们在训练上面雷达的智能体时必须给出某种固定形式的干扰，而优化的雷达智能体也只能针对给定形式的干扰，对于未知的干扰形式其抗干扰能力将无法保证。为了解决这个问题，同时优化干扰方的干扰策略，需要我们如同单脉冲检测中的雷达与干扰网络的对抗提升，对多脉冲检测时的干扰也进行智能体建模，建立雷达与干扰的深度网络对抗检测模型。

由于雷达进行的是多脉冲联合检测，那么干扰便也要针对多脉冲联合检测进行干扰，这就要求干扰网络不仅仅要依据当前的雷达发射波形，也要考虑雷达之前的发射波形，也就是说干扰网络应该是一个 Conv-LSTM 网络。

\[G(S_t,S_{t-1},…,S_{t-T})=G(S_t,{stat}_{t-1} )\]

关于干扰生成网络的优化准则，可以借助雷达端的检测效果。但需要注意的是，与单脉冲检测不同的是，我们不再以最大化雷达当前检测误差为目标，而是以最小化价值网络给出的未来回报为目标，这样便可以使得干扰系统也拥有长远的眼光，而不仅仅只注重当前的干扰效果：

\[\min_G V(o_t) = \min_G V(o_{t-1},X_t) = \min_G V(o_{t-1},G(S_t,{state}_{t-1} ) + N + HS_t )\]

连续脉冲上干扰生成网络的训练方式

而对于价值网络的优化，既可以选择有模型的方法，也可以选择免模型的方法。那么对于整个雷达与干扰的深度网络对抗训练过程，可见下图。可以看出，在整个过程中，我们至少得到了四个在电磁对抗当中有用的功能网络：

雷达与干扰在连续脉冲上的深度网络对抗检测

一个可以用于多脉冲联合的抗干扰检测网络，该网络可以针对任意的干扰形式作出最优的抗干扰检测。
一个可以用于评估检测效果的价值网络，该网络会根据干扰方的干扰能力作出抗干扰检测的长期效果评估。
一个可以用于多脉冲联合的抗干扰检测的发射波形的策略网络，该网络会根据已经掌握的环境干扰和目标信息，给出最优的抗干扰目标检测的发射波形。
一个可以用于多脉冲联合检测的干扰生成网络，该网络会根据接收到的发射波形针对多脉冲相参检测对未来检测回报给出最优的干扰。

关于对智能电磁博弈的阐述和理解，与绪论中提到的认知雷达相比，深度网络对抗检测模型可以做到以下几点：

借助深度学习，实现对目标和环境的智能化信息感知。
借助深度强化学习，实现从发射波形到目标检测的闭环优化处理。
借助循环神经网络，实现雷达智能体的记忆功能。

深度网络对抗检测模型中雷达智能体能够依靠算法本身的自我学习和改善能力，实现从发射波形到目标检测结果的闭环处理，依靠最终检测结果端到端地改善雷达的工作方式和处理过程，其使用范围更广，优化更加一体化。在平稳的环境下其会不断地迭代更新；而在未知或变化的环境中，智能化雷达也能够在与环境的交互中快速适应。相比于传统雷达技术多采用预设的工作模式和接收处理方式，深度网络对抗检测模型中雷达智能体形成了从接收到发射的闭环，可以更加主动的感知外部环境信息，并基于这些先验信息进行认知发射和认知接收处理，在与干扰的不断对抗训练中，能够同时改善雷达与干扰的性能。

上面的介绍主要是对雷达智能体进行了强化学习建模，干扰网络的训练依赖于雷达端评估网络给出的检测干扰效果，当然也可以对干扰端进行强化学习建模，这里不再赘述。最后，我相信这是智能化对抗雷达的未来，而上图便是象征。

小结

这里先后建立了干扰生成网络和雷达智能体，其中雷达智能体包含了记忆体、检测网络、评估网络和策略网络，最终构建了基于深度强化学习的雷达与干扰的智能博弈体系，完成了对雷达抗干扰策略、回波信号处理、检测效果评估和干扰策略等电磁博弈的一体化设计。本文猜想了一个雷达智能体，其拥有上述能力中的大部分功能，但还有一些高级的功能并没有给出详细的介绍，感知功能可以依靠自编码网络[49]实现，预测功能可以依靠不断得到的时序数据来训练，评估和行动功能可以依靠强化学习来实现，而如自我学习能力的构建，则要依靠元学习[48]和其它人工智能方法的继续研究。我相信，深度强化学习和相关领域的研究将通向通用人工智能，也将带来真正的智能电磁博弈。

一些现在的感想

当现在的我——一个已经在职场工作六年的人，回头再整理七年前未发表的这篇论文内容时，真的感慨万千。我惊讶于那时候的思想深度和复杂度。虽然那时候自己工程能力很弱，但思想是自由的。希望往后的人生我的思想都能是自由的。

文献

[37] Mark A Richards. 雷达信号处理基础[M]. 2008.
[30] Bacon P, Harb J, Precup D, et al. The Option-Critic Architecture[J]. arXiv: Artificial Intelligence, 2016.
[46] Tang Y, Tian Y, Lu J, et al. Deep Progressive Reinforcement Learning for Skeleton-Based Action Recognition[C]. computer vision and pattern recognition, 2018: 5323-5332.
[47] L. Kang, J. Bo, L. Hongwei and L. Siyuan. Reinforcement Learning based Anti-jamming Frequency Hopping Strategies Design for Cognitive Radar[C]. 2018 IEEE International Conference on Signal Processing, Communications and Computing (ICSPCC). Qingdao. 2018, pp. 1-5.
[48] Wang J X, Kurthnelson Z, Tirumala D, et al. Learning to reinforcement learn[J]. Cognitive Science, 2016.
[49] Bengio Y, Courville A C, Vincent P, et al. Representation Learning: A Review and New Perspectives[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(8): 1798-1828.

前言

干扰、检测、生成的联合优化

干扰接收的雷达信号的检测降噪及恢复网络

针对雷达检测网络的干扰生成网络

端到端抗干扰检测的发射波形优化

长期记忆、评估、策略的叠加

多脉冲联合抗干扰检测网络

端到端多脉冲联合抗干扰检测的发射波形优化

策略网络的训练方式：真实环境 or 模拟估计

免环境建模雷达智能体：应对位置场景（地图迷雾）

智能电磁博弈：雷达与干扰在连续脉冲上的深度网络对抗检测

小结

一些现在的感想

文献

Enjoy Reading This Article?