摘选

用小波收缩适应未知光滑性

一个不知道答案长什么样的估计器,如何做到近乎最优

从噪声数据中恢复一个未知函数,是统计学和信号处理中的经典问题。传统方法——核估计、样条、正交级数——都需要预先假定函数的光滑程度:你得告诉算法”这个函数大概有多光滑”,它才能选择合适的带宽或截断参数。但现实中,没人知道待恢复函数属于哪个光滑性类别。David Donoho 和 Iain Johnstone 在 1994 年这篇论文中提出了 SureShrink:一个基于小波系数阈值化的估计器,它不需要关于光滑性的任何先验知识,却能在 Besov 空间的一大族函数类上同时达到近极小极大(near-minimax)收���速率。这意味着,无论真实函数是分段常数、含有跳跃的正弦波还是变频信号,同一个程序、同一套参数,都能给出质量合理的重建。

问题的核心:光滑性未知时,传统方法为何失效

非参数回归的标准框架是:给定 N 个带噪声的采样点 y_i = f(t_i) + z_i,其中 z_i 是独立高斯噪声,目标是估计函数向量 f = (f(t_i)) 使均方误差尽可能小。经典理论通常假设 f 属于某个已知的函数类 F(比如 L₂-Sobolev 空间 W²_m(C)),然后寻找在该类上极小极大最优的估计器。

Efromovich-Pinsker (1984) 等人的工作表明,在 L₂-Sobolev 尺度上,可以构造出对光滑度 m 和常数 C 自适应的估计器——即使不知道 m 和 C,也能渐近地表现得和知道一样好。但这类结果局限于 L₂ 光滑性度量。当涉及更一般的 L_p-Sobolev 空间 W^m_p(p < 2 时),线性方法(核估计、样条等)即使在已知最优带宽的情况下,也无法达到最优收敛速率——这是 Nemirovski (1985) 和 Donoho-Johnstone (1992a) 的已知结论。既然线性方法在已知参数时都不行,自适应线性方法自然更不行。

换句话说,如果我们承认光滑性的”类型”(不仅是”程度”)也是未知的,那么在此之前,没有已知方法能做到真正的自适应估计。

SureShrink 的三个核心组件

SureShrink 的设计思路可以分解为三步,每一步都有清晰的统计直觉。

第一步:离散小波变换。对 N = 2^n 个数据点执行离散小波变换(DWT),得到 N 个小波系数 y_{j,k}。小波变换的正交性带来一个关键的统计性质:白噪声经正交变换后仍是白噪声。因此噪声数据的小波系数满足 y_{j,k} = w_{j,k} + z_{j,k},其中 w_{j,k} 是无噪声小波系数,z_{j,k} 仍是独立同分布的高斯噪声。同时,正交性保证了小波域和原始域之间的 Parseval 等距关系:在小波域中估计得好,等价于在原始域中估计得好。

小波变换的另一个关键优势是数据压缩:对于空间非齐次的函数(有跳跃、有局部特征),大部分小波系数实际上接近零,只有少数系数携带信号信息。论文中展示了四个测试函数(Blocks、Bumps、HeaviSine、Doppler)的小波系数图——约 1900 个系数中,在 300 DPI ��印分辨率下只有很小一部分是非零的,且非零系数集中在函数的不连续点和空间非齐次区域附近。

第二步:软阈值化。既然大部分真实小波系数接近零,自然的策略是”杀掉”小的系数、”保留”大的系数。SureShrink 采用软阈值(soft thresholding):η_t(y) = sgn(y)(|y| – t)_+,即绝对值低于阈值 t 的系数置零,其余系数向零方向收缩 t 个单位。关键问题是:每个分辨率层级 j 的阈值 t_j 该如何选择?

第三步:用 Stein 无偏风险估计(SURE)选择阈值。在每个分辨率层级 j,将该层级的小波系数视为一个独立的多元正态估计问题。Charles Stein (1981) 的结果表明,对于几乎任意的(可以是非线性、有偏的)估计器 θ̂(x) = x + g(x),其损失 ‖θ̂ – θ‖² 可以无偏地估计为:

SURE(t, x) = d – 2·#{i : |x_i| ≤ t} + Σ(|x_i| ∧ t)²

这个量的期望恰好等于软阈值估计器在阈值 t 下的真实风险。因此,对每个层级 j,只需最小化 SURE(t, x_j) 即可得到数据驱动的阈值 t*_j。计算上,最小值必然在某个 |x_i| 处取到,因此整个优化只需 O(d log d) 的计算量。

论文指出 SURE 原则在极端稀疏情况下有一个缺陷:当绝大多数系数为零时,SURE 曲线中噪声贡献淹没了信号贡献,导致阈值选择不稳定。为此,SureShrink 采用了一个混合策略:先检验该层级的信号能量是否显著(通过 s²_d 与阈值 λ_d/√d 的比较),如果信号微弱则直接使用固定阈值 √(2 log d);否则才使用 SURE 自适应阈值。实际实现中还引入了半样本(half-sample)技巧以获得理论保证,但论文同时指出更简单的非半样本版本在模拟中表现同样好。

整个流程的计算复杂度为 O(N log N)——小波变换本身是 O(N),阈值选择是 O(N log N),几乎与线性复杂度无异。

理论保证:在 Besov 尺度上的同时近极小极大性

论文的核心理论结果(Theorem 1)表明:只要所用小波具有 r 个消失矩和 r 阶连续导数(r > max(1, α)),SureShrink 在 Besov 球 B^α_{p,q}(C) 上同时近极小极大,对所有 p, q ∈ [1, ∞]、所有 C ∈ (0, ∞)、所有 α₀ < α < r 成立。

这个结果的力度在于”同时”二字:估计器对光滑性的程度(α)、类型(p)、数量限制(C)一无所知,却能达到已知这些参数时的最优收敛速率。Besov 尺度涵盖了 Hölder 类(B^{m+α}_{∞,∞})、L₂-Sobolev 类(B^m_{2,2})、L_p-Sobolev 类、有界变差函数类等常用函数空间,因此这一结果的覆盖范围远超此前的自适应方法。

一个特别值得注意的推论(Theorem 2)是:在 Haar 基下的 SureShrink(”HaarShrink”)对有界变差函数类 V(C) 同时近极小极大——不需要知道总变差的先验上界。

证明的技术路线是将有限样本问题近似为无穷序列空间中的估计问题(通过小波系数的连续近似),然后在序列空间中证明自适应性(Theorem 3),再利用近似论证回到原问题。Theorem 4 提供了单个分辨率层级上 SURE 自适应阈值的精确风险界:相对于理想阈值风险 R̃(θ),自适应估计器的额外代价仅为 O((log d)^{5/2} / d^{1/2}),在高维情况下可以忽略。

与自适应线性方法的实质差距

论文通过理论分析和模拟实验两个层面,展示了 SureShrink 相对于自适应线性方法的优势。

在小波域中应用 James-Stein 收缩(WaveJS)是一种自适应线性方法。Theorem 5 表明 James-Stein 估计器的风险至多比理想线性收缩器多 2 个单位——在高维中这个代价可以忽略。因此 WaveJS 在 Besov 尺度上达到了线性估计器的最优速率。但问题在于:线性估计器在每个分辨率层级对所有系数施加相同的收缩因子。如果某个层级中既有需要保留的大系数又有应该杀掉的小系数,James-Stein 只能折中处理,导致重建结果明显更嘈杂。

论文还构造了基于 Fourier 二进冠(Dyadic Fourier Coronae)的 LPJS 方法,它与 Efromovich-Pinsker 方案相关,理论上是很好的自适应线性估计器。但模拟结果显示,LPJS 的重建质量与 WaveJS 类似——都明显逊于 SureShrink。

模拟实验的定量结论颇为直观:在样本量 N 为 10³ 到 10⁴ 的范围内,SureShrink 用 N 个样本达到的精度,自适应线性方法需要 2N 甚至 4N 个样本才能匹配。最极端的案例是 Blocks 函数,Haar 基下 SureShrink 在 N = 1024 时的表现与 LPJS 在 N = 8192 时相当——8 倍的样本量差距。

实践层面的几个细节

论文在讨论部分坦诚地指出了 SureShrink 的一个视觉特征:重建结果中会包含少量虚假的细尺度结构。这不是算法的缺陷,而是 ℓ₂ 损失函数下偏差-方差权衡的必然结果——如果完全消除噪声伪影,就会丧失对真实细尺度结构的适应能力。如果用户更在意视觉质量而非均方误差,可以改用固定阈值 √(2 log N)(即 VisuShrink),它能确保几乎所有纯噪声系数被置零,代价是对信号的轻微过度平滑。

噪声水平 σ 的估计在实际中通过最细尺度小波系数的中位绝对偏差(MAD)实现:σ̂ = Median(|y_{n-1,k}|)。论文强调使用稳健估计器的重要性——最细尺度系数中可能混有少量强信号,均值或标准差估计会被污染。

关于硬阈值化(hard thresholding)与软阈值化的选择:论文偏好软阈值,理由是规则的连续性和 SURE 公式的简洁性。原则上硬阈值也可以获得类似的理论结果,但需要更复杂的 SURE 公式和更繁琐的证明。

三十年后回看这篇论文

SureShrink 的核心洞察——在变换域中通过阈值化实现非线性自适应估计——已经成为信号处理和统计学的基础工具。它揭示的深层原理是:非线性方法能够突破线性方法的速率壁垒,而小波变换提供了一个让这种非线性操作既计算高效又理论可控的框架。

对今天的从业者而言,这篇论文的启发不仅在于具体的算法(虽然小波阈值化至今仍在图像去噪、光谱分析等领域广泛使用),更在于一种方法论思路:当你面对一个”不知道该用多少正则化”的问题时,与其在一个参数上做交叉验证,不如寻找一个变换域,使得问题在该域中变得稀疏,然后用数据驱动的方式逐分量决定保留还是丢弃。这个思路后来延伸到了压缩感知、LASSO,以及更广泛的稀疏恢复理论中。SureShrink 是这条线索上一个早期而优雅的节点。

Leave a Reply

您的邮箱地址不会被公开。 必填项已用 * 标注