Birkhoff 遍历定理

2013-04-21

准备工作
Birkhoff 遍历定理
Birkhoff 遍历定理的证明
极大遍历定理的证明

我研究生的高等概率论课程用的是 Durrett 的教材 “Probability: Theory and Examples”。这本书的好处我就不再介绍了，院长陈大岳老师在世图影印版的前言中已经夸了一遍。我个人的体会是，Durrett 的书在讲解证明的时候非常简练，很少写为什么要这样证，我有时候读了半天也没搞明白思路。Birkhoff 遍历定理算是其中一个，于是我重新整理了一下书中的证明，作此文留念。

Birkhoff 遍历定理最初由 Birkhoff 本人在 1931 年发表，原文长达 50 页。随后在 1939 年 K.Yosida （吉田耕作）和 S.Kakutani （角谷）利用极大遍历定理给出了一个 10 页的简洁证明，不过他们关于极大遍历定理的证明还是啰嗦了点，后来 Garsia 给出了极大遍历定理的一个仅有寥寥数行的惊人证明，这也是当前大多数教材采用的途径，本文就来介绍这一证明。

准备工作

给定一个概率空间 \((\Omega,\mathcal{F},\mu)\)，我们称两个可测集 \(A,B\in F\) 几乎处处相等，是指它们的示性函数 \(\mathbb{1}_A,\mathbb{1}_B\) 几乎处处相等，记作 \(A\stackrel{\mathrm{a.e.}}{=}B\)。等价的说法是 \(A,B\) 只差一个零测集，或者差集 \(A\Delta B\) 是零测集。

设 \(T:\Omega\rightarrow \Omega\) 是一个可测变换，即对任何 \(E\in\mathcal{F}\) 有 \(T^{-1}E\in\mathcal{F}\)。

定义 1.1. 如果可测集 \(E\) 满足 \(T^{-1}E\stackrel{\mathrm{a.e.}}{=}E\)，就称 \(E\) 是一个 \(T-\) 不变集合。不难验证所有的 \(T-\) 不变集合 \[\mathcal{I}=\{E\in\mathcal{F}\ |\ T^{-1}E\stackrel{\mathrm{a.e.}}{=}E\}\] 构成 \(\mathcal{F}\) 的一个子 \(\sigma-\) 代数。

定义 1.2. 如果对任何可测集 \(E\in\mathcal{F}\) 有 \(\mu(T^{-1}E)=\mu(E)\)，就称 \(T\) 是一个保测变换。

在本文中，\(T\) 始终代表一个保测变换。

保测变换有如下性质：

引理 1.3. 如果 \(f\in L^1(\Omega)\) 是一个可积的随机变量，\(T\) 是保测变换，则 \[\int_\Omega f\,\mathrm{d}\mu=\int_\Omega f\circ T\,\mathrm{d}\mu.\]

证明：若 \(E\in\mathcal{F}\) 是可测集，由于 \[\omega\in T^{-1}E\Leftrightarrow T(\omega)\in E\Leftrightarrow(\mathbb{1}_E\circ T) (\omega)=1.\] 所以 \(\mathbb{1}_{E}\circ T=\mathbb{1}_{\{T^{-1}E\}}\)，因此 \[\int_\Omega \mathbb{1}_E\,\mathrm{d}\mu=\mu(E)=\mu(T^{-1}E)=\int_\Omega \mathbb{1}_{\{T^{-1}E\}}\,\mathrm{d}\mu=\int_\Omega \mathbb{1}_E\circ T\,\mathrm{d}\mu.\] 从而结论对集合的示性函数成立，进一步由积分的线性性质对任何简单函数也成立，再取极限即得对一般的可积函数结论成立。

引理 1.4. 一个 \(\Omega\) 上的随机变量 \(X\) 关于 \(\mathcal{I}\) 可测，当且仅当有 \[X\circ T=X\quad \text{a.e.}\] 成立。这时我们称 \(X\) 是 \(T-\) 不变的随机变量。

这是 Durrett 书中的一道习题，我一直觉得它很平凡，其实之前的处理有问题，这个结论还是需要论证一番的。

证明：

\(\Rightarrow\)：如果 \(X\) 关于 \(\mathcal{I}\) 可测，则对任何 Borel 集 \(B\in\mathcal{B}(\mathbb{R}^1)\) 有 \(X^{-1}B\in\mathcal{I}\)，即 \(T^{-1}(X^{-1}B)\stackrel{\mathrm{a.e.}}{=}X^{-1}B\)，这说明 \(\{X\circ T\in B\}\stackrel{\mathrm{a.e.}}{=}\{X\in B\}\)。特别地取 \(B=(-\infty, t)\) 我们得到 \(\{X\circ T<t\}\stackrel{\mathrm{a.e.}}{=}\{X<t\}\)。所以只要证明如果 \(\xi,\,\eta\) 是两个可测函数且对任何实数 \(t\) 有 \(\{\xi<t\}\stackrel{\mathrm{a.e.}}{=}\{\eta<t\}\)，则 \(\xi=\eta,\,\mathrm{a.e.}\) 即可。若不然，不妨设 \(\{\xi>\eta\}\) 具有正测度，则存在有理数 \(c\) 使得集合 \(\{\xi>c>\eta\}\) 具有正测度，这个集合在 \(\{\eta<c\}\) 中，但是不在 \(\{\xi<c\}\) 中，这与 \(\{\eta<c\}\) 和 \(\{\xi<c\}\) 只差一个零测集矛盾。

\(\Leftarrow\)：如果 \(X\circ T=X\) 几乎处处成立，则对任何 \(B\in\mathcal{B}(\mathbb{R}^1)\) 有 \(X^{-1}B\stackrel{\mathrm{a.e.}}{=}T^{-1}X^{-1}B\)，这说明 \(X^{-1}B\in\mathcal{I}\)，即 \(X\) 关于 \(\mathcal{I}\) 可测。

Birkhoff 遍历定理

设 \(f\) 是 \(\Omega\) 上的随机变量，对每个整数 \(n\geq 1\)，令 \[S_n(\omega)= \sum_{k=0}^{n-1} f(T^k(\omega)).\] 我们有如下的定理：

定理 2.1. （Birkhoff 遍历定理）

设 \(T\) 是概率空间 \((\Omega,\mathcal{F},\mu)\) 上的保测变换，则对任何 \(f\in L^1(\Omega)\) 有 \[\lim_{n\to\infty}\frac{S_n}{n}\rightarrow \mathbb{E}[f\,|\,\mathcal{I}]\quad\text{a.e.}\]

证明 Birkhoff 遍历定理定理的关键是证明如下的极大遍历定理：（极大遍历定理这个名字来源于分析中的 Hardy-Littlewood 极大函数，这一类的不等式统称为极大不等式）

极大遍历定理. 定义极大算子 \[M_f(\omega)=\sup_{n\geq 1}\frac{1}{n}S_n(\omega),\] 则对 \(f\in L^1(\Omega)\) 和任一 \(a\in\mathbb{R}\)，有 \[\int_{\{M_f>a\}} f\,\mathrm{d}\mu\geq a\mu(\{M_f>a\}).\]

极大遍历定理是整个 Birkhoff 遍历定理的证明中最不直观的部分，而且我也确实不知道怎么解释引入它的动机。我第一次看到这个式子的时候是很懵的。一个直观的理解是，观察下面这个显然成立的不等式： \[\int_{\{M_f>a\}} M_f\,\mathrm{d}\mu\geq a\mu(\{M_f>a\}).\] 极大遍历定理是说把其中的积分函数换成 \(f\)，积分范围保持不变的话，不等式仍然成立。

我把极大遍历定理的证明放在最后，先用它来证明 Birkhoff 遍历定理。

Birkhoff 遍历定理的证明

首先可以假定条件期望 \(\mathbb{E}[f\,|\,\mathcal{I}]=0\)，若不然，我们可以以 \(f-\mathbb{E}[f\,|\,\mathcal{I}]\) 代替 \(f\)，注意到 \(\mathbb{E}[f\,|\,\mathcal{I}]\) 是 \(T-\) 不变的，所以根据上面的引理 1.4 有 \[\mathbb{E}[f\,|\,\mathcal{I}]\circ T^k = \mathbb{E}[f\,|\,\mathcal{I}],\quad \mathrm{a.e.}\] 对所有的正整数 \(k\) 都成立，这时定理 2.1 的左边 \(S_n\) 中每一项都会多出来一个 \(\mathbb{E}[f\,|\,\mathcal{I}]\)，除以 \(n\) 正好和右边的 \(\mathbb{E}[f\,|\,\mathcal{I}]\) 抵消掉。

这样问题变成在 \(\mathbb{E}[f\,|\,\mathcal{I}]=0\) 的前提下证明 \[\lim\limits_{n\to\infty}\frac{S_n}{n}=0.\quad \text{a.e.}\] 设 \(a\) 是任一正数，考虑集合 \[A= \left\{\omega \mid \varlimsup_{n\to\infty}\frac{S_n}{n}>a\right\}.\] 我们想证明 \(\mu(A)=0\)。若真如此，则有 \(\varlimsup\limits_{n\to\infty}S_n/n\leq a\) 几乎处处成立，根据 \(a\) 的任意性就得到 \(\varlimsup\limits_{n\to\infty}S_n/n\leq 0\) 几乎处处成立。再把这个结果用在 \(-f\) 上就得到 \(\varliminf\limits_{n\to\infty}S_n/n\geq 0\) 也几乎处处成立，这样就证明了 \(\lim\limits_{n\to\infty}S_n/n=0\) 几乎处处成立。（拗口）

为了证明 \(\mu(A)=0\)，我们希望对函数 \(f\) 和集合 \(A\) 应用极大不等式： \[\int_A f\,\mathrm{d}\mu\geq a\mu(A).\] 这是因为，\(A\) 其实是一个 \(T-\) 不变的集合，即 \(A\in\mathcal{I}\)，我们会在证明末尾再验证这一点。于是根据条件期望的性质，上式的左边其实是 0： \[\int_A f\,\mathrm{d}\mu = \int_A \mathbb{E}[f\,|\,\mathcal{I}]\,\mathrm{d}\mu =0.\] 即 \(0\geq a\mu(A)\)，结合 \(a>0\) 即得 \(\mu(A)=0\)。

但是，我们能对 \(A\) 使用极大不等式吗？请注意 \(\varlimsup\limits_{n\to\infty}\) 和 \(\sup\limits_{n\geq 1}\) 的区别，它们定义的是两个不同的随机变量。\(A\) 是用 \(\varlimsup\limits_{n\to\infty}\) 定义的，而极大遍历定理中说的是 \(\sup\limits_{n\geq 1}\)。注意到 \[A=\left\{\varlimsup_{n\to\infty}\frac{S_n}{n}>a\right\}\subseteq \left\{\sup_{n\geq 1}\frac{S_n}{n}>a\right\}= \left\{M_f>a\right\},\] 所以只要证明这样一个结论就好了：

设 \(A\subseteq \{M_f>a\}\) 而且 \(A\) 是一个 \(T-\) 不变集合，那么极大遍历定理仍然成立： \[\int_A f\,\mathrm{d}\mu\geq a\mu(A).\]

而这只要对函数 \(g=f\cdot\mathbb{1}_A\) 应用极大遍历定理即可： \[\int_{\{M_g>a\}} f\cdot\mathbb{1}_A\,\mathrm{d}\mu\geq a\mu(\{M_g>a\}).\] 但是 \(M_g=M_f\cdot\mathbb{1}_A\)，这一点要用到 \(A\) 是 \(T-\) 不变集合这个条件，因此 \[\{M_g>a\}=\{M_f>a\}\cap A =A.\]因此确实有 \[\int_A f\,\mathrm{d}\mu\geq a \mu(A),\] 这样就证明了 Birkhoff 遍历定理。

实际上定理中的收敛也是一个依 \(L^1\) 范数的收敛，这点的证明相比几乎处处收敛就容易多了，这里不再赘述。

好了，我们来验证上面提到的 \(A\) 确实是 \(T-\) 不变的：

利用 \(S_{n+1} = f + S_n\circ T\) 可得 \[\frac{S_{n+1}}{n+1} = \frac{f}{n+1} + \frac{S_n\circ T}{n}\cdot \frac{n}{n+1}.\] 在两边同时取上极限，注意到由于 \(f\in L^1(\Omega)\) 所以 \(f\) 几乎处处有限，从而 \[\lim_{n\to\infty}\frac{f}{n+1}=0,\quad \text{a.e.}\] 所以 \[\varlimsup_{n\to\infty} \frac{S_{n+1}}{n+1} = \varlimsup_{n\to\infty}\frac{S_{n}\circ T}{n}.\] 这正说的是 \(\varlimsup\limits_{n\to\infty}S_n/n\) 是 \(T-\) 不变的随机变量，从而 \(A\) 是 \(T-\) 不变的集合。

最后来证明极大遍历定理。

极大遍历定理的证明

只要证明 \(a=0\) 的情形，然后对一般的 \(a\)，将结论应用在函数 \(f-a\) 上即可。定义 \(S_0=0\) 以及 \(M_n =\max\{S_0,S_1,\cdots,S_n\}\)。对每个 \(k=1,\ldots,n\) 有 \[S_k=f+S_{k-1}\circ T\leq f+M_n \circ T.\] 从而 \[\max_{1\leq k\leq n}S_k\leq f+M_n \circ T.\]

但是在集合 \(\{M_n>0\}\) 上，\(M_n\) 作为 \(S_0,S_1,\ldots,S_n\) 中的最大者肯定不能来自 \(S_0=0\)，所以 \(M_n=\max\limits_{1\leq k\leq n}S_k\)，因此 \[M_n\leq f+M_n \circ T,\quad \omega\in \{M_n>0\}.\] 注意 \(M_n\) 总是非负的随机变量，从而 \[\begin{align*}\int_{\{M_n>0\}} f &\geq \int_{\{M_n>0\}}M_n -\int_{\{M_n>0\}}M_n\circ T\\ & = \int_\Omega M_n- \int_{\{M_n>0\}}M_n\circ T\\&\geq \int_\Omega M_n-\int_\Omega M_n\circ T\\&=0.\end{align*}\] 最后由于 \(\{M_n>0\}\uparrow \{M_f>0\}\)，所以由控制收敛定理即可得到 \[\int_{\{M_f>0\}}f\geq 0.\] 极大遍历定理得证。

上一篇：Coxeter element: a computational approach

下一篇：称硬币问题、小白鼠找毒药问题与编码理论