Blotto Example
In this match, Alice wins castles 2, 4, 6, 9 and takes a 6-point penalty, for a total of 15 points, and Carol wins castles 1, 8, 10 and takes a 6-point penalty, for a total of 13 points (no one wins castles 3, 5, 7).
We're going to play a tournament. You get one entry and your final score is the average (mean) of your scores against all the other entries from applicants. An entry should be submitted as a list of 10 non-negative integers, adding up to 100, where the nth element is the number of soldiers being sent to castle n.
What's your entry?
写一个遗传算法在整个行动空间玩大逃杀应该可以得到一个还不错的解.然而在这之外,这个空间上还有没有什么有趣的性质呢?
让我们把问题简化,它本质上是某种剪刀石头布的超级增强版:对于任何一个元素 a a a ,都可以从行动空间上选择另一个元素 b b b 使 a < b a < b a < b (我们用 < < < > > > = = = 分别表示负,胜,平).
那么再向剪刀石头布中加入一个新的元素呢?胜负可能会变成这样:
pierre, papier, ciseaux, puits
尽管每一个元素都会败给另外一个元素,但如果双方随机选择元素,那么有两个元素的胜率是 1 2 \frac{1}{2} 2 1 ,另外两个元素胜率只有 1 4 \frac{1}{4} 4 1 ,存在一些元素具有“相对优势”.的确如此,若把胜负表当作一张有向图的话,有一些节点的出度大于入度,这些节点面对随机出手的对手胜率更高.
Remark 1 : 虽然行动空间上可以允许存在 a , b a, b a , b 使 S ( a , b ) = S ( b , a ) S(a, b) = S(b, a) S ( a , b ) = S ( b , a ) ,但在 Blotto Game 中,「平局」并不能构成等价关系. 例如我们假设有三座城堡,得分分别为 1 , 2 , 3 1, 2, 3 1 , 2 , 3 ,两人各有 100 兵力.那么 [ 33 , 33 , 34 ] = [ 40 , 50 , 10 ] [33,33,34] = [40,50,10] [ 33 , 33 , 34 ] = [ 40 , 50 , 10 ] , [ 33 , 33 , 34 ] = [ 50 , 40 , 10 ] [33,33,34] = [50,40,10] [ 33 , 33 , 34 ] = [ 50 , 40 , 10 ] ,然而 [ 40 , 50 , 10 ] ≠ [ 50 , 40 , 10 ] [40,50,10] \neq [50,40,10] [ 40 , 50 , 10 ] = [ 50 , 40 , 10 ] ,这个关系缺少传递性.太无趣了!
向问题的行动空间中中加入实数那么多个元素,让可以选择的兵力分布可以是任意的呢?
我们考虑这样一个更一般的情况:两方各拥有 1 1 1 个单位的士兵资源,在每个城堡可以摆放的士兵数量是 [ 0 , 1 ] [0, 1] [ 0 , 1 ] 间的一个实数,那么我们就得到了一个连续的 Blotto Game.
假设我方和对方分别从 Δ n \Delta_n Δ n 上选择 α \alpha α 和 β \beta β 两点,得分函数 S ( α , β ) S(\alpha, \beta) S ( α , β ) 和相对得分 R ( α , β ) R(\alpha, \beta) R ( α , β ) 定义为
S i ( α , β ) = { w i − P ( α i − β i ) α i > β i 0 α i ≤ β i S ( α , β ) = ∑ i = 1 n S i ( α , β ) R i ( α , β ) = S i ( α , β ) − S i ( β , α ) R ( α , β ) = ∑ i = 1 n R i ( α , β ) = S ( α , β ) − S ( β , α ) \begin{aligned} S_i(\alpha, \beta) &= \begin{cases} \begin{aligned} w_i - &P(\alpha_i -\beta_i) &\alpha_i\gt\beta_i\\[4pt] &0 &\alpha_i\leq\beta_i \end{aligned} \end{cases}\\[4pt] S(\alpha, \beta) &= \sum_{i=1}^{n} S_i(\alpha, \beta) \\[16pt] R_i(\alpha, \beta) &= S_i(\alpha, \beta) - S_i(\beta, \alpha) \\[4pt] R(\alpha, \beta) &= \sum_{i=1}^{n} R_i(\alpha, \beta) =S(\alpha, \beta) - S(\beta, \alpha) \end{aligned} S i ( α , β ) S ( α , β ) R i ( α , β ) R ( α , β ) = ⎩ ⎨ ⎧ w i − P ( α i − β i ) 0 α i > β i α i ≤ β i = i = 1 ∑ n S i ( α , β ) = S i ( α , β ) − S i ( β , α ) = i = 1 ∑ n R i ( α , β ) = S ( α , β ) − S ( β , α ) 其中 w i > 0 w_i \gt 0 w i > 0 是城堡 i i i 的得分, P P P 是兵力超出的惩罚函数,比如 P ( δ ) = 20 δ P(\delta) = 20\delta P ( δ ) = 20 δ .
那么,在对方完全随机选择兵力分布的情况(Δ n \Delta_n Δ n 上的均匀分布)下,是否有一些点,比其他的点「胜率」更高?我们如何找到这些点?
Theroem 1 : Win chance W W W is continous on Δ n \Delta_n Δ n for all finite n ≥ 1 n \geq 1 n ≥ 1 , where f ( u ) f(u) f ( u ) is the probability density function of uniform distribution on Δ n \Delta_n Δ n , P ( δ ) P(\delta) P ( δ ) is continuous and P ( 0 ) = 0 P(0)=0 P ( 0 ) = 0 .
W : Δ n → [ 0 , 1 ] W ( p ) = ∫ R ( p , u ) > 0 f ( u ) d u \begin{aligned} W:&\text{ }\Delta_n\rightarrow [0,1] \\ W(\mathbf{p}) =& \int_{R(\mathbf{p}, \mathbf{u})>0} f(\mathbf{u})d\mathbf{u} \end{aligned} W : W ( p ) = Δ n → [ 0 , 1 ] ∫ R ( p , u ) > 0 f ( u ) d u Note 1 : 我们略微滥用一下记号,R ( p , u ) > 0 R(\mathbf{p}, \mathbf{u})>0 R ( p , u ) > 0 指集合 { u ∣ R ( p , u ) > 0 , u ∈ Δ n } \{\mathbf{u} \mid R(\mathbf{p}, \mathbf{u})>0, \mathbf{u} \in \Delta_n\} { u ∣ R ( p , u ) > 0 , u ∈ Δ n } ,即 p \mathbf{p} p 相对 u \mathbf{u} u 得分大于 0 0 0 的区域;d u = d u 1 d u 2 . . . d u n d\mathbf{u}=du_1du_2...du_n d u = d u 1 d u 2 ... d u n .
Note 2 : 并且「连续」还不能保证 w i − P ( ϵ i ) w_i - P(\epsilon_i) w i − P ( ϵ i ) 大于 0,这会给分析问题带来诸多困难.下文我们假设选择的 ϵ \boldsymbol{\epsilon} ϵ 足够小,额外满足 P ( ϵ i ) < w i P(\epsilon_i)<w_i P ( ϵ i ) < w i 来保证 S i S_i S i 符号不会改变,由于 P P P 连续,这总是可行的.
任取一点 p ∈ Δ n \mathbf{p} \in \Delta_n p ∈ Δ n ,我们需要证明 ∀ δ > 0 , ∃ ϵ , ∣ W ( p + ϵ ) − W ( p ) ∣ < δ \forall \delta > 0\text{, }\exists\boldsymbol{\epsilon}\text{, }|W(\mathbf{p}+\boldsymbol{\epsilon}) - W(\mathbf{p})| < \delta ∀ δ > 0 , ∃ ϵ , ∣ W ( p + ϵ ) − W ( p ) ∣ < δ .
这实际上有些困难,对于每一点 p \mathbf{p} p 来说,积分区域都不相同,那些美丽的定理离我们远去.由于 p \mathbf{p} p 在 Δ n \Delta_n Δ n 上, ϵ \boldsymbol{\epsilon} ϵ 需要满足额外的条件:
∑ i = 1 n ϵ i = 0 \sum_{i=1}^n \epsilon_i = 0 i = 1 ∑ n ϵ i = 0 p + ϵ ∈ Δ n \mathbf{p}+\boldsymbol{\epsilon} \in \Delta_n p + ϵ ∈ Δ n 并且相对得分 R ( p + ϵ , p ) R(\mathbf{p}+\boldsymbol{\epsilon}, \mathbf{p}) R ( p + ϵ , p ) 在 p \mathbf{p} p 的邻域内是不连续的:
R ( p + ϵ , p ) = ∑ i = 1 n w i ⋅ s g n ( ϵ i ) − P ( ϵ i ) R(\mathbf{p}+\boldsymbol{\epsilon}, \mathbf{p}) = \sum_{i=1}^n w_i \cdot \mathrm{sgn}(\epsilon_i)-P(\epsilon_i) R ( p + ϵ , p ) = i = 1 ∑ n w i ⋅ sgn ( ϵ i ) − P ( ϵ i ) 即使我们有假设 P ( ϵ ) P(\boldsymbol{\epsilon}) P ( ϵ ) 在 ϵ → 0 \boldsymbol{\epsilon} \rightarrow 0 ϵ → 0 时连续且 P ( ϵ ) → 0 P(\boldsymbol{\epsilon}) \rightarrow 0 P ( ϵ ) → 0 ,R R R 在 p \mathbf{p} p 附近的取值也取决于每个 ϵ i \epsilon_i ϵ i 的符号.
我画了一个 Δ 3 \Delta_3 Δ 3 上 R ( p + ϵ , p ) R(\mathbf{p}+\boldsymbol\epsilon, \mathbf{p}) R ( p + ϵ , p ) 的示意图,可以看到沿着不同方向,得分会跳变.
Relative score on Δ₃
一开始我也认为为胜率或许并不连续,不过一天多之后我找到了证明思路.要证明胜率变化的连续性,其实我们只需要关注获胜区域的变化,也就是与 p \mathbf{p} p 相比,p + ϵ \mathbf{p}+\boldsymbol{\epsilon} p + ϵ 会获胜的“面积”的变化.
接下来我要宣称,从 p \mathbf{p} p 到 p + ϵ \mathbf{p}+\boldsymbol{\epsilon} p + ϵ ,胜负会变化的点,全部 落在某个特定区域内.
让我们固定其他分量,只看某一个维度的变化.我们将 p \mathbf{p} p 点所有会获胜的区域投影到第 i i i 轴,它可能长这样:
Projection
对于 inf α i > max ( p i , p i + ϵ i ) \inf \alpha_i \gt \max(p_i, p_i+\epsilon_i) inf α i > max ( p i , p i + ϵ i ) 的区域来说,第 i i i 轴增加的一点并不足以让 p \mathbf{p} p 获胜拿到得分 w i w_i w i 对于 sup β i < min ( p i , p i + ϵ i ) \sup \beta_i \lt \min(p_i, p_i+\epsilon_i) sup β i < min ( p i , p i + ϵ i ) 的区域来说,第 i i i 轴本身就会拿到对应的得分 w i w_i w i ,也不会影响胜负 实际上如果 ϵ i > 0 \epsilon_i>0 ϵ i > 0 ,那么当 p \mathbf{p} p 的分量 p i p_i p i 增加到 p i + ϵ i p_i + \epsilon_i p i + ϵ i 时,只有那些在 [ p i , p i + ϵ i ] [p_i, p_i + \epsilon_i] [ p i , p i + ϵ i ] 区域内的点才有可能由扭负为正(或者平局),增加胜利区域的大小.同样地,若 ϵ i < 0 \epsilon_i<0 ϵ i < 0 ,那么只有 [ p i − ϵ i , p i ] [p_i - \epsilon_i, p_i] [ p i − ϵ i , p i ] 区域内的点才可能减少胜利区域.
Proposition 1 : If R ( p , u ) ≠ R ( p + ϵ , u ) R(\mathbf{p}, \mathbf{u}) \neq R(\mathbf{p}+\boldsymbol{\epsilon}, \mathbf{u}) R ( p , u ) = R ( p + ϵ , u ) for a fixed p \mathbf{p} p and P ( ϵ i ) < w i P(\epsilon_i)<w_i P ( ϵ i ) < w i , then u ∈ ∏ i = 1 n [ p i , p i + ϵ i ) \mathbf{u} \in \prod_{i=1}^n [p_i, p_i+\epsilon_i) u ∈ ∏ i = 1 n [ p i , p i + ϵ i ) .
我们记
I + = { i ∣ ϵ i > 0 } I^+ = \{i \mid \epsilon_i > 0\} I + = { i ∣ ϵ i > 0 } 为所有 ϵ i \epsilon_i ϵ i 大于 0 的下标 i i i 的集合I − = { i ∣ ϵ i < 0 } I^- = \{i \mid \epsilon_i < 0\} I − = { i ∣ ϵ i < 0 } 为所有 ϵ i \epsilon_i ϵ i 小于 0 的下标 i i i 的集合V p = { u ∣ R ( p , u ) > 0 } \mathcal{V}_p = \{\mathbf{u} \mid R(\mathbf{p}, \mathbf{u})>0\} V p = { u ∣ R ( p , u ) > 0 } 为 p \mathbf{p} p 会获胜的集合V p + ϵ = { u ∣ R ( p + ϵ , u ) > 0 } \mathcal{V}_{p+\epsilon} = \{\mathbf{u} \mid R(\mathbf{p+\boldsymbol\epsilon}, \mathbf{u})>0\} V p + ϵ = { u ∣ R ( p + ϵ , u ) > 0 } 为 p + ϵ \mathbf{p}+\boldsymbol{\epsilon} p + ϵ 会获胜的集合V i + = Δ n ∩ ( R i − 1 × [ p i , p i + ϵ i ) × R n − i − 1 ) , i ∈ I + \mathcal{V}_i^+ = \Delta_n \cap (\mathbb{R}^{i-1} \times [p_i, p_i + \epsilon_i) \times \mathbb{R}^{n-i-1}), i \in I^+ V i + = Δ n ∩ ( R i − 1 × [ p i , p i + ϵ i ) × R n − i − 1 ) , i ∈ I + 为新增的获胜的点一定会落在的区域V i − = Δ n ∩ ( R i − 1 × ( p i + ϵ i , p i ] × R n − i − 1 ) , i ∈ I − \mathcal{V}_i^- = \Delta_n \cap (\mathbb{R}^{i-1} \times (p_i + \epsilon_i, p_i] \times \mathbb{R}^{n-i-1}), i \in I^- V i − = Δ n ∩ ( R i − 1 × ( p i + ϵ i , p i ] × R n − i − 1 ) , i ∈ I − 为减少的获胜的点一定会落在的区域那么获胜概率的变化为:
W ( p + ϵ ) − W ( p ) = ∫ V p + ϵ f ( u ) d u − ∫ V p f ( u ) d u = ∫ V p + ϵ ∖ V p f ( u ) d u + ∫ V p + ϵ ∩ V p f ( u ) d u − ∫ V p ∖ V p + ϵ f ( u ) d u − ∫ V p + ϵ ∩ V p f ( u ) d u = ∫ V p + ϵ ∖ V p f ( u ) d u − ∫ V p ∖ V p + ϵ f ( u ) d u = ∫ ⋃ i ∈ I + ( V p + ϵ ∩ V i + ) f ( u ) d u − ∫ ⋃ i ∈ I − ( V p + ϵ ∩ V i − ) f ( u ) d u \begin{align} W(\mathbf{p}+\boldsymbol\epsilon) - W(\mathbf{p})=& \int_{\mathcal{V}_{p+\epsilon}} f(\mathbf{u})d\mathbf{u} - \int_{\mathcal{V}_{p}} f(\mathbf{u})d\mathbf{u}\\ =& \int_{\mathcal{V}_{p+\epsilon}\setminus \mathcal{V}_{p}} f(\mathbf{u})d\mathbf{u} + \int_{\mathcal{V}_{p+\epsilon} \cap \mathcal{V}_{p}} f(\mathbf{u})d\mathbf{u}\\ &- \int_{\mathcal{V}_{p}\setminus \mathcal{V}_{p+\epsilon}} f(\mathbf{u})d\mathbf{u} - \int_{\mathcal{V}_{p+\epsilon} \cap \mathcal{V}_{p}} f(\mathbf{u})d\mathbf{u}\notag\\ =& \int_{\mathcal{V}_{p+\epsilon}\setminus \mathcal{V}_{p}} f(\mathbf{u})d\mathbf{u} - \int_{\mathcal{V}_{p}\setminus \mathcal{V}_{p+\epsilon}} f(\mathbf{u})d\mathbf{u}\\ =&\int_{\bigcup_{i \in I^+}(\mathcal{V}_{p+\epsilon}\cap\mathcal{V}_i^+)} f(\mathbf{u})d\mathbf{u} - \int_{\bigcup_{i \in I^-}(\mathcal{V}_{p+\epsilon}\cap\mathcal{V}_i^-)} f(\mathbf{u})d\mathbf{u}\\ \end{align} W ( p + ϵ ) − W ( p ) = = = = ∫ V p + ϵ f ( u ) d u − ∫ V p f ( u ) d u ∫ V p + ϵ ∖ V p f ( u ) d u + ∫ V p + ϵ ∩ V p f ( u ) d u − ∫ V p ∖ V p + ϵ f ( u ) d u − ∫ V p + ϵ ∩ V p f ( u ) d u ∫ V p + ϵ ∖ V p f ( u ) d u − ∫ V p ∖ V p + ϵ f ( u ) d u ∫ ⋃ i ∈ I + ( V p + ϵ ∩ V i + ) f ( u ) d u − ∫ ⋃ i ∈ I − ( V p + ϵ ∩ V i − ) f ( u ) d u ( 2 ) (2) ( 2 ) 由积分的可数可加性,即对互不相交的一族集合 S i S_i S i 有 ∫ ⋃ S i f d μ = ∑ ∫ S i f d μ \int_{\bigcup S_i} f d\mu = \sum \int_{S_i} f d\mu ∫ ⋃ S i fd μ = ∑ ∫ S i fd μ 和一个简单的事实 X = ( X ∖ Y ) ∪ ( X ∩ Y ) X = (X \setminus Y) \cup (X \cap Y) X = ( X ∖ Y ) ∪ ( X ∩ Y ) .
( 3 ) (3) ( 3 ) 由 ( 2 ) (2) ( 2 ) 消去 V p \mathcal{V}_p V p 与 V p + ϵ \mathcal{V}_{p+\epsilon} V p + ϵ 相交的部分,即胜负没有发生变化的区域.这基本是在说,胜利区域的变化 = 新增的胜利区域 - 减少的胜利区域.
( 4 ) (4) ( 4 ) 由 Proposition 1 ,胜负会变化的点一定落在这些区域内.并且我们已知,这两个区域不相交.
我们来单独看其中一部分:
∫ ⋃ i ∈ I + ( V p + ϵ ∩ V i + ) f ( u ) d u = ∑ i ∈ I + ∫ V p + ϵ ∩ V i + f ( u ) d u ≤ ∑ i ∈ I + ∫ V i + f ( u ) d u = ∑ i ∈ I + ∫ V i + d u V o l ( Δ n ) = ∑ i ∈ I + V o l ( V i + ) V o l ( Δ n ) = 1 V o l ( Δ n ) ∑ i ∈ I + ∫ p i p i + ϵ i ( 1 − p ) n − 1 ⋅ V o l ( Δ n − 1 ) d p = V o l ( Δ n − 1 ) V o l ( Δ n ) ∑ i ∈ I + ∫ p i p i + ϵ i ( 1 − p ) n − 1 d p = V o l ( Δ n − 1 ) V o l ( Δ n ) ∑ i ∈ I + ( − ( 1 − p ) n n ) ∣ p i p i + ϵ i \begin{align} \int_{\bigcup_{i \in I^+}(\mathcal{V}_{p+\epsilon}\cap\mathcal{V}_i^+)} f(\mathbf{u})d\mathbf{u} =& \sum_{i \in I^+} \int_{\mathcal{V}_{p+\epsilon}\cap\mathcal{V}_i^+} f(\mathbf{u})d\mathbf{u}\\ \leq& \sum_{i \in I^+} \int_{\mathcal{V}_i^+} f(\mathbf{u})d\mathbf{u}\\ =& \sum_{i \in I^+} \int_{\mathcal{V}_i^+} \frac{d\mathbf{u}}{\mathrm{Vol}(\Delta_n)} \\ =& \sum_{i \in I^+} \frac{\mathrm{Vol}(\mathcal{V}_i^+)}{\mathrm{Vol}(\Delta_n)} \\ =& \frac{1}{\mathrm{Vol}(\Delta_n)} \sum_{i \in I^+} \int_{p_i}^{p_i+\epsilon_i} (1-p)^{n-1} \cdot \mathrm{Vol}(\Delta_{n-1})dp \\ =& \frac{\mathrm{Vol}(\Delta_{n-1})}{\mathrm{Vol}(\Delta_n)} \sum_{i \in I^+} \int_{p_i}^{p_i+\epsilon_i} (1-p)^{n-1} dp\\ =& \frac{\mathrm{Vol}(\Delta_{n-1})}{\mathrm{Vol}(\Delta_n)} \sum_{i \in I^+} \left(-\frac{(1-p)^{n}}{n}\right) \bigg\vert_{p_i}^{p_i+\epsilon_i} \end{align} ∫ ⋃ i ∈ I + ( V p + ϵ ∩ V i + ) f ( u ) d u = ≤ = = = = = i ∈ I + ∑ ∫ V p + ϵ ∩ V i + f ( u ) d u i ∈ I + ∑ ∫ V i + f ( u ) d u i ∈ I + ∑ ∫ V i + Vol ( Δ n ) d u i ∈ I + ∑ Vol ( Δ n ) Vol ( V i + ) Vol ( Δ n ) 1 i ∈ I + ∑ ∫ p i p i + ϵ i ( 1 − p ) n − 1 ⋅ Vol ( Δ n − 1 ) d p Vol ( Δ n ) Vol ( Δ n − 1 ) i ∈ I + ∑ ∫ p i p i + ϵ i ( 1 − p ) n − 1 d p Vol ( Δ n ) Vol ( Δ n − 1 ) i ∈ I + ∑ ( − n ( 1 − p ) n ) p i p i + ϵ i ( 5 ) (5) ( 5 ) 再次使用积分的可数可加性.
( 6 ) (6) ( 6 ) 我们对积分进行一个缩放,由于 f ( u ) ≥ 0 f(\mathbf{u}) \geq 0 f ( u ) ≥ 0 ,这个不等式自然成立.
( 7 ) (7) ( 7 ) 由 f ( u ) = 1 / V o l ( Δ n ) f(\mathbf{u}) = {1}/{\mathrm{Vol}(\Delta_n)} f ( u ) = 1 / Vol ( Δ n ) 是 Δ n \Delta_n Δ n 上的均匀分布,其中 V o l ( Δ n ) \mathrm{Vol}(\Delta_n) Vol ( Δ n ) 为 n 维单位单纯形 Δ n \Delta_n Δ n 的体积.
( 8 ) (8) ( 8 ) 由 V i + = Δ n ∩ ( R i − 1 × [ p i , p i + ϵ i ) × R n − i ) \mathcal{V}_i^+ = \Delta_n \cap (\mathbb{R}^{i-1} \times [p_i, p_i + \epsilon_i) \times \mathbb{R}^{n-i}) V i + = Δ n ∩ ( R i − 1 × [ p i , p i + ϵ i ) × R n − i ) ,它是一个 n n n 维超“三棱台”(等腰梯形、等腰三棱台、等腰四面体台...),而它的上下底正是分量之合分别为 p i p_i p i 和 p i + ϵ i p_i+\epsilon_i p i + ϵ i 的 n − 1 n-1 n − 1 单纯形.
( 9 ) (9) ( 9 ) 提取出常量 V o l ( Δ n − 1 ) \mathrm{Vol}(\Delta_{n-1}) Vol ( Δ n − 1 ) . ( 10 ) (10) ( 10 ) 简单的积分.
同理我们有
∫ ⋃ i ∈ I ( V p + ϵ ∩ V i − ) f ( u ) d u ≤ V o l ( Δ n − 1 ) V o l ( Δ n ) ∑ i ∈ I − ( − ( 1 − p ) n n ) ∣ p i + ϵ i p i \int_{\bigcup_{i \in I}(\mathcal{V}_{p+\epsilon}\cap\mathcal{V}_i^-)} f(\mathbf{u})d\mathbf{u} \leq \frac{\mathrm{Vol}(\Delta_{n-1})}{\mathrm{Vol}(\Delta_n)} \sum_{i \in I^-} \left(-\frac{(1-p)^{n}}{n}\right) \bigg\vert_{p_i+\epsilon_i}^{p_i} ∫ ⋃ i ∈ I ( V p + ϵ ∩ V i − ) f ( u ) d u ≤ Vol ( Δ n ) Vol ( Δ n − 1 ) i ∈ I − ∑ ( − n ( 1 − p ) n ) p i + ϵ i p i 并且由于 ∣ a − b ∣ ≤ ∣ a ∣ + ∣ b ∣ |a-b| \leq |a|+|b| ∣ a − b ∣ ≤ ∣ a ∣ + ∣ b ∣ ,我们可以得到胜率变化的上界
∣ W ( p + ϵ ) − W ( p ) ∣ ≤ V o l ( Δ n − 1 ) V o l ( Δ n ) ( ∣ ∑ i ∈ I + ( − ( 1 − p ) n n ) ∣ p i p i + ϵ i ∣ + ∣ ∑ i ∈ I − ( − ( 1 − p ) n n ) ∣ p i + ϵ i p i ∣ ) = n + 1 n ( ∣ ∑ i ∈ I + ( 1 − p ) n ∣ p i p i + ϵ i ∣ + ∣ ∑ i ∈ I − ( 1 − p ) n ∣ p i + ϵ i p i ∣ ) \begin{align} |W(\mathbf{p}+\boldsymbol\epsilon) - W(\mathbf{p})| \leq& \frac{\mathrm{Vol}(\Delta_{n-1})}{\mathrm{Vol}(\Delta_n)} \left(\left|\sum_{i \in I^+} \left(-\frac{(1-p)^{n}}{n}\right) \bigg\vert_{p_i}^{p_i+\epsilon_i}\right| + \left|\sum_{i \in I^-} \left(-\frac{(1-p)^{n}}{n}\right) \bigg\vert_{p_i+\epsilon_i}^{p_i}\right|\right) \\ =& \frac{n+1}{n} \left(\left|\sum_{i \in I^+} {(1-p)^{n}} \big\vert_{p_i}^{p_i+\epsilon_i}\right| + \left|\sum_{i \in I^-} {(1-p)^{n}} \big\vert_{p_i+\epsilon_i}^{p_i}\right|\right)\\ \end{align} ∣ W ( p + ϵ ) − W ( p ) ∣ ≤ = Vol ( Δ n ) Vol ( Δ n − 1 ) ( i ∈ I + ∑ ( − n ( 1 − p ) n ) p i p i + ϵ i + i ∈ I − ∑ ( − n ( 1 − p ) n ) p i + ϵ i p i ) n n + 1 ( i ∈ I + ∑ ( 1 − p ) n p i p i + ϵ i + i ∈ I − ∑ ( 1 − p ) n p i + ϵ i p i ) 右侧是一个关于 p i p_i p i 和 ϵ i \epsilon_i ϵ i 的多项式,在 ϵ → 0 \boldsymbol\epsilon \rightarrow 0 ϵ → 0 时也收敛于 0 0 0
∀ δ > 0 , ∃ ϵ , s.t. ∣ W ( p + ϵ ) − W ( p ) ∣ < δ . \forall \delta > 0, \exists \, \boldsymbol{\epsilon}, \text{ s.t. } |W(\mathbf{p} + \boldsymbol{\epsilon}) - W(\mathbf{p})| < \delta. ∀ δ > 0 , ∃ ϵ , s.t. ∣ W ( p + ϵ ) − W ( p ) ∣ < δ . 由于 p \mathbf{p} p 是 Δ n \Delta_n Δ n 上任意一点,W W W 在 Δ n \Delta_n Δ n 上连续,Q.E.D..
至此我们已经证明了对任意有限 n n n 和随机选择布置兵力的对手,连续 Blotto Game 的胜率函数都是连续的.注意 n = ∞ n = \infty n = ∞ 的情况并不成立,因为无穷维上的均匀分布并不是良好定义的,并且也没有非平凡的 Lebesgue 测度.
当然这个结论对任意可以对有界 PDF 有效,只需要在证明过程保留 f ( u ) f(\mathbf{u}) f ( u ) 并且令 f ( u ) = 0 when u ∉ d o m f f(\mathbf{u}) = 0 \text{ when } \mathbf{u} \notin \mathrm{dom}f f ( u ) = 0 when u ∈ / dom f .
那么原本的题目 (离散 Blotto Game) 呢?直觉上来说我们只需要将总兵力作为单位 1 1 1 ,在连续 Blotto Game 上寻找极值点,然后再取整到附近的数字,应该就可以得到一个胜率相对较高的解.由上面的不等式可知,对 ϵ i ≤ 0.005 \epsilon_i \leq 0.005 ϵ i ≤ 0.005 ,
∣ W ( p + ϵ ) − W ( p ) ∣ ≤ 11 10 ∑ i = 1 10 ∣ ( 1 − p ) 10 ∣ p i p i + ϵ i ∣ ≤ 11 10 ∑ i = 1 10 ∣ ( 0.995 − p i ) 10 − ( 1 − p i ) 10 ∣ ≈ 11 10 ∑ i = 1 10 ∣ − 0.0489 + 0.441 p i − 1.769 p i 2 + 4.138 p i 3 + O ( p i 4 ) ∣ ⪅ 53.78 % \begin{align*} |W(\mathbf{p}+\boldsymbol\epsilon) - W(\mathbf{p})| \leq& \frac{11}{10} \sum_{i=1}^{10} \left|{(1-p)^{10}} \big\vert_{p_i}^{p_i+\epsilon_i}\right| \\ \leq& \frac{11}{10} \sum_{i=1}^{10} \left|{(0.995-p_i)^{10}} - (1-p_i)^{10}\right| \\ \approx& \frac{11}{10} \sum_{i=1}^{10} |-0.0489+0.441p_i-1.769p_i^2+4.138p_i^3+\mathcal{O}(p_i^4)| \\[8pt] \lessapprox&\text{ }53.78\% \end{align*} ∣ W ( p + ϵ ) − W ( p ) ∣ ≤ ≤ ≈ ⪅ 10 11 i = 1 ∑ 10 ( 1 − p ) 10 p i p i + ϵ i 10 11 i = 1 ∑ 10 ( 0.995 − p i ) 10 − ( 1 − p i ) 10 10 11 i = 1 ∑ 10 ∣ − 0.0489 + 0.441 p i − 1.769 p i 2 + 4.138 p i 3 + O ( p i 4 ) ∣ 53.78% 你的不等式十分紧致,但是又相当松弛.
私密马赛,我们还得找到一个更精细的上界.问题出在 ∣ a − b ∣ ≤ ∣ a ∣ + ∣ b ∣ |a-b| \leq |a|+|b| ∣ a − b ∣ ≤ ∣ a ∣ + ∣ b ∣ 上,这个不等式过于松弛,让我们回到把绝对值加到每一项上之前的状态:
∣ W ( p + ϵ ) − W ( p ) ∣ ≤ 11 10 ∣ ∑ i = 1 10 − ( 1 − p ) 10 ∣ p i p i + ϵ i ∣ \begin{align*} |W(\mathbf{p}+\boldsymbol\epsilon) - W(\mathbf{p})| \leq& \frac{11}{10} \left|\sum_{i=1}^{10} -{(1-p)^{10}} \big\vert_{p_i}^{p_i+\epsilon_i}\right| \\ \end{align*} ∣ W ( p + ϵ ) − W ( p ) ∣ ≤ 10 11 i = 1 ∑ 10 − ( 1 − p ) 10 p i p i + ϵ i 这里有一个直观的意义:− ( 1 − p ) 10 ∣ p i p i + ϵ i -{(1-p)^{10}} \big\vert_{p_i}^{p_i+\epsilon_i} − ( 1 − p ) 10 p i p i + ϵ i 是 f ( x ) = ( 1 − x ) 11 11 f(x)=\frac{(1-x)^{11}}{11} f ( x ) = 11 ( 1 − x ) 11 在 x = p i x=p_i x = p i 到 x = p i + ϵ i x=p_i+\epsilon_i x = p i + ϵ i 的斜率.如果这个函数二阶导数为 0 0 0 ,那么绝对值内部的每一项都会抵消,因为 ∑ i = 1 10 ϵ i = 0 \sum_{i=1}^{10} \epsilon_i = 0 ∑ i = 1 10 ϵ i = 0 .而这个函数是凸的,左侧的斜率小于右侧,求和的绝对值才不为 0 0 0 .
计算一下每一项对 p i p_i p i 的导数:
∂ ( ( 1 − p i ) 10 − ( 1 − p i − ϵ i ) 10 ) ∂ p i = 10 ( 1 − p i − ϵ i ) 9 − 10 ( 1 − p i ) 9 \frac{\partial \left( (1-p_i)^{10}-(1-p_i-\epsilon_i)^{10} \right)}{\partial p_i} = 10(1-p_i-\epsilon_i)^9-10(1-p_i)^9 ∂ p i ∂ ( ( 1 − p i ) 10 − ( 1 − p i − ϵ i ) 10 ) = 10 ( 1 − p i − ϵ i ) 9 − 10 ( 1 − p i ) 9 符号与 ϵ i \epsilon_i ϵ i 有关.也就是说要让不等式右边绝对值内的求和最大,i ∈ I + i \in I^+ i ∈ I + 的 p i p_i p i 要尽可能小,i ∈ I − i \in I^- i ∈ I − 的 p i p_i p i 要尽可能大.我们取最极端的情况,p i = 0 , i ∈ I + p_i = 0, i \in I^+ p i = 0 , i ∈ I + 和 ∑ i ∈ I − p i = 1 \sum_{i \in I^-} p_i = 1 ∑ i ∈ I − p i = 1 .
而 ϵ i \epsilon_i ϵ i 这边只需要绝对值越大越好(p i + ϵ i p_i + \epsilon_i p i + ϵ i 离 p i p_i p i 越远则斜率越大),但要同时满足 ∑ i = 1 10 ϵ i = 0 \sum_{i=1}^{10} \epsilon_i = 0 ∑ i = 1 10 ϵ i = 0 ,其实我们只有 5 5 5 个 0.005 0.005 0.005 + 5 5 5 个 − 0.005 -0.005 − 0.005 这个选择.于是估计的一个更准确的胜率变化上界是 ≈ 20.75 % \approx 20.75\% ≈ 20.75% .此时 p = [ 0 , 0 , 0 , 0 , 0 , 0.2 , 0.2 , 0.2 , 0.2 , 0.2 ] \mathbf{p} = [0,0,0,0,0,0.2,0.2,0.2,0.2,0.2] p = [ 0 , 0 , 0 , 0 , 0 , 0.2 , 0.2 , 0.2 , 0.2 , 0.2 ] ,ϵ = [ 0.05 , 0.05 , 0.05 , 0.05 , 0.05 , − 0.05 , − 0.05 , − 0.05 , − 0.05 , − 0.05 ] \boldsymbol{\epsilon} = [0.05,0.05,0.05,0.05,0.05,-0.05,-0.05,-0.05,-0.05,-0.05] ϵ = [ 0.05 , 0.05 , 0.05 , 0.05 , 0.05 , − 0.05 , − 0.05 , − 0.05 , − 0.05 , − 0.05 ] .
不过「胜率最高点」附近的胜率变化可能不会如此陡峭,在 p = [ 0.1 , 0.1 , 0.1 , 0.1 , 0.1 , 0.1 , 0.1 , 0.1 , 0.1 , 0.1 ] \mathbf{p} = [0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1] p = [ 0.1 , 0.1 , 0.1 , 0.1 , 0.1 , 0.1 , 0.1 , 0.1 , 0.1 , 0.1 ] 附近,胜率变化的上界 ≈ 1.04 % \approx 1.04\% ≈ 1.04% ,直接取整带来的胜率变化并不如在边界那么明显(因为 n n n 维球的体积主要集中在边界上),朝不同方向多次取整取胜率最大值或许还能让胜率变化更小一点,这个计算方式应该还是相对安全的(roughly).
不过这是一个博弈,我们还需要估计对手类型的分布.我们可以很容易得到胜率的链式法则:
Theorem 2 : For a two-player continuous blotto game with bounded probability density function f f f of opponent, the win chance W f W_f W f against f f f satisfies chain rule W p ∘ ( f 1 , . . . f n ) ( u ) = ∑ i = 1 n p i W f i ( u ) W_{\mathbf{p}\circ(f_1,...f_n)}(\mathbf{u}) = \sum_{i=1}^{n} p_i W_{f_i}(\mathbf{u}) W p ∘ ( f 1 , ... f n ) ( u ) = ∑ i = 1 n p i W f i ( u ) for all p ∈ Δ n \mathbf{p} \in \Delta_n p ∈ Δ n .
Proof :
W p ∘ ( f 1 , . . . f n ) ( u ) = ∫ R ( u , v ) > 0 ( p ∘ ( f 1 , . . . f n ) ) ( v ) d v = ∫ R ( u , v ) > 0 ∑ i = 1 n p i f i ( v ) d v = ∑ i = 1 n ∫ R ( u , v ) > 0 p i f i ( v ) d v = ∑ i = 1 n p i W f i ( u ) \begin{align} W_{\mathbf{p}\circ(f_1,...f_n)}(\mathbf{u}) =& \int_{R(\mathbf{u}, \mathbf{v})>0} (\mathbf{p}\circ(f_1,...f_n))(\mathbf{v})d\mathbf{v} \\ =& \int_{R(\mathbf{u}, \mathbf{v})>0} \sum_{i=1}^{n} p_i f_i(\mathbf{v})d\mathbf{v} \\ =& \sum_{i=1}^{n} \int_{R(\mathbf{u}, \mathbf{v})>0} p_i f_i(\mathbf{v}) d\mathbf{v} \\ =& \sum_{i=1}^{n} p_i W_{f_i}(\mathbf{u}) \end{align} W p ∘ ( f 1 , ... f n ) ( u ) = = = = ∫ R ( u , v ) > 0 ( p ∘ ( f 1 , ... f n )) ( v ) d v ∫ R ( u , v ) > 0 i = 1 ∑ n p i f i ( v ) d v i = 1 ∑ n ∫ R ( u , v ) > 0 p i f i ( v ) d v i = 1 ∑ n p i W f i ( u ) ( 16 ) (16) ( 16 ) The interchange of integral and sum holds due to Tonelli's theorem.
Remark 2 : It applies to discrete and mixed distributions as we change the integral to sum.
比如我们可以假设有 50% 的人会靠直觉在每个城堡都布置一点兵力,兵力分布与城堡分数正相关;30% 的人会考虑到第一层,利用某种算法得到胜率的一些极值点附近的区域;15% 的人会考虑到有聪明的对手和不太聪明的对手;还有 5% 的人会或许会出奇招梭哈赌一把.最终面对所有对手的胜率会是单独面对各类对手的胜率的简单线性组合.
那么期望得分呢?
E [ S ( p ) ] = ∫ Δ n S ( p , u ) f ( u ) d u \mathbb{E}[S(\mathbf{p})] = \int_{\Delta_n} S(\mathbf{p}, \mathbf{u})f(\mathbf{u})d\mathbf{u} E [ S ( p )] = ∫ Δ n S ( p , u ) f ( u ) d u 我们有 ∀ w i > 0 , ∃ ϵ , P ( ϵ i ) < w i \forall w_i > 0\text{, }\exists\boldsymbol{\epsilon}\text{, } P(\epsilon_i) < w_i ∀ w i > 0 , ∃ ϵ , P ( ϵ i ) < w i 且
E [ S ( p + ϵ ) ] − E [ S ( p ) ] = ∫ Δ n S ( p + ϵ , u ) f ( u ) d u − ∫ Δ n S ( p , u ) f ( u ) d u = ∫ Δ n ( S ( p + ϵ , u ) − S ( p , u ) ) f ( u ) d u = ∫ ∏ i = 1 n [ p i , p i + ϵ i ) ( S ( p + ϵ , u ) − S ( p , u ) ) f ( u ) d u + ∫ Δ n ∖ ( ∏ i = 1 n [ p i , p i + ϵ i ) ) ( S ( p + ϵ , u ) − S ( p , u ) ) f ( u ) d u ≤ ∫ ∏ i = 1 n [ p i , p i + ϵ i ) max S f ( u ) d u \begin{align} \mathbb{E}[S(\mathbf{p}+\boldsymbol\epsilon)] - \mathbb{E}[S(\mathbf{p})] =& \int_{\Delta_n} S(\mathbf{p}+\boldsymbol\epsilon, \mathbf{u})f(\mathbf{u})d\mathbf{u} -\int_{\Delta_n} S(\mathbf{p}, \mathbf{u})f(\mathbf{u})d\mathbf{u} \\ =& \int_{\Delta_n} (S(\mathbf{p}+\boldsymbol\epsilon, \mathbf{u})-S(\mathbf{p}, \mathbf{u})) f(\mathbf{u})d\mathbf{u} \\ =& \int_{\prod_{i=1}^n [p_i, p_i+\epsilon_i)} (S(\mathbf{p}+\boldsymbol\epsilon, \mathbf{u})-S(\mathbf{p}, \mathbf{u}))f(\mathbf{u})d\mathbf{u} \\ &+ \int_{\Delta_n\setminus(\prod_{i=1}^n [p_i, p_i+\epsilon_i))} (S(\mathbf{p}+\boldsymbol\epsilon, \mathbf{u})-S(\mathbf{p}, \mathbf{u}))f(\mathbf{u})d\mathbf{u} \\ \leq& \int_{\prod_{i=1}^n [p_i, p_i+\epsilon_i)} \max{S}f(\mathbf{u})d\mathbf{u} \\ \end{align} E [ S ( p + ϵ )] − E [ S ( p )] = = = ≤ ∫ Δ n S ( p + ϵ , u ) f ( u ) d u − ∫ Δ n S ( p , u ) f ( u ) d u ∫ Δ n ( S ( p + ϵ , u ) − S ( p , u )) f ( u ) d u ∫ ∏ i = 1 n [ p i , p i + ϵ i ) ( S ( p + ϵ , u ) − S ( p , u )) f ( u ) d u + ∫ Δ n ∖ ( ∏ i = 1 n [ p i , p i + ϵ i )) ( S ( p + ϵ , u ) − S ( p , u )) f ( u ) d u ∫ ∏ i = 1 n [ p i , p i + ϵ i ) max S f ( u ) d u ( 22 ) (22) ( 22 ) 由 Proposition 1 Δ n ∖ ( ∏ i = 1 n [ p i , p i + ϵ i ) ) \Delta_n\setminus\big(\prod_{i=1}^n [p_i, p_i+\epsilon_i)\big) Δ n ∖ ( ∏ i = 1 n [ p i , p i + ϵ i ) ) 区域中得分不会发生改变,即 S ( p + ϵ , u ) − S ( p , u ) = 0 S(\mathbf{p}+\boldsymbol\epsilon, \mathbf{u})-S(\mathbf{p}, \mathbf{u}) = 0 S ( p + ϵ , u ) − S ( p , u ) = 0 . 而 m a x S \mathrm{max}S max S 的存在性由 S i S_i S i 的连续性+极值定理保证.
当然也是连续的.美丽!
“色魔啊色魔,你又作伪证了! ”色魔刚把文章发出来,所有喝酒的人便都看著他笑. 色魔瞪大眼睛:“你怎么这样凭空污人清白!”“什么清白?我亲眼见你在 R n \mathbb{R}^n R n 上算 Lebesgue 积分不考虑 well-definess,被人吊着打.”色魔便涨红了脸,额上的青筋条条绽出,争辩道:“显然可积…… 显然!…… 证明的大厦已经建成,只差一朵乌云飘在空中”又突然若有所悟,露出阴怨的神色:“你好狠毒的心……”
Indeed,我们需要证明,对任意 p ∈ Δ n \mathbf{p} \in \Delta_n p ∈ Δ n ,V + = { u ∣ R ( p , u ) > 0 , u ∈ Δ n } \mathcal{V}^+=\{\mathbf{u} \mid R(\mathbf{p}, \mathbf{u})>0, \mathbf{u} \in \Delta_n\} V + = { u ∣ R ( p , u ) > 0 , u ∈ Δ n } 是 Lebesgue measurable 的.否则分球悖论的幽灵在集合中徘徊,前面的东西都白证了(Though 我们没有使用选择公理构造这个集合).
我们还是把 V + \mathcal{V}^+ V + 投射到每个分量单独处理.在没有惩罚函数(i.e. P ( δ ) = 0 P(\delta) = 0 P ( δ ) = 0 ) 的情况下,第 i i i 个城堡得分只有两种可能,即
p i > u i , R i > 0 p_i>u_i, R_i>0 p i > u i , R i > 0 p i ≤ u i , R i = 0 p_i \leq u_i, R_i=0 p i ≤ u i , R i = 0 对每个分量 i i i 构造一个超平面将 Δ n \Delta_n Δ n 划分成两个区域 p i > u i p_i>u_i p i > u i 和 p i ≤ u i p_i \leq u_i p i ≤ u i ,那么至多会划分出 2 n 2^n 2 n 个区域,每个区域都是可测的(可数个可测集的笛卡尔积也是可测集,证明略),而获胜的区域是其中一部分的并,自然也是可测的.
在有惩罚函数的情况下,情况似乎会复杂一些.即使 p i > u i p_i>u_i p i > u i ,R i = S i ( p , u ) − S i ( u , p ) R_i = S_i(\mathbf{p}, \mathbf{u}) - S_i(\mathbf{u}, \mathbf{p}) R i = S i ( p , u ) − S i ( u , p ) = s g n ( p i − u i ) ( w i − P ( p i − u i ) ) =sgn(p_i-u_i)\left(w_i - P(p_i-u_i)\right) = s g n ( p i − u i ) ( w i − P ( p i − u i ) ) 也可能会 ≤ 0 \leq0 ≤ 0 .
但我们有假设 P ( δ ) P(\delta) P ( δ ) 连续,这意味着 R i R_i R i 也是连续的.Recall that, a function between topological spaces is continuous iff the preimage of an open set is an open set. 开集 ( 0 , ∞ ) (0,\infty) ( 0 , ∞ ) 的原像 R i − 1 ( p , u ) R_i^{-1}(\mathbf{p}, \mathbf{u}) R i − 1 ( p , u ) 也是开集1 .Lebesgue 可测有许多等价定义,我们选择用开集逼近:
A set E ⊆ R n E \subseteq \mathbb{R}^n E ⊆ R n is Lebesgue measurable if for every ϵ > 0 \epsilon > 0 ϵ > 0 , there exists an open set O O O such that:
E ⊆ O and m ∗ ( O ∖ E ) < ϵ E \subseteq O \quad \text{and} \quad m^*(O \setminus E) < \epsilon E ⊆ O and m ∗ ( O ∖ E ) < ϵ where m ∗ m^* m ∗ denotes the Lebesgue outer measure.
因为,平凡地,R n \mathbb{R}^n R n 上的任何开集可测.只需要选择开集 O = E O=E O = E ,Lebesgue 外测度 m ∗ ( O ∖ E ) = m ∗ ( ∅ ) = 0 < ϵ m^*(O \setminus E) = m^*(\emptyset) = 0 < \epsilon m ∗ ( O ∖ E ) = m ∗ ( ∅ ) = 0 < ϵ 2 .
接下来同样的,可数个可测集的笛卡尔积 ∏ i = 1 n R i − 1 ( p , u ) \prod_{i=1}^n R_i^{-1}(\mathbf{p}, \mathbf{u}) ∏ i = 1 n R i − 1 ( p , u ) 仍然可测.V + \mathcal{V}^+ V + is Lebesgue measurable, as required.