機器學習中常用的幾個概率不等式及證明

馬爾科夫不等式、霍夫丁不等式和詹森不等式，是機器學習中經常遇到的幾個概率不等式。本文對它們進行簡單介紹，並加以證明，然後對它們在機器學中的應用進行舉例說明。

主要內容包括：

一、馬爾科夫不等式（Markov’s Inequality）

a.用於估計一個概率的上界，比如假設你所在公司的人均工資是1萬，那麼隨機選一個你司員工，其工資超過10萬的概率，不會超過1/10。

b.用於其他概率不等式的證明，比如下面的霍夫丁不等式。

二、霍夫丁不等式（Hoeffding’s Inequality）

霍夫丁不等式的證明，除瞭要用到上面的馬爾科夫不等式外，還要用到霍夫丁引理。因此，下面先介紹霍夫丁引理。

霍夫丁引理

霍夫丁不等式

用於給出二分類問題的泛化誤差上界

三、詹森不等式（Jensen’s Inequality）

凸函數定義 + 歸納法

1. 有些公式裡很多變量沒給出來具體意義啊？

如果你已學過相關內容，這裡可以幫助你回顧一下；如果你還沒學習相關內容，不必瞭解其中變量的具體含義，這裡重在形式推導。

2. 咦，那麼巧？概率統計中log和exp的函數形式如此常見（比如，對數似然函數、指數分佈族），而-log(x)和exp(x)剛好都是凸函數，可以各種使用詹森不等式。

NO，是因為-log(x)是凸函數，我們才對似然函數求對數，因為exp(x)是凸函數，我們才更喜歡用指數分佈族建模的。所以，那麼多的偶遇其實都是註定，因為那個他（她）早在那裡等你多時瞭！

瞭解更多推薦系統、大數據、機器學習、AI等硬核技術，可以關註我的知乎，或同名微信公眾號

快懂網