馬爾科夫不等式、霍夫丁不等式和詹森不等式,是機器學習中經常遇到的幾個概率不等式。本文對它們進行簡單介紹,並加以證明,然後對它們在機器學中的應用進行舉例說明。
主要內容包括:
一、馬爾科夫不等式(Markov’s Inequality)
- 定義
- 證明
- 應用
a.用於估計一個概率的上界,比如假設你所在公司的人均工資是1萬,那麼隨機選一個你司員工,其工資超過10萬的概率,不會超過1/10。
b.用於其他概率不等式的證明,比如下面的霍夫丁不等式。
二、霍夫丁不等式(Hoeffding’s Inequality)
霍夫丁不等式的證明,除瞭要用到上面的馬爾科夫不等式外,還要用到霍夫丁引理。因此,下面先介紹霍夫丁引理。
霍夫丁引理
- 定義
- 證明
霍夫丁不等式
- 定義
- 證明
- 應用
用於給出二分類問題的泛化誤差上界
三、詹森不等式(Jensen’s Inequality)
- 定義
- 證明
凸函數定義 + 歸納法
- 應用
四、小結
1. 有些公式裡很多變量沒給出來具體意義啊?
如果你已學過相關內容,這裡可以幫助你回顧一下;如果你還沒學習相關內容,不必瞭解其中變量的具體含義,這裡重在形式推導。
2. 咦,那麼巧?概率統計中log和exp的函數形式如此常見(比如,對數似然函數、指數分佈族),而-log(x)和exp(x)剛好都是凸函數,可以各種使用詹森不等式。
NO,是因為-log(x)是凸函數,我們才對似然函數求對數,因為exp(x)是凸函數,我們才更喜歡用指數分佈族建模的。所以,那麼多的偶遇其實都是註定,因為那個他(她)早在那裡等你多時瞭!
瞭解更多推薦系統、大數據、機器學習、AI等硬核技術,可以關註我的知乎,或同名微信公眾號