如何在辦公室科學安全地摸魚？

搞瞭這麼久的AI安全對抗，也想聽老板腳步，保護自己（摸魚）~~~~~

我，一名勤勤懇懇、熱愛工作的鵝廠程序員。

最近我很苦惱，事關一次工位的搬遷——我的新工位，背後幾步開外就是老、板、辦、公、室！所以你永遠不知道大boss何時會出現在背後……感覺失去瞭快樂摸魚勞逸結合的日子。

打工人，摸魚魂，與其坐以待斃，不如努力自救。

思來想去，在背對過道、眼不能看的情況下，聲音成瞭一種寶貴的情報，精準掌握背後腳步聲，是將摸魚時間最大化的秘訣——如果能憑借腳步聲來判斷來人的行動蹤跡，豈不就能及時知道boss有沒有向我走來，從而實現優雅摸魚而不被發現瞭？

於是我有瞭個大膽的想法——利用AI，聽音辨蹤，科學摸魚。

我們知道，每個人走路都會有自己的習慣，而腳步聲則是體現這些細節的線索之一。

當人的腳步聲被收集起來並用AI模型訓練一番後，模型能夠憑借腳步聲信息，判斷目標的行動軌跡。

根據這個原理，首先在相對安靜的環境下采集瞭一批腳步聲數據。

這個過程中，被采集對象穿著運動鞋在木質地板上行走，步伐包括右腳直行、左腳直行、向左轉（以右腳為轉向支撐腳，轉向90度），向右轉（以左腳為轉向支撐腳，轉向90度），而且為瞭方便切割數據，每一步間隔0.5秒以上。

圖：單個腳步聲的波形圖

接著，利用音頻處理庫讀取音頻，將所得音頻數值標準化，並將其輸入一個3層全連接神經網絡進行訓練並測試，所得結果如下——

圖：3層全連接神經網絡測試結果

從初步實驗結果上看，準確率還有很大提升空間。為瞭探索更多可能性，這裡嘗試用開源模型進行embedding，對聲音文件進行特征提取，並將提取到的特征作為下遊模型的輸入。

為瞭便於觀察，這裡將同一類腳步聲（比如50個左轉的腳步聲音）所提特征並排放在一張圖中，圖中每個小圖代表瞭同一類腳步聲，每個小圖的一行代表對應腳步聲所提取的特征向量。

圖：通過embedding方式提取的四種腳步聲特征

把提取後的特征向量輸入全連接神經網絡進行訓練並測試，並去掉全部隱藏層後，得到瞭新的實驗結果。可以看到，相較於直接使用音頻信息，使用經過處理的音頻信息得到的實驗效果更佳。

圖：對embedding提取特征訓練的模型測試結果

通過以上實驗，基本上可確認利用AI進行腳步聲識別是可行的。為瞭進一步提升準確率，這裡對音頻數據特點進行分析，通過傅立葉變換將音頻這種時域信息轉化為頻域信息，從而得到頻譜圖。

圖：單個腳步聲的頻譜圖

在轉化為頻譜圖後，問題就轉化為瞭圖像識別問題。於是，這裡利用ResNet18模型建模並測試，發現實驗效果相比之前再次有瞭大幅提升，平均準確率達到90%以上。

圖：ResNet18模型測試結果

此外，還測試瞭通過對A（運動鞋）腳步聲建模後測試B（皮鞋）的走路聲音，準確率僅為30%，而且從皮鞋與運動鞋走路聲音的波形圖和頻譜圖上看，形狀差距較大。由此可知，模型單獨訓練一種腳步聲難以具備遷移性。

當然，影響模型判斷的實際因素有很多，比如鞋子與地面的材質、個人的走路習慣、周圍環境的雜音等。

雖然這項技術離落地應用還有很長一段距離，但通過這次輕量實驗可以驗證，通過腳步聲獲取個人行蹤信息，是具備技術可行性的。而且其應用場景也非常廣泛，往大瞭能實時探測戰場上敵軍的行蹤動向，往小瞭也能為辦公室摸魚保駕護航（狗頭保命）。

防杠聲明：本篇文章全程在上班摸魚時搞完！

快懂網