搞瞭這麼久的AI安全對抗,也想聽老板腳步,保護自己(摸魚)~~~~~
我,一名勤勤懇懇、熱愛工作的鵝廠程序員。
最近我很苦惱,事關一次工位的搬遷——我的新工位,背後幾步開外就是老、板、辦、公、室!所以你永遠不知道大boss何時會出現在背後……感覺失去瞭快樂摸魚勞逸結合的日子。
打工人,摸魚魂,與其坐以待斃,不如努力自救。
思來想去,在背對過道、眼不能看的情況下,聲音成瞭一種寶貴的情報,精準掌握背後腳步聲,是將摸魚時間最大化的秘訣——如果能憑借腳步聲來判斷來人的行動蹤跡,豈不就能及時知道boss有沒有向我走來,從而實現優雅摸魚而不被發現瞭?
於是我有瞭個大膽的想法——利用AI,聽音辨蹤,科學摸魚。
我們知道,每個人走路都會有自己的習慣,而腳步聲則是體現這些細節的線索之一。
當人的腳步聲被收集起來並用AI模型訓練一番後,模型能夠憑借腳步聲信息,判斷目標的行動軌跡。
根據這個原理,首先在相對安靜的環境下采集瞭一批腳步聲數據。
這個過程中,被采集對象穿著運動鞋在木質地板上行走,步伐包括右腳直行、左腳直行、向左轉(以右腳為轉向支撐腳,轉向90度),向右轉(以左腳為轉向支撐腳,轉向90度),而且為瞭方便切割數據,每一步間隔0.5秒以上。
圖:單個腳步聲的波形圖
接著,利用音頻處理庫讀取音頻,將所得音頻數值標準化,並將其輸入一個3層全連接神經網絡進行訓練並測試,所得結果如下——
a2903f3f78d021a6e81be29fad4c31cb圖:3層全連接神經網絡測試結果
從初步實驗結果上看,準確率還有很大提升空間。為瞭探索更多可能性,這裡嘗試用開源模型進行embedding,對聲音文件進行特征提取,並將提取到的特征作為下遊模型的輸入。
為瞭便於觀察,這裡將同一類腳步聲(比如50個左轉的腳步聲音)所提特征並排放在一張圖中,圖中每個小圖代表瞭同一類腳步聲,每個小圖的一行代表對應腳步聲所提取的特征向量。
圖:通過embedding方式提取的四種腳步聲特征
把提取後的特征向量輸入全連接神經網絡進行訓練並測試,並去掉全部隱藏層後,得到瞭新的實驗結果。可以看到,相較於直接使用音頻信息,使用經過處理的音頻信息得到的實驗效果更佳。
7d8f305ed9ee6d32c82cf970ddae6836圖:對embedding提取特征訓練的模型測試結果
通過以上實驗,基本上可確認利用AI進行腳步聲識別是可行的。為瞭進一步提升準確率,這裡對音頻數據特點進行分析,通過傅立葉變換將音頻這種時域信息轉化為頻域信息,從而得到頻譜圖。
86b0012be26269490f295cf85b597764圖:單個腳步聲的頻譜圖
在轉化為頻譜圖後,問題就轉化為瞭圖像識別問題。於是,這裡利用ResNet18模型建模並測試,發現實驗效果相比之前再次有瞭大幅提升,平均準確率達到90%以上。
圖:ResNet18模型測試結果
此外,還測試瞭通過對A(運動鞋)腳步聲建模後測試B(皮鞋)的走路聲音,準確率僅為30%,而且從皮鞋與運動鞋走路聲音的波形圖和頻譜圖上看,形狀差距較大。由此可知,模型單獨訓練一種腳步聲難以具備遷移性。
當然,影響模型判斷的實際因素有很多,比如鞋子與地面的材質、個人的走路習慣、周圍環境的雜音等。
雖然這項技術離落地應用還有很長一段距離,但通過這次輕量實驗可以驗證,通過腳步聲獲取個人行蹤信息,是具備技術可行性的。而且其應用場景也非常廣泛,往大瞭能實時探測戰場上敵軍的行蹤動向,往小瞭也能為辦公室摸魚保駕護航(狗頭保命)。
防杠聲明:本篇文章全程在上班摸魚時搞完!
上一篇
下一篇