作者:井韶子
上述綜述部分主要引自同濟大學於玨、金倩雯、林裕鑫等《言語香蕉圖國內外研究回顧、評述及前瞻》一文,韶子有大幅刪減和修改。
言語香蕉圖的本質是言語信號在純音聽力圖上的頻譜-聽力級分佈,涉及到音頻采集、聲壓級計算、香蕉圖繪制三方面的工作,每個步驟均十分重要。
音頻采集的目的就是將聲能轉換成電信號,這一步驟通常是使用專業錄音設備中的話筒來完成的。話筒主要分為電容話筒和動圈話筒兩類,電容話筒采用振膜和充電基板,聲波使振膜產生震動,從而使電場發生變化產生電信號。動圈話筒采用振膜、音圈和磁體。音圈直接貼附在振膜後部,聲音令振膜產生震動時,音圈就在磁場中震動,從而產生電信號。
不同種類的話筒適用於不同的場景。由於電容話筒中沒有音圈,聲波隻需移動振膜即可產生電流,這使得電容話筒比動圈話筒有更好的高頻細節,因此電容話筒非常適合錄制弦樂、打擊樂、鋼琴或者拾取細節更豐富的人聲,並且更適用於對遠距離或安靜的聲源進行拾音。不過拾取非常大的聲音時可能會過載,所以使用電容話筒時要確認場景中聲源的最大聲壓級小於其量程。動圈話筒可以承載很大聲壓級的聲音而不超量程,但同時其靈敏度較低,因為聲波可能達不到推動振膜和音圈的能量,因此其不適合拾取距離較遠、較安靜的音源。
圖 1 心形指向話筒不同方位的拾音效果
不同的話筒有不同的指向性,如全指向、心形指向、超心形指向、雙指向(8字型)等。話筒指向性不僅影響其拾取聲源的方式,還影響其在特定房間或特定音響系統中的表現。話筒指向性圖表描述瞭它如何響應來自不同方向的聲音,我們應該最大限度地拾取所需的聲源,同時盡可能減小拾取背景噪音。如心形話筒對正前方的聲源有最良好的收音效果,對其他方向的聲源均有一定的減損,對背後的聲源的減損更是達到瞭-30dB。對於語音學研究來說,被試者往往是正對話筒的,而其他方向的噪聲則是越少越好,因此選擇心形指向的話筒更為有利。
話筒拾音的音質可以從其頻率響應曲線看出來。頻率響應曲線可以代表不同頻率分量所受到的增益和減損。由於人耳隻能聽到20Hz至20000Hz范圍內的聲音,因此話筒的頻率響應曲線的范圍也一般為20Hz至20000Hz。一個理想的拾音器應該在每個頻率都有一致的響應,它在頻率響應曲線中來看是一條恒等於0的直線(圖2上)。這種平坦響應的拾音器往往用於重現聲源而不給原始聲源潤色,如重現原聲吉他或鋼琴等樂器的音色;也常用於立體聲監聽技術、遠距離監聽技術和語音學研究。還有一類話筒的頻率響應曲線在某些頻率區域有高峰或低谷(圖2下)。這種響應是為瞭增強特定聲源的某些頻帶。如一個話筒可能在2KHz-10KHz范圍內有一個峰值,以提高人聲的清晰度或存在感;在50dB下有一個谷值,防止近講效應產生的低音累積。
盡管動圈式話筒和電容式話筒可能有類似的頻率響應曲線,但它們的音質可能有很大不同,這種差異的一個主要方面是它們的瞬態頻率響應,此處暫且不詳細展開。
179fe3af3990a9c6ea74630549a9aa11圖 2 不同話筒的頻率響應曲線
話筒將連接到的聲源和設備也會影響收音質量。換句話說,話筒不僅需要兼容聲學特性,還要兼容所使用的錄音設備或音響系統的電氣特性。如果不兼容,可能會遇到有噪聲、音量小、或者根本沒有聲音的問題。
與連接相關的電氣規格統稱為話筒的輸出特性,這些電器特征在語音學實驗中起著至關重要的作用,卻往往被語音學研究者所忽視。如果設備配置不正確,接下來的言語香蕉圖的制作也會受到幹擾甚至得出錯誤的結果。話筒的輸出特性主要有以下這些指標:
一、靈敏度
大多數話筒的靈敏度在94分貝的聲壓級(此時聲壓為1Pa)下進行測量,而靈敏度通常以VdB/Pa或V/Pa這樣的單位來表示,即1帕斯卡聲壓下產生的電平。數值越大話筒越靈敏,數值越小越不靈敏。假設傳入話筒的聲壓級相同,靈敏度更高的話筒,比不太靈敏的話筒輸出的電壓更高。如果在安靜的聲源上使用靈敏度較低的話筒,則需要調高音頻接口的輸入增益,以根據設備的安靜程度進行補償,使用較多的輸入增益,可能會造成更明顯嘶嘶聲,使得底噪增加。
話筒靈敏度 S_{V} 與 S_{dBV} 的換算關系如下:
S_{V / P a}=10^{frac{S_{d B V / P a}}{20}} * text { Output }_{A R E F}
其中, Output_{AREF} 為1V/Pa參考輸出比。
二、阻抗
話筒的阻抗影響瞭它與音頻鏈中下一個設備的連接方式以及與長電纜進行遠距離傳輸的能力。阻抗小於600Ω的低阻抗話筒,可用於1000英尺(304米)或更長的電纜而不會損失音質。因此,專業話筒通常具有低阻抗。阻抗大於10000Ω的高阻抗話筒,電纜長度不能超過20英尺(6米),電纜較長的情況下聲音會變鈍或變暗。
阻抗也決定瞭0dBm電平點的電壓值,即功率為1mW時的電壓值。根據公式 P=U^2/R 可得:當話筒阻抗為600Ω時,零電平點的電壓為0.775V。不同阻抗的話筒的零點平點也不同。
三、自噪聲
電容話筒內部的電路會產生少量的嗞嗞聲,這就是所謂的自噪聲。自噪聲指標以分貝為單位,數字越低,話筒的噪聲越低。話筒的自噪聲程度通常用等效噪聲級 L_n 和信噪比S/N來表示。
operatorname{Ln}=20 * log left(frac{V n}{S * p_{0}}right)
frac{S}{N}=20 * log left(frac{S}{V n}right)
其中 p_0 為基準聲壓,是人耳剛好能聽到的1000Hz頻率的聲音的最低聲壓,為2*10-5 Pa,S為話筒靈敏度, V_n 為噪聲電壓。
四、最大聲壓級
話筒在總諧波失真小於10%時所能承受的最大聲壓級,又叫聲過載點。手機話筒的最大聲壓級在100dB SPL至110dB SPL附近。常見的數字麥克風最大聲壓級為120dB SPL,低靈敏度的可以達到130dB SPL。如果將話筒放置在靠近諸如吉他音箱或打擊樂的大聲源的位置,聲壓級指標則非常重要。一些電容話筒包括一個可切換的衰減器以降低其靈敏度,這擴大瞭話筒處理非常響亮的聲音而不失真的能力,大多數衰減器可以讓話筒多承受10到20個dB的聲壓。
五、動態范圍
指麥克風輸出最小信號和最大信號之差。足夠大的動態范圍能夠最大程度保留原始音質而不發生失真。例如,某數字麥克風最大聲壓級為120dB SPL,本底噪聲為25dB SPL,那麼該數字麥克風最佳的動態范圍至少應當大於120dB-25dB=95dB。如果采樣量化精度使用16bit,那麼對應的最大動態范圍約為20*log10(215)=90dB,小於95dB,意味著無法發揮該麥克風的最佳錄音性能,原因在於量化精度不夠而引入的量化噪聲高於麥克風本底噪聲,降低瞭麥克風信噪比。
使用話筒的音頻數字信號采集過程為:首先,聲波通過空氣傳播到麥克風的振膜。然後,振膜隨空氣抖動的振幅大小產生相應的電信號。我們把這種帶有聲學表征的電信號叫做模擬信號。最後,通過A/DC(模數轉換器)將模擬信號轉換成數字信號。即通過PCM(Pulse Code Modulation)脈沖編碼調制對連續變化的模擬信號進行抽樣、量化和編碼轉換成離散的數字信號。
而最終呈現給我們的能夠查看的音頻的振幅值,是一個無量綱的采樣值。由於數字麥克風最大輸出信號幅度一般歸一化為1(滿幅值為1,即0dB),因此其輸出信號幅度在歸一化後僅具備相對值的意義。此時若將采樣值以分貝的形式顯示,其單位則會被記為dBFS(dB Full Scale),代表相對於數字滿量程的分貝數。dBFS沒有物理意義,也沒有量綱,隻有知道滿量程或某一采樣值所對應的電壓值或聲壓級,才能推算出其物理意義。通常來講,采樣值與電壓值呈正比關系。
在缺少對應關系的情況下,我們可以利用電壓量程、話筒靈敏度、最大聲壓級等參數來計算采樣值對應的聲壓,然後通過聲壓計算對應的聲壓級。假設一個話筒的已知其最大聲壓級(在1%總諧波失真)為127dB,而我們有歸一化後的音頻信號 x ,那麼這段音頻信號在到達話筒處的實際聲壓級為:
S P L=20 * log _{10}left(sqrt{frac{1}{N} sum_{n=1}^{N} x^{2}(n)}right)+p_{A O P}
其中 p_{A O P} 為最大聲壓級,p_{A O P}前面的公式為時域采樣點的值求RMS均方根值,單位即為dBFS。但是采用這種方法必須事先知道最大聲壓級,數字信號也必須為未經衰減器衰減、未經人為修改的原始振幅。若對原始音頻信號截取其中一段進行歸一化,那麼信號對應的物理意義也隨之缺失瞭,我們也無法計算出真正的聲壓級。
但是更精確的對應關系,需要通過“校準”獲得。所謂校準,就是獲取數字量與電壓的精確關系以及電壓與聲壓的精確關系。前者稱為輸入通道校準,後者稱為傳聲器校準。現假設,有一批數字量,用N表示其中一個的值,那麼為瞭得到具體的聲壓值,可以使用以下的公式:
p=left(frac{N}{N_{m}} * V_{m} * A-Bright) * frac{1}{S_{{V}/{P a}}}
其中 N_m 是數字信號所能達到的最大值, V_m 為電壓量程,A是輸入通道的增益誤差,B是輸入通道偏置電壓誤差, S_{{V}/{P a}} 是話筒靈敏度。而聲壓級SPL為:
S P L=20 * log _{10}left(frac{p}{p_{0}}right)
Klangpornkun等人2014年的研究使用語音的功率譜密度來計算聲壓級,然而文章並未提到功率譜密度的計算方法,也並未提到原始音頻數據的預處理過程,因此其計算得出的聲壓級是否為物理意義上嚴格的聲壓級是存疑的。Klangpornkun等人在2015年的後續研究更是將所有發音人的聲壓級都平均到60dB SPL,這對真實聲壓級的計算和言語香蕉圖中對應關系的準確性是百害而無一利的。
本文依舊采用信號的功率譜密度來計算不同頻率分量的聲壓級。定義隨機信號信號的功率譜 P_{X}left(e^{j omega}right) 為:
P_{X}left(e^{j omega}right)=sum_{m=-M}^{M} r_{X}(m) e^{-j m omega}
其中 r_{X}(m) 為隨機信號的自相關函數。
功率譜反映瞭信號的功率在頻域隨頻率分佈,因此又稱為功率譜密度。信號的功率譜密度無法直接測量,隻能通過估算得出。估算功率譜密度的方分為傳統方法和現代方法,傳統譜估計法可以分為直接法和間接法;現代譜估計法則擁有多種不同的分類方式,其中最重要的是參數模型法。
直接法又稱周期圖法,最初是由Schuster在1899年提出。周期圖法又稱為直接法,它是把隨機信號 x(n) 的N點觀察數據 x_N(n) 視為一個能量有限信號,直接取x_N(n)的傅裡葉變換,得 x_{N}left(e^{j omega}right) ,然後再取其幅值的平方,並除於N,作為對真實功率譜 Pleft(e^{j omega}right) 的估計。以 P_{PER}left( omegaright) 表示用周期圖法估計的功率譜,則: P_{P E R}(omega)=frac{1}{N}left|x_{N}(omega)right|
在Matlab中可以由periodogram函數實現。
間接法的理論基礎是維納-辛欽定理。1958年Blackman和Tukey給出瞭這一種方法的具體實現,即由x_N(n)估計出自相關函數 r(m) ,然後對 r(m) 求傅立葉變換得到x_N(n)的功率譜,記之為 P_{BT}left( omegaright) ,並以此作為對|Pleft( omegaright)|的估計,即
P_{B T}(omega)=sum_{m=-M}^{M} r(m) e^{-j m omega}
該方法是在FFT問世之前(即周期圖法被廣泛應用之前)常用的譜估計方法。Matlab中需要自行編寫代碼。
對於直接法的功率譜估計,當數據長度N太大時,譜曲線起伏加劇,若N太小,譜的分辨率又不好,因此需要改進。直接法的改進有Bartlett法、Welch法等。
Bartlett平均周期圖的方法是將N點的有限長序列x(n)分段求周期圖再平均。
Welch法對Bartlett法進行瞭兩方面的修正,一是選擇適當的窗函數w(n),並在周期圖計算前直接加進去,加窗的優點是無論什麼樣的窗函數均可使譜估計非負。二是在分段時,可使各段之間有重疊,這樣會使方差減小。在Matlab中可以由pwelch函數實現。調用後可繪制得到信號功率譜密度圖,如需要觀察得到的功率譜密度數值,可以添加相應的輸出參數。
參數模型法是現代譜估計的主要內容,包含AR法、MA法、ARMA法、Prony法等等。參數模型法的思路如下:
1)假定研究的過程 x(n) 是由一個輸入序列 u(n)激勵一個線性系統 H(z) 的輸出。
2)由已知的 x(n),或其自相關函數 r_X(m) 來估計H(z)的參數。
3)由H(z)來估計的功率譜。
伯格(Brug)譜估計是一種AR譜估計方法,可調用Matlab中pburg函數。調用後可繪制得到信號功率譜密度圖,如需要觀察得到的功率譜密度數值,可以添加相應的輸出參數。
8df5aa6193ac3fe83b6b42f75541ac59圖 3 不同功率譜估計方法比較
如圖3所示,對比周期圖法(periodogram)和平均周期圖法(Welch)發現,Welch法得到的圖要比周期圖法得到的功率譜密度圖光滑。相關法和周期圖法得到的功率譜估計在140Hz和150Hz處鋒比較尖銳,頻率分辨率要比Welch平均周期圖法高。現代AR譜估計Brug方法同樣可以在140Hz和150Hz處得到尖銳的譜峰,同時其估計的功率譜密度圖也很平滑。但是要註意,四種譜估計方法求出的功率譜密度峰值處有著最大8dB的差別,通常來說分辨率越高的譜估計方法的峰值也越高,在實際應用中應當加以註意。本文內容目前采用Welch法,但後續的實驗中會逐一驗證其他譜估計方法的穩健性,並挑選最合適的一個。
若原始音頻信號中每個點的值為采樣值與最大采樣值的比值,那麼通過譜估計的方法求出的縱坐標的單位應當為dBFS,代表相對於數字滿量程的分貝數。通過聲級計對話筒進行校準後很容易就能算出其對應的聲壓級。
隻有功率信號才能求其真實的功率譜密度,而語音是功率有限的能量信號。在估算功率譜時,要先假設窗內的信號是鋪滿整個時域的,對其進行周期延拓。為瞭避免延拓時首尾信號形成斷崖式的落差造成頻譜泄漏,通常會對信號加窗。常見的窗函數有矩形窗、三角窗、漢寧窗、漢明窗等,窗可以加在時域上,也可以加在頻域上,通常加在時域上居多。不同的窗函數的頻譜特征不同,加窗後的信號在求其功率譜時通常會有幾dB的損耗,因此最後在計算聲壓級時也要將窗函數造成的影響補償回來。
獲取音頻數字信號後,便可以對其分幀求取功率譜密度瞭。也可以對語音信號進行切分,求取每個音素的功率譜密度。Klangpornkun選取功率譜密度的最大值點,由對應關系算出聲壓級,然後減去相應的基準等效閾聲壓級算出純音聽力級,以頻率為橫軸、聽力級為縱軸繪制言語香蕉圖。
圖 4 北京話音檔《北風和太陽》動態言語香蕉圖結果
筆者仿照Klangpornkun等人的方法,自動逐幀計算瞭北京話音檔《北風和太陽》的動態香蕉圖,如圖4。幀長為50ms,每個點的名稱由樂理中的大調音階的名稱來表示(因為沒有對音素進行標記)。需要註意的是,該音檔中的語音未標明話筒參數,聲壓圖中的聽力級為估算得出的。由於該音檔年代久遠,信噪比較低,噪聲嚴重,且采樣頻率隻有22050Hz,為瞭壓制噪聲,高頻區域數據有大部分缺失。這張言語香蕉圖所呈現的並不是一個完整的香蕉圖。
由前所述,語音是功率有限的能量信號,估算功率譜時,要先對其進行周期延拓。那麼語音切分的準確性在求功率譜密度時起到關鍵作用。
若切分幀時窗過短,求得的功率譜密度為瞬時功率譜。對於聽覺腦幹反應測試而言,時程小於200ms的短時程信號(如tone burst / Click)具有良好的瞬態特性,意味著更容易引出分化良好的波形。但對於大多數聲級計而言,其測量的時間常數都遠遠超過信號時程,造成測量結果遠小於真實值。此外,對於功率譜密度的計算,時窗短就意味著時間分辨率高,但同時頻率分辨率降低瞭。這可能會導致頻率點取不到真正的峰值所在的頻率點,導致峰值讀數降低,進而使得聽力級的計算結果降低。高頻區通常會造成幾dB的誤差,低頻區甚至會造成十幾dB的誤差。
若切分時窗過長,語音前後的無聲期過長,那麼對於功率譜密度的計算來講,雖然頻率分辨率會上升,但整體的分貝數會下降,且無法測得瞬態的聲壓級。對於爆發音,零頻處的頻率響應會變強,導致峰值出現在低頻甚至零頻處,無法測量其爆發段的功率譜密度。
在很長一段時間內,沒有短時程信號的零級標準。這種情況下,有些變通的方法測量接近真實值的短時程信號聲壓級,即得到峰值等效聲壓級(peak-equivalent SPL, peSPL)。其中一種方法在示波器上獲得短時程信號波形的峰-峰值,再將個標準正弦信號峰峰值調至與此相等,此時該正弦信號輸出的聲壓級在聲級計上的讀數即為dB peSPL。這種方法是本文待采用的一種方法。
下面根據同濟大學言語-語言加工中心采集並切割的音頻舉例說明一些問題:
圖 5 輔音[p]和[t]的錯誤切分波形、功率譜密度(采用pwelch函數計算)和其在香蕉圖中的位置,藍色區域為正確的語音幀切分
圖5至圖8為根據同濟大學言語-語言加工中心采集並切割的語音語料。語音數據采樣頻率為44100Hz,信噪比較低,話筒參數未知,因此高頻信息保留較好,但噪聲影響較嚴重,且聲壓級需要估算。圖5中[t]由於語音幀過長,導致音頻信號包含瞭無聲段、少量的口腔送氣段(非肺部氣流),從而導致爆發段的頻率峰值無法出現。同時,不知是話筒原因抑或是其他原因,該段音頻信號振幅非常弱,導致其容易受噪聲的影響。右側[b]同理。
d09230d808cffb3ff7c54ad80ef4f424圖 6 輔音[tɕ]和[kʰ]的切分波形、功率譜密度(采用pwelch函數計算)和其在香蕉圖中的位置,藍色區域為爆發段,綠色部分為送氣段
圖6中[tɕ]也包含瞭無聲段、少量的口腔送氣段(非肺部氣流),導致其功率譜密度峰值強度較弱,沒有香蕉圖左下角的[tɕʰ]的強度強。右側清送氣爆發音[kʰ]的爆發段和送氣段的功率譜密度峰值強度或有不同,是否要將其當作一幀來計算功率譜密度值得商榷。
圖 7 輔音[f]的錯誤切分波形、功率譜密度(采用pwelch函數計算)和其在香蕉圖中的位置,藍色區域為正確的語音幀切分
由於前文提到,采集的數據自噪聲較大,且集中在中低頻,因此在語音信號幅值本身就很小的情況下,這種情況就更加嚴重。圖7中[f]就是上述原因,使得其功率譜峰值位於低頻噪聲頻率值處。這種數據質量是今後的研究中要避免的。
圖 8 一位女性發音人(左)和一位男性發音人(右)的輔音香蕉圖
圖8為簡單繪制的單獨一位男性和女性的輔音香蕉圖。可以看出,調音方式相同或相近的音素聚集在相近的位置,且由於發音人個體差異、男女差異和語音幀切分標準的不統一,不同人之間的輔音香蕉圖差異較大。從圖中還可以看出,女性發音人(左)的齦腭音/tɕ/./tɕʰ/./ɕ/發音部位十分靠前,通過聽辨,發現其實際音值已經接近[ts].[tsʰ].[s]。而齦音音位/ts/./tsʰ/./s/的調音部位則更加靠前,音值接近[t̟s̟].[t̟s̟ʰ].[s̟],變成瞭齒音。此外,由於有些被試者的卷舌音/tʂ/./tʂʰ/./ʂ/音位的音值為[t̺ʃ̺].[t̺ʃ̺ʰ]. [ʃ̺]、有些則為[tʂ].[tʂʰ].[ʂ],這些音位變體也導致輔音香蕉圖中卷舌音的位置跨度較大。
語音幀切分的時候是否考慮音渡的概念,以及音渡到底歸屬於輔音段還是元音段、聲母段還是韻母段等等,對於香蕉圖的制作有著很大的影響。對於聲母,本文的主張是輔音香蕉圖不保留音渡段,聲母香蕉圖保留音渡段。保留音渡段對二者最直接的影響在於,音渡段聲帶已經開始振動,其低頻能量變強,會使原本高頻的輔音在香蕉圖中的位置向低頻區傾斜。對於韻母,聽話者是能夠感受出二合元音韻母或三合元音韻母中的舌位的動程、強度的變化的,將其看作一個整體直接畫在香蕉圖上反而不妥,這樣就無法體現出其變化,也無法區分前響雙元音和後響雙元音。由於韻母的時長通常比較長,因此筆者更加傾向於對每個韻母單獨繪制動態香蕉圖,最後將所有區域疊加。語流音變的情況則交給逐幀計算的動態香蕉圖,以反映真實語言中的聲壓級變化范圍。
此外,人對響度的感知量化與聲壓級沒有直接關系,它還受信號持續時間和頻率帶寬的影響。通常,人對於一個聲信號響度級的識別以200ms為界,當信號的持續時間低於200ms的時候,持續時間越短,信號的響度越低。聽覺系統對某些頻率分量比其他頻率分量更敏感。在語音和聲樂中,各種諧波對總響度級的貢獻大於對總聲壓級的貢獻。相同聲壓級的兩個聲音,頻率越豐富的,人耳感覺到的響度越大。Titze等人的文章指出,人耳對響度的感受與頻譜斜率也有關。第5至第10諧波對響度的影響較大,超過2000Hz的諧波對響度幾乎沒有影響。通常,一個單諧波的聲壓級要增加10dB至40dB,聽感響度才增加不到兩倍,而若頻譜斜率從12dB每倍頻程增加到3dB每倍頻程,總聲壓級隻需要增加5dB,聽感響度就可以增加到原來的兩倍瞭。
此外,還有研究表明,即使基頻被過濾掉,人耳依然能通過諧波的變化感知出聲調的變化。因此聲調語言中低頻分量並不總是對聲調的感知起決定性作用。對於元音來說,其功率譜峰值也不一定出現在基頻處,有時也會出現在第二諧波、第三諧波或某一共振峰附近的某一諧波處。
上述幾種條件引出一個問題:言語香蕉圖中位於純音聽力圖中聽力閾值曲線之下的元音或輔音,聽感上是否真的聽不清;位於聽力閾值曲線之上的元音或輔音,聽感上又是否真的能聽清到足以將其和其他音素進行區分。Ross等人對類似現象進行過討論,他研究的是聽力閾值曲線的斜率對感知的影響。一個例子是:鼻音的特征是時頻圖中出現一個由於耦合形成的一個明顯的反共振峰,被試者必須能聽到整個頻段才能感知出某一頻段的缺失,然後才能將其感知為鼻音;若僅僅是最強的頻段的聲壓級超過閾值,其他大部分頻段位於閾值之下,那麼缺失的頻段也不會被感知出來,被試者也就無法將其感知成鼻音,而是可能會將其感知為同部位近音瞭。對於漢語方言中的鼻化元音來說也是如此。
Markus等人的文章指出,人們對說話人年齡、性別、音質(常態濁聲(Modal Voice)、假聲(Falsetto)、氣聲(Breathy Voice)等)等特征的判斷均與頻譜特征(包括頻譜斜率、H1-H2、H1-A3等特征)有關。參考言語香蕉圖調整的助聽器濾波方法是否會影響聽力損失患者對這些特征的判斷,也需要後續的研究才能明確。
由於聲調香蕉圖和元音香蕉圖較為復雜,故在不做詳細展開,留給後續的實驗進行闡述說明。後續實驗中可以根據聽力損失患者的純音聽力圖設計濾波器對語音信號進行濾波,模擬聽力損失患者的聽感。
目前,所有言語香蕉圖的制作過程都不夠詳盡,且絕大部分忽略瞭信號持續時間和頻帶寬度的變化,因此還有很多不足之處要改進。
[1] Campbell N, Beckman M. Stress, prominence, and spectral tilt[C]//Intonation: Theory, models and applications. 1997.
[2] Bracewell R N, Bracewell R N. The Fourier transform and its applications[M]. New York: McGraw-Hill, 1986.
[3] Carreira J M. Effects of teaching reduced forms in a university preparatory course[C]//JALT2007 conference proceedings. Tokyo: JALT, 2008: 200-207.
[4] Delvaux V, Soquet A. The influence of ambient speech on adult speech productions through unintentional imitation[J]. Phonetica, 2007, 64(2-3): 145-173.
[5] Fant G. Acoustic analysis and synthesis of speech with applications to Swedish[J]. Ericsson technics, 1959, 15: 3-108.
[6] Fant G. Speech acoustics and phonetics: Selected writings[M]. Springer Science & Business Media, 2004.
[7] Hanson H M. Glottal characteristics of female speakers: Acoustic correlates[J]. The Journal of the Acoustical Society of America, 1997, 101(1): 466-481.
[8] Hu X J, Li F F, Lau C C. Development of the Mandarin speech banana[J]. International journal of speech-language pathology, 2019, 21(4): 404-411.
[9] Iseli M, Shue Y L, Alwan A. Age, sex, and vowel dependencies of acoustic measures related to the voice source[J]. The Journal of the Acoustical Society of America, 2007, 121(4): 2283-2295.
[10] ISO/TR 25417 Acoustics-Definition of basic quantities and terms
[11] ISO 8253-3:2012 Acoustics-Audiometric test methods-Part3: Speech audiometry
[12] Klangpornkun N, Onsuwan C, Tantibundhit C, et al. Predictions from" speech banana" and audiograms: Assessment of hearing deficits in Thai hearing loss patients[C]//Proceedings of Meetings on Acoustics 166ASA. Acoustical Society of America, 2013, 20(1): 060004.
[13] Klangpornkun N, Onsuwan C, Tantibundhit C. Constructing speech banana for Thai consonants: some considerations for male and female voices[C]//Proceedings of the 18th International Congress of Phonetic Sciences. 2015.
[14] Lee, W., & Zee, E. (2003). Standard Chinese (Beijing). Journal of the International Phonetic Association, 33(1), 109-112.
[15] Lidén G, Fant G. Swedish word material for speech audiometry and articulation tests[J]. Acta Oto-Laryngologica, 1954, 43(sup116): 189-204.
[16] Northern J L, Downs M P. Hearing in children[M]. Lippincott Williams & Wilkins, 2002.
[17] Ross M. The audiogram: Explanation and significance[J]. Hearing Loss Association of America, 2004, 25(3): 29-33.
[18] Titze I R. The effect of single harmonic tuning on vocal loudness[J]. Journal of Voice, 2020.
[19] Titze I R, Palaparthi A. Vocal loudness variation with spectral slope[J]. Journal of Speech, Language, and Hearing Research, 2020, 63(1): 74-82.
[20] Titze I R. Simulation of Vocal Loudness Regulation with Lung Pressure, Vocal Fold Adduction, and Source-Airway Interaction[J]. Journal of Voice, 2021.
[21] Zahnert T. The differential diagnosis of hearing loss[J]. Deutsches ärzteblatt international, 2011, 108(25): 433.
[22] 劉國益、胡旭君、馮定香(2012)言語香 圖的國內外研究進展及展望。《中國聽力語 言康復科學雜志》,310-312 頁。
[23] (美)Don Davis Eugene Patronis著. 音響系統工程 第3版[M]. 北京:人民郵電出版社, 2010.09.
[24] 蔡德威. 基於Linux的聲壓級測量技術研究[D].浙江大學,2014.
[25] 國際語音學會編著,江荻譯. 國際語音學會手冊:國際音標使用指南[M]. 上海:上海教育出版社, 2008.08.
[26] 亨寧·雷茨;阿拉德·瓊曼. 語音學:標音、產生、聲學和感知[M]. 北京:中國社會科學出版社, 2018.10.
[27] 胡廣書編著. 數字信號處理導論[M]. 北京:清華大學出版社, 2005.01.
[28] 冀飛.聽力學測試中的“分貝”淺析[J].中國聽力語言康復科學雜志,2016,v.14;No.79(06):460-464.
[29] 梁瑞宇,趙力,魏昕編. 語音信號處理實驗教程[M]. 北京:機械工業出版社, 2016.03.
[30] 王春興.基於Matlab實現現代功率譜估計[J].現代電子技術,2011,v.34;No.351(16):65-67.DOI:10.16652/j.issn.1004-373x.2011.16.017.