多年來,研究人員一直在尋找將聲音分解成基本成分的方法。19世紀20年代,法國科學(xué)家約瑟夫·傅立葉(Joseph Fourier)提出,任何信號,包括聲音,都可以用足夠數(shù)量的正弦波來構(gòu)建。這些波聽起來像哨聲,每個都有自己的頻率、水平和開始時間,是聲音的基本組成部分。
然而,一些聲音,如長笛和人的呼吸聲,可能需要數(shù)百甚至數(shù)千個正弦來精確地模仿原始波形。這是因為這些聲音包含一個不太和諧,更嘈雜的結(jié)構(gòu),其中所有頻率同時出現(xiàn)。一種解決方案是將聲音分為正弦和噪聲兩類分量,以較少數(shù)量的呼嘯正弦波,并結(jié)合可變噪聲或嘶嘶聲來完成模仿。
即使這個“完整的”雙分量聲音模型在聲音事件開始的平滑方面也存在問題,例如聲音中的輔音或音樂中的鼓聲。第三種成分,稱為瞬態(tài),在2000年左右被引入,以幫助模擬這種聲音的清晰度。瞬態(tài)聽起來就像咔噠聲。從那時起,聲音通常被分為三個部分:正弦、噪聲和瞬態(tài)。
現(xiàn)在,阿爾托大學(xué)聲學(xué)實驗室(Aalto University Acoustics Lab)的研究人員利用聽覺感知、模糊邏輯和完美重建的思想,對正弦、噪聲和瞬態(tài)的三分量模型進行了改進。他們的研究發(fā)表在《音頻工程學(xué)會雜志》(Audio Engineering Society)上。
博士研究員Leonardo Fierro和Vesa教授Välimäki意識到人們聽到不同成分和不同的口哨聲,咔嚓聲和嘶嘶聲的方式很重要。如果咔噠聲快速傳播開來,聽起來更嘈雜;相比之下,專注于非常簡短的聲音可能會導(dǎo)致音調(diào)的損失。
這種來自聽覺感知的洞察力與模糊邏輯相結(jié)合:在任何時刻,聲音的一部分可以屬于三種正弦、瞬態(tài)或噪聲中的任何一類,而不僅僅是其中之一。為了完美的重建,F(xiàn)ierro優(yōu)化了聲音的分解方式。
在增強方法中,正弦和瞬態(tài)是聲音的兩種相反的特征,不允許聲音同時屬于這兩類。然而,兩種相反的成分類型中的任何一種仍然可以與噪聲同時發(fā)生。因此,模糊邏輯的思想以一種有限的方式存在。噪音是正弦和瞬態(tài)之間的模糊聯(lián)系,描述了簡單的咔噠聲和哨聲無法捕捉到的聲音的所有細微差別。Fierro:“這就像找到一塊缺失的拼圖,把以前不匹配的兩個部分連接起來。”
在聽力測試中,將這種增強的分解方法與以前的方法進行了比較。11位有經(jīng)驗的聽眾分別被要求聽幾段短音樂,并使用不同的方法從中提取成分。
根據(jù)聽眾的評分,這種分解大多數(shù)聲音的新方法脫穎而出。只有在音樂聲音中出現(xiàn)強烈的顫音時,例如在歌聲或小提琴中,以前的一些方法更優(yōu)越。
新分解方法的一個測試用例是聲音的時間尺度修改,特別是音樂的慢化。在一次偏好聽力測試中,該新方法與之前的方法進行了對比,后者在幾年前的一項比較研究中被選為最佳學(xué)術(shù)技術(shù)。菲耶羅的新方法再次獲得了明顯的勝利。
Välimäki教授說:“新的聲音分解方法為聲音處理開辟了許多令人興奮的可能性。”“聲音的慢化是我們目前的主要興趣。令人驚訝的是,例如在體育新聞中,慢動作視頻總是無聲的。原因可能是當前慢速音頻工具的音質(zhì)不夠好。我們已經(jīng)開始開發(fā)更好的時間尺度修改方法,它使用深度神經(jīng)網(wǎng)絡(luò)來幫助拉伸某些組件。”
高質(zhì)量的聲音分解也使新型的音樂混音技術(shù)成為可能。其中之一導(dǎo)致無失真的動態(tài)范圍壓縮。也就是說,瞬態(tài)分量通常包含聲音波形中最大的峰值,因此簡單地降低瞬態(tài)分量的電平并將其與其他分量混合可以限制音頻的峰值·。
圖片
