腦機(jī)接口(BCI)技術(shù)的發(fā)展對于喪失言語能力的嚴(yán)重運(yùn)動(dòng)癱瘓患者進(jìn)行交流具有關(guān)鍵作用。其中備受矚目的一種BCI控制策略涉及對神經(jīng)數(shù)據(jù)進(jìn)行語音解碼。新近的研究顯示,通過直接神經(jīng)記錄與先進(jìn)的計(jì)算模型相結(jié)合,可以獲得令人鼓舞的成果。對于確定哪些解碼策略能夠提供最佳且直接可行的效果,這一認(rèn)識(shí)對于推動(dòng)該領(lǐng)域的發(fā)展至關(guān)重要。
近日,荷蘭的拉德布德大學(xué)和烏特勒支大學(xué)醫(yī)學(xué)中心的研究團(tuán)隊(duì)取得了重要突破,他們能夠?qū)⒋竽X信號(hào)轉(zhuǎn)化為可聽的語音。通過結(jié)合植入物和人工智能,他們成功解碼了大腦信號(hào),可以高達(dá)92%到100%的準(zhǔn)確率預(yù)測人們的言語。相關(guān)研究成果已刊登在《神經(jīng)工程學(xué)雜志》上。
研究的主要負(fù)責(zé)人、來自荷蘭拉德布德大學(xué)棟德斯大腦、認(rèn)知與行為研究所和烏得勒支大學(xué)醫(yī)學(xué)中心的研究員朱莉婭-貝雷祖茨卡婭表示,這一研究顯示了腦機(jī)接口領(lǐng)域的巨大潛力。他們利用了癲癇患者的大腦植入物,推測出人們所想要表達(dá)的內(nèi)容。
貝雷祖茨卡婭說:“我們的終極目標(biāo)是將這項(xiàng)技術(shù)應(yīng)用于癱瘓患者以及無法交流的鎖定狀態(tài)患者。這些人失去了肌肉運(yùn)動(dòng)能力,因此也無法言語。通過腦機(jī)接口的發(fā)展,我們可以分析大腦活動(dòng),使他們得以重獲語言能力。”
在新的研究中,科學(xué)家們要求一些暫時(shí)植入大腦電極的被試者大聲朗讀單詞,并同時(shí)記錄他們的大腦活動(dòng)。
貝雷祖茨卡婭解釋道:“這樣,我們能夠建立大腦活動(dòng)和語音之間的直接聯(lián)系。我們還運(yùn)用先進(jìn)的人工智能模型,將大腦活動(dòng)直接轉(zhuǎn)化為可聽的語音。這意味著,我們不僅可以猜測人們在說什么,還能立即轉(zhuǎn)化為可理解、可聽懂的聲音。此外,這些還原出的語音在語調(diào)和說話方式上甚至與原說話者相似。”
全球各地的科研人員正在探索如何通過大腦信號(hào)識(shí)別單詞和句子。他們能夠利用相對較小的數(shù)據(jù)集,還原出可理解的語音,這表明他們的模型能夠從有限的數(shù)據(jù)中揭示大腦活動(dòng)與語音之間復(fù)雜的映射關(guān)系。
更為重要的是,研究團(tuán)隊(duì)還對志愿者進(jìn)行了聽覺測試,評估了合成的詞匯的可識(shí)別性。這些積極的測試結(jié)果表明,這項(xiàng)技術(shù)不僅能夠準(zhǔn)確識(shí)別單詞,還能以逼真的方式呈現(xiàn)這些詞匯,使其易于理解。
貝雷祖茨卡婭強(qiáng)調(diào)道:“目前仍然存在一些限制。”在這些實(shí)驗(yàn)中,研究人員要求參與者大聲朗讀12個(gè)特定單詞,這些單詞就是他們試圖檢測的內(nèi)容。總體而言,預(yù)測單個(gè)單詞并不像預(yù)測整個(gè)句子那樣復(fù)雜。未來,借助于大型語言模型在人工智能領(lǐng)域的應(yīng)用,可能會(huì)有助于這方面的發(fā)展。
她補(bǔ)充說:“我們的目標(biāo)是僅憑大腦信號(hào)預(yù)測人們想要表達(dá)的完整句子和段落。實(shí)現(xiàn)這一目標(biāo)需要更多的實(shí)驗(yàn)、更先進(jìn)的植入設(shè)備、更大的數(shù)據(jù)集以及先進(jìn)的人工智能模型。這一過程可能需要數(shù)年時(shí)間,但我們正在朝著正確的方向邁進(jìn)。”
參考文獻(xiàn):Julia Berezutskaya et al, Direct speech reconstruction from sensorimotor brain activity with optimized deep learning models, Journal of Neural Engineering (2023). DOI: 10.1088/1741-2552/ace8be
