AI M2耳機：多說話者即時翻譯

無線耳機一直提供像素芽 Google 功能即時翻譯太好了。在過去幾年裡，像 Timkettle 這樣的品牌也為商務客戶提供類似的耳機。然而，所有這些解決方案一次都只能處理一個音訊串流進行翻譯。

華盛頓大學的研究人員開發出一項真正令人驚嘆的技術：一款人工智慧耳機，可以同時翻譯多位說話者的語音。想像一下，一位精通多種語言的人身處擁擠的酒吧，能夠同時理解周遭人說的各種語言。這項創新代表著即時翻譯技術的重大飛躍。

該團隊將他們的創新稱為“空間語音翻譯”，這項技術得益於雙耳耳機。對於不太了解的人來說，雙耳音訊技術旨在精確地模擬人耳自然聽到的聲音效果。錄製時，麥克風被放置在人體模型頭部，兩側麥克風之間的距離與人耳之間的距離相同。這項技術透過錄製來自兩個不同聲源的聲音來創造三維立體聆聽體驗。

這種方法至關重要，因為我們的耳朵不僅能聽到聲音，還能幫助我們判斷聲音的方向。其整體目標是營造一個具有立體聲效果的自然聲場，從而提供充滿活力、宛如置身音樂會現場的體驗——或者用現代術語來說，就是空間聆聽。這項技術透過提供逼真的環繞聲來提升使用者體驗。

這項研究成果出自Shyam Gollakota教授所領導的團隊之手。該團隊的成就斐然，其研究成果包括將GPS定位裝置整合到水下智慧手錶、將甲蟲變成攝影師、研發可與電子設備互動的腦植入物、開發能夠檢測感染情況的行動應用程式等等。這些成就充分展現了Gollakota教授在創新技術領域的卓越專長。

多語種翻譯是如何進行的？

「我們第一次保留了每個人的聲音及其來源方向，」該研究所保羅·G·艾倫計算機科學與工程學院的現任教授戈爾科塔解釋說。

該團隊將他們的技術比作雷達，首先識別周圍區域的說話者數量，並隨著人們進出探測範圍即時更新該數量。這種方法完全基於設備，無需將用戶音訊串流傳送到雲端伺服器進行翻譯。隱私什麼的，統統拋到腦後！

除了翻譯語音外，系統還能保留「每位說話者的表達特點和音量」。此外，當說話者在房間內移動時，系統也會自動調整方向和音量。有趣的是，據報道蘋果公司也在開發類似的技術。允許 AirPods 翻譯音訊的系統實時。

華盛頓大學 (UW) 的一個團隊在約 12 個室內外地點測試了人工智慧智慧耳機的翻譯功能。性能方面，該系統能夠在 2-4 秒內接收、處理並產生翻譯後的音訊。測試參與者似乎更喜歡 3-4 秒的延遲，但團隊正在努力加快翻譯速度。

目前，該團隊僅測試了西班牙語、德語和法語的翻譯功能，但他們希望將Plus語言也納入其中。從技術角度來看，他們已將盲源分離、位置追蹤、即時表情翻譯和雙耳呈現等功能整合到單一的音訊串流中——這的確是一項令人矚目的成就。這種尖端技術的融合代表口譯領域的飛躍。

關於該系統，團隊開發了一種能夠在蘋果M2晶片上即時運行的語音翻譯模型，從而實現即時推理。音訊任務由一副索尼WH-1000XM4降噪耳機和一個Sonic Presence SP15C雙耳USB麥克風處理。

最精彩的部分來了。該基金會的新聞稿指出：「該設備的概念驗證代碼已公開，供其他人在此基礎上進行開發。」這意味著科學界和開源軟體社群可以學習並借鑒華盛頓大學團隊奠定的基礎，從而創建更先進的專案。這為人工智慧驅動的翻譯技術的未來發展打開了大門。