中安在線手機版|安徽發布|省政府網微博|中安在線微信|中安在線微博

設為首頁

英文|簡體|繁體

您當前的位置 : 安徽科技網 > 權威發布

中安在線   2024-04-30 10:21:39   來源:安徽日報    作者:汪永安   編輯:劉潤宇

  近日,微軟對其Azure AI語音服務進行了重要升級,新上線了9款更真實的AI語音。微軟提升了AI語音的自然度,在語調、節奏和情感上更好捕捉了人類語音的細微差別,讓合成的語音更加生動和真實,其逼真的效果引發大家的關注討論。

  但這一次微軟并非領先者,記者4月15日從位于合肥高新區的科大訊飛獲悉,早在2個月前,該公司就在訊飛星火V3.5發布會上,率先推出了超擬人語音合成技術,并搭載在訊飛星火App中開放給全民體驗。其擬人度超過83%,體驗下來它的聲音流暢自然,表達已非常接近人類的真實聲音。

  普通人正常交流對話中會帶有一定的語氣、情感和口語化表達,也會出現重復、卡頓、嘆氣、呼吸、說錯字詞,還有吞音、輕聲等習慣說法??剂砍瑪M人語音效果,不僅要看說話的自然度、流暢度,也要看這些口語化和副語言的頻率與細節是否更貼近真實,以及語音中的情感是否貼合說話內容等維度。

  目前,微軟上新的AI語音可以在Azure AI服務頁面里進行試聽和調用,科大訊飛超擬人合成在訊飛星火App和訊飛開放平臺上均可體驗和使用。

  近日,有媒體以相同的文本對兩者的超擬人合成技術進行了體驗評測,發現微軟和科大訊飛在超擬人合成的擬人度上相較傳統語音合成效果都有了顯著進步,克服了合成聲音“板正”“一絲不茍”的“播音腔”問題;同時在停頓、語速變化等副語言上的表現也相當自然,“哈哈”“嗯”等常見的口語化詞語也和說話內容進行了較好融合。

  對比來看,微軟上新的9款AI語音覆蓋了更多語種和說話風格,說話的自然度和流暢度相對較好,但在語氣詞等口語化表達上稍顯突兀;科大訊飛的超擬人合成在整體的擬人化程度上略勝一籌,交互和表達效果更生活化、也更自然,口語化詞語的插入不突兀,遇到一些中英文混雜的詞語,也能做到發音自然。

  值得一提的是,科大訊飛超擬人合成在情感表達上表現更為突出。在輸入表達不同程度開心的相關文字后,訊飛超擬人合成的效果能夠根據程度不同展現出可感知的差別;而微軟在情感表達上稍遜一籌,合成效果與普通語氣基本沒有差異。綜合來看,科大訊飛的超擬人技術在擬人度與情感表達上更優。

  今年1月30日科大訊飛發布超擬人合成時,也發布了最新的星火語音大模型,它可謂是讓語音合成聽起來更加自然和逼真的“殺手锏”。

  它是如何做到的呢?首先,基于星火通用大模型的能力,來預測文本中的口語化現象、情感、停頓等細節信息,這對于傳達說話者的真實感受非常重要;其次,星火語音大模型學習人類的口語化表達方式后,對通用大模型預測的口語化信息進行還原,從而極大提高了合成的擬人化效果。

  近年來,訊飛在多語種語音合成應用、方言合成、合成語音情感上持續創新,并且推出全新語音合成系統SMART-TTS,實現多風格、多情感合成,能夠根據需求對聲音進行調節和創作。超擬人合成技術的率先上線和驚艷效果,背后是科大訊飛多年如一日的積累與突破。

  萬物互聯時代,語音正在成為人機交互的主要入口。超擬人合成技術不僅能夠提供更加自然流暢的交互體驗,還能夠通過模擬人類的情感和行為,為用戶提供更加個性化和富有同理心的服務,將變革我們的人機交互體驗。據了解,訊飛星火App已上線了超擬人合成技術,并將在車載、機器人、智能客服等領域推出落地應用。訊飛超擬人合成升級版本也會在近期推出,將進一步增強喜怒哀樂等各種類型的情感反饋能力。

  據相關報告預測,全球生成式AI市場規模將從2022年的400億美元,擴大至2032年的1.3萬億美元。中國生成式AI商業應用規模預計到2025年將達到2070億元,未來五年的年均增速84%。超擬人技術作為生成式AI的重要表達方式,展現出巨大的市場潛力。

  而在這一技術上,以科大訊飛等為代表的中國AI企業已經率先布局,實現了國際領先,有望在全球市場中占據重要地位。(記者 汪永安)

網站介紹 | 聯系我們 | 版權聲明 

中安在線版權所有 未經允許 請勿復制或鏡像

增值電信業務經營許可證:皖B2-20080023 信息網絡傳播視聽節目許可證:1208228 2009-2010年度全省廣告發布誠信單位

粉嫩虎白女流水白浆在线播放91|中文字幕色|亚洲 熟女 久久 国产|欧美日韩亚洲第一AⅤ影院