你想象過嗎?蘋果集團創(chuàng)始人喬布斯“死而復生”,和播客主持人討論自己的大學時光、對計算機的看法、工作狀態(tài)以及信仰等等。如此賽博的場景,竟然真地在現實中發(fā)生了,它來自一檔名為Podcast.ai的播客的第一期節(jié)目。
【資料圖】
這是一個完全由是一個完全由AI生成的播客。Podcast.ai通過喬布斯的傳記,和收集網絡上關于他的所有錄音,用Play.ht的語言模型大量訓練,最終生成了一段美國知名播客主持人Joe Rogan采訪喬布斯的播客內容。在這期播客里,喬布斯的各種語音、語調都模擬的非常相似。
某種程度上說,借由AI,我們的聲音就能實現“數字永生”,又或者,你可以聽到任何你想要的人聲。聽起來是不是非常誘人?
事實上,對于國內用戶來說,擁有專屬于自己的AI聲音并不是遙遠的夢想。2022科大訊飛全球1024開發(fā)者節(jié)的技術發(fā)布會上,科大訊飛AI研究院副院長高建清分享了科大訊飛在語音合成技術領域的新突破——多風格多情感合成系統(tǒng)SMART-TTS。
2月19日,科大訊飛官方微信視頻號中發(fā)布了一條關于節(jié)氣《雨水》的視頻。深沉厚重的男低音,自帶質感,讓這段視頻的level至少上了一個等級。你肯定猜到了,這段配音由SMART-TTS系統(tǒng)合成,其語氣的變化、語句的停頓、聲音的細膩程度都和真人所差無幾。
最近大火的ChatGPT是AIGC+文字領域的產品,而SMART-TTS則是AIGC在聲音領域的應用。在許多人潛意識中,語音合成往往帶著一股機器味兒,不僅生硬而且很容易分辨。為了讓機器聲音能媲美人類,專注語音技術20多年,訊飛始終堅持源頭技術創(chuàng)新,持續(xù)進行探索。2008年首次讓語音合成效果超過了普通人說話水平。2019年,科大訊飛在國際語音合成大賽的自然度、相似度兩項指標榮獲第一,連續(xù)14年穩(wěn)坐冠軍寶座。訊飛在語音合成方面已實現人聲自然飽滿,逼真度高,富有表現力,人機交互更具真實感,同時提供適應新聞播報、閱讀聽書、語音助手等多種場景的100+發(fā)音人。在線語音合成可支持37個語種、11種方言、2種民族語言。
而SMART-TTS在多情感、多風格方面實現了新的突破。SMART-TTS系統(tǒng)可提供“高興、抱歉、撒嬌、嚴肅、悲傷、困惑、害怕、鼓勵、生氣、安慰、寵溺”等11種情感,每種情感具備40檔強弱度不同的調節(jié)能力;也能提供聲音的創(chuàng)造能力,如停頓、重音、語速等,可以根據自己喜好調節(jié),真正實現了合成系統(tǒng)媲美具備個性化特點的真人表達能力。
很多人想知道,在哪里定制屬于自己的AI聲音?訊飛有聲APP和訊飛開放平臺都開放了SMART-TTS語音合成系統(tǒng),開發(fā)者可以在訊飛有聲APP直接下載體驗,或在訊飛開放平臺進行調用。另外,科大訊飛最新推出的AIGC內容創(chuàng)作基地——訊飛智作,包括的各種AIGC工具中已上線了SMART-TTS聆系列主播,助力內容創(chuàng)作者更高效地輸出優(yōu)質的音視頻作品。
在訊飛智作中,已經開放了訊飛配音、真人配音、虛擬人視頻、PPT生成視頻等功能。以訊飛配音為例,用戶可以在100多位合成主播中選擇適合的聲音,有性別、年齡、領域、風格、語種等眾多選擇標準,自由調節(jié)速度、語調、音量、情感系數等多重變量??梢灶A想到,AIGC在訊飛智作中的應用能夠給音視頻生產領域帶來全新的變革,內容生產者們以較低的成本獲得適合內容的高質量音視頻,創(chuàng)作的效率大大提高,還可以讓不能開口說話的事物配音,《假如國寶會說話》的跨年特別呈現中,SMART-TTS語音合成系統(tǒng)讓文物擁有了親切自然的音色,講述自己的風姿與古人的智慧。
SMART-TTS語音合成系統(tǒng)已經落地很多需要聲音的場景,也將有更多功能向用戶、企業(yè)開放,自然流暢、富有情感的合成語音將走進千家萬戶。打開導航時它有力可靠、閱讀有聲書時它讓人身臨其境、疲憊時它溫柔甜美帶來力量......結合訊飛虛擬數字人技術,還可以實現定制智能聊天對象,建立有具體形象的AI助手、AI伴侶不無可能,也許我們還可以與擁有自己聲音的AI進行交互。這不就是我們曾經幻想過的美好未來嗎。
訊飛智作是人人都可觸碰到的AIGC應用,如今AIGC的大時代正在到來。這個已經開始的技術變革對我們來說意味著什么?這一波AI產品可能的應用場景有哪些?未來可能會形成怎樣的新AI產業(yè)生態(tài)...這些問題暫且還沒有明晰的答案。但在大浪潮的初始,這些探索者值得被持續(xù)關注。