電子信息產業發展基金設立了“大規模分布式語音智能處理軟件研發及產業化”項目,實現對“百項共性關鍵技術”中的通過面向云計算環境的語音處理技術進行支持,旨在通過本項目的網絡實施,研發云計算環境下的遠程語音大規模分布式語音合成技術、語音識別技術、服務語音交互工程技術等;開發具有語音合成、實現語音識別、通過聲紋識別等處理能力的網絡大規模分布式智能語音處理軟件,使得各種設備可以通過網絡方便地獲得遠程語音服務,遠程語音提升產業競爭力。服務共安排國撥資金800萬元,實現總投資2570萬元,通過組織了科大訊飛、網絡賽迪牽頭的遠程語音2個團隊進行聯合技術攻關和產品研發。
突破關鍵技術
圍繞大規模分布式語音智能處理技術,服務完成了一系列關鍵技術突破,具體包括:
分布式語音合成技術。研發完成了適合大規模分布式計算的語音合成模型訓練、語音生成算法,構建完成了與語種無關的語音合成系統,為3G及移動互聯網下分布式的語音應用和服務提供語音合成技術的核心支撐。
分布式語音識別技術研究。本項目從大規模分布式語音應用出發,提出了特征模型域綜合噪聲補償的抗噪方法、多流特征的區分性模型訓練方法、支持百億量級超大規模語言模型的實時解碼算法,解決了3G及移動互聯網下語音識別領域環境噪聲魯棒性、口音適應性、說話內容普適性等技術難題,語音識別系統在實際移動終端應用中準確率達到實用要求并大規模應用推廣。
智能語音計算處理工程技術研究。完成了面向網絡的分布式環境下進行并行計算、網絡計算和高效計算等運算模式等智能語音計算處理工程技術研究,并基于服務器集群的大規模海量數據處理能力對語音合成與識別系統核心模型效果進行了優化。
通過關鍵技術的攻克,團隊開發出了具有高自然度語音合成、高準確度的語音識別及聲紋識別等處理能力的大規模分布式智能語音處理軟件,具備高穩定性、高效率的語音合成及識別引擎,支持Windows、Linux、UNIX、Android、iOS等不同平臺的操作系統,能夠提供高效、穩定、易于管理維護的大規模語音服務,并為開發者提供統一的調用界面和應用支撐。支持大規模語音應用環境下的高效率協同,實現高擴展性的網絡語音應用接口。該項技術共申請并受理發明專利15項,獲得軟件著作權4項。
通過該項目的實施,持續提升了項目承擔單位的創新能力,加強了自主創新體系布局,加快建立中國特色技術創新體系;加強了人才隊伍的建設,通過開展智能語音技術領域的國際交流與合作,將國內外語音及語言技術領域創新資源整合,為國家凝聚和培養一批語音及語言技術創新人才。
提高了企業管理水平,通過將質量管理體系關鍵指標納入項目考核等措施,提升項目過程管理水平;開拓了新業務新市場,利用信息技術領域創新產品的推廣和應用,推動語音技術改造傳統產業、帶動相關產業的發展。
三大領域率先應用
截止到2012年9月底,由大規模分布式智能語音平臺提供服務的移動應用下載和激活數量已經超過9000萬,覆蓋移動終端數目超過5700萬,并最終為國內上億移動互聯終端用戶提供語音交互能力。基于大規模分布式智能語音平臺的相關產品已日益廣泛地應用于電信、金融、手機、家電、車載等社會生活的方方面面。面向云計算環境的語音處理技術依托項目通過整合我國語音技術的研究資源,攻克了一系列行業技術難題,并通過產業推廣應用,實現研究成果更大范圍的共享。同時,項目對家電、汽車電子、呼叫中心等傳統產業轉型升級具有顯著的帶動作用。
家電領域。語音交互技術可讓各種設備實現能聽會說的功能,通過大規模分布式語音智能處理技術的應用,提升了家電使用的便捷性和人性化。項目承擔單位科大訊飛公司與目前國內六家電視廠商(占市場份額80%%)均達成實質合作,包括TCL、海信、長虹、康佳、創維、海爾等;并已經成功地和格蘭仕、美的、三洋(合計市場份額超過90%%)合作,并推出了業內第一臺語音微波爐;不僅如此,和海爾、格力等正在開發第一臺智能語音空調,預計年內產品上市。
汽車電子領域。通過大規模分布式語音智能處理軟件的使用,實現了移動互聯網環境下車載導航設備的路況、地名等信息播報和興趣點語音查詢,解決了車內信息獲取的方便性和安全性的剛性需求;訊飛已經和國內主要的汽車電子廠商及車廠包括奇瑞、江淮、上汽、奧迪、德爾福、大陸電子、哈曼等建立了合作,上汽集團已經將語音功能作為榮威新車型的主要賣點。
呼叫中心領域。利用大規模分布式語音智能處理軟件,提供了海量語音數據的處理能力,實現了電信級的語音合成、識別與轉寫服務功能,為中國呼叫中心等行業應用降低運營成本,拉動產業商機,已廣泛應用于電信、銀行、社保、稅務、鐵路、電力等眾多行業和應用領域,科大訊飛在國內主流行業呼叫中心市場份額超過80%%。