語音識別
語音識別為開發者提供語音轉文字服務的最佳體驗。經大體量業務充分驗證,也在大量互聯網、金融、教育等領域的外部客戶業務場景成功落地,日服務億級用戶。具有海量數據支撐、算法業界領先、支持語種豐富、服務性能穩定、抗噪音能力強、識別準確率高等優勢。
功能
語音識別開放錄音文件識別、實時語音識別和一句話識別三種服務形式,滿足不同類型開發者需求。
錄音文件識別
對不超過一小時的錄音文件進行識別。適用于語音時間較長、對實時性要求低的場景,例如客服質檢、視頻字幕生成、音頻節目字幕生成等。
語言和方言:目前支持中文普通話、英語、粵語。
行業/領域模型:目前支持音視頻領域模型。
音頻屬性:支持 wav、mp3、silk、speex、amr、m4a 等主流的音頻格式,支持8k、16k采樣率的單聲道或雙聲道音頻識別,支持16bit的數據采樣精度。
音頻數據長度支持:若采用直接上傳音頻數據方式,建議音頻數據不能大于5MB;若采用上傳音頻 url 方式,建議音頻時長不能大于1小時。
自學習模型:支持通過語言模型自學習工具進行定制優化,可以有效提高文本場景下的語音識別準確率。
熱詞:目前支持通過控制臺方式和API方式進行熱詞的創建,添加熱詞可以顯著提升專有詞匯識別準確率。
關于錄音文件識別使用詳情,請參閱 錄音文件識別 API 文檔。
實時語音識別
對實時音頻流進行識別,達到“邊說邊出文字”的效果。適用于有一定實時性要求的場景,例如語音輸入、語音機器人、會議現場記錄、直播內容審核、視頻實時添加字幕等場景。
語言和方言:目前支持中文普通話、英語、粵語、韓語。
行業/領域模型:目前支持金融領域模型。
音頻屬性:支持 wav、pcm、speex、silk、mp3 的音頻格式,支持8k、16k采樣率的單聲道音頻流,支持16bit的數據采樣精度。
音頻數據長度:建議每個數據包的音頻分片最大不能超過200KB。
自學習模型:支持通過語言模型自學習工具進行定制優化,可有效提高專有領域或行業下的語音識別準確率。
熱詞:目前支持通過控制臺方式和API方式進行熱詞的創建,添加熱詞可以顯著提升專有詞匯識別準確率。
一句話識別
對60秒之內的短音頻文件進行識別。適用于語音消息轉寫場景,例如語音短信、語音搜索等。
語言和方言:目前支持中文普通話、英語、粵語。
音頻屬性:支持 wav、mp3 的音頻格式,支持8k、16k采樣率的單聲道音頻,支持16bit的數據采樣精度。
音頻數據長度:若采用直接上傳音頻數據方式,建議整個數據包不能大于600KB;若采用上傳音頻url方式,建議音頻時長不能大于60s。
自學習模型:支持通過語言模型自學習工具進行定制優化,可有效提高專有領域或行業下的語音識別準確率。
熱詞:目前支持通過控制臺方式和API方式進行熱詞的創建,添加熱詞可以顯著提升專有詞匯識別準確率。
實力贏得信賴
品牌成就未來







