實(shí)時語音轉(zhuǎn)寫(Real-time ASR)基于深度全序列卷積神經(jīng)網(wǎng)絡(luò)框架,通過 WebSocket 協(xié)議,建立應(yīng)用與語言轉(zhuǎn)寫核心引擎的長連接,將音頻流數(shù)據(jù)實(shí)時轉(zhuǎn)換成文字流數(shù)據(jù)結(jié)果;
實(shí)時語音轉(zhuǎn)寫
上下文糾錯
針對上下文進(jìn)行語義理解,將中間結(jié)果進(jìn)行智能糾錯,確保準(zhǔn)確性。
文字流時間戳
對于音頻流實(shí)現(xiàn)毫秒級識別,并返回帶有時間戳的文字流,便于二次開發(fā)。
文字格式智能轉(zhuǎn)換
對結(jié)果中出現(xiàn)數(shù)字、日期、時間等內(nèi)容格式化成規(guī)整的文本。
標(biāo)點(diǎn)智能預(yù)測
運(yùn)用超大規(guī)模的語言模型,智能預(yù)測語境,提供智能斷句和標(biāo)點(diǎn)符號的預(yù)測。
應(yīng)用場景
直播字幕
在電視直播或現(xiàn)場直播過程中提供實(shí)時字幕,提升直播效果
視頻會議&會議
將視頻以及會議中的發(fā)言內(nèi)容實(shí)時識別為文字,防止錯過重要會議內(nèi)容,提高會議效率
客服中心
將客戶的語音內(nèi)容實(shí)時識別為文字,作為客服答疑的參考記錄





