语音识别转写引擎 PM-54459GCY软件(V3.017)

PM-54459GCY软件(V3.017).jpg

语音识别服务软件是人工智能技术开发,面向各行业客户提供的一款语音转写产品。该产品为客户提供整套语音转写方案,帮助客户快速将音频转换为文本。产品针对长语音场景做了多项核心技术优化,在远场、噪音环境下的识别率大幅提升,技术业界领先。产品提供异步文件转写、实时语音转写两个核心功能,满足客户的不同需求。录音文件识别,支持客户将音频文件上传识别成文字;实时语音识别,支持客户上传音频流,获得识别后的文字流结果。


产品特点

1.实时长语音识别:基于深度卷积神经网络架构,通过 WebSocket 协议,建立应用与语音识别引擎的长链接,对不限时长的音频流作实时识别,可以做到“边说话边同步输出文字”的效果,内置智能断句,可提供每句话开始结束时间,适用于实时直播字幕、实时会议记录、实时法庭庭审等场景。

2.语音识别准确率:标准普通话转写准确率≥98.5%。(转写的准确率与普通话标准程度和发音清晰度有关)

3.语音识别速度:依托语音转写技术,实时语音转写速度≤200毫秒。

4.一句话识别:支持对时长较短(60 秒以内)的语音进行识别,非实时的返回识别结果,返回结果延迟小于5秒。

5.支持多种音频编解码格式:目前实时语音转写支持pcm格式音频编解码算法。非实时转写支持mp3、wav、wma、mp4、avi、pcm、m4a等格式音频。目前音频采样率仅支持16K和8K。

6.文本后处理:语音转写私有云支持对识别结果语句智能预测其对话语境,提供智能断句和标点符号的预测,同时也支持数字规整和替换列表能力。

7.录音文件转写:录音文件转写,通过 http[s]协议调用识别服务,将长段音频录音(5小时以内)转写成文本数据,可用于采访录音转写、庭审数据录入、会议记录总结、呼叫中心录音质检等场景,支持录音分片上传、说话人角色分离、自定义热词和敏感词配置等功能。

8.软件识别语言仅支持中文普通话。

9.可懂度高:提供口语顺滑、热词、敏感词检测、数字规整、智能标点预测、智能分段等功能,有效提升文稿可读性和可懂度。

10.支持150路并发

网站内容仅供参考,本公司保留最终解释权!