首页>产品中心

语音识别转写引擎 PM-54459GCY软件(V3.017)

语音识别服务软件是人工智能技术开发，面向各行业客户提供的一款语音转写产品。该产品为客户提供整套语音转写方案，帮助客户快速将音频转换为文本。产品针对长语音场景做了多项核心技术优化，在远场、噪音环境下的识别率大幅提升，技术业界领先。产品提供异步文件转写、实时语音转写两个核心功能，满足客户的不同需求。录音文件识别，支持客户将音频文件上传识别成文字；实时语音识别，支持客户上传音频流，获得识别后的文字流结果。

产品特点

1.实时长语音识别：基于深度卷积神经网络架构，通过 WebSocket 协议，建立应用与语音识别引擎的长链接，对不限时长的音频流作实时识别，可以做到“边说话边同步输出文字”的效果，内置智能断句，可提供每句话开始结束时间，适用于实时直播字幕、实时会议记录、实时法庭庭审等场景。

2.语音识别准确率：标准普通话转写准确率≥98.5%。(转写的准确率与普通话标准程度和发音清晰度有关)

3.语音识别速度：依托语音转写技术，实时语音转写速度≤200毫秒。

4.一句话识别：支持对时长较短（60 秒以内）的语音进行识别，非实时的返回识别结果，返回结果延迟小于5秒。

5.支持多种音频编解码格式：目前实时语音转写支持pcm格式音频编解码算法。非实时转写支持mp3、wav、wma、mp4、avi、pcm、m4a等格式音频。目前音频采样率仅支持16K和8K。

6.文本后处理：语音转写私有云支持对识别结果语句智能预测其对话语境，提供智能断句和标点符号的预测，同时也支持数字规整和替换列表能力。

7.录音文件转写：录音文件转写，通过 http[s]协议调用识别服务，将长段音频录音（5小时以内）转写成文本数据，可用于采访录音转写、庭审数据录入、会议记录总结、呼叫中心录音质检等场景，支持录音分片上传、说话人角色分离、自定义热词和敏感词配置等功能。

8.软件识别语言仅支持中文普通话。

9.可懂度高：提供口语顺滑、热词、敏感词检测、数字规整、智能标点预测、智能分段等功能，有效提升文稿可读性和可懂度。

10.支持150路并发

网站内容仅供参考,本公司保留最终解释权!

转载请注明出处https://www.itc-pa.cn/pro/index/art/14287.html

项目咨询获取详细信息