语音交互服务(Speech Interaction Service,简称SIS)是一种人机交互方式,用户通过实时访问和调用API获取语音交互结果。例如用户通过语音识别功能,将口述音频或者语音文件识别成可编辑的文本,同时也支持通过语音合成功能将文本转换成逼真的语音等提升用户体验。适用场景如语音客服质检、会议记录、语音短消息、有声读物、电话回访等。
用户需要具备编程能力,熟悉Java、Python等编程语言。
用户通过调用API接口,将语音文件识别成可编辑的文本,然后返回JSON格式的识别结果,用户需要通过编码将识别结果对接到业务系统或保存为TXT、Excel等格式。
支持的语言
支持中文普通话的识别和合成,其中语音识别还支持带方言口音的普通话识别以及方言(四川话、粤语和上海话)的识别,不同的方言口音识别,效果可能不同。
首次使用SIS
如果您是首次使用SIS的用户,建议您学习并了解如下信息:
功能介绍
通过功能介绍章节的内容,了解SIS不同功能的具体介绍,主要包括实时语音识别(Real-time ASR)、一句话识别(Short Sentence Recognition)、录音文件识别(Recording File Recognition)、语音合成(Text To Speech )功能。
入门使用
SIS以开放API的方式提供给用户,您可以参考《快速入门》学习并使用SIS服务。
使用方式
如果您是一个开发工程师,熟悉代码编写,想要直接调用SIS的API或SDK使用服务,您可以参考《API参考》或《SDK参考》获取详情。
由浅入深学习
您可以参考成长地图,由浅入深学习使用SIS。
应用场景:
语音客服质检
识别客服、客户的语音,转换为文本。进一步通过文本检索,检查有没有违规、敏感词、电话号码等信息。
语音客服质检
识别客服、客户的语音,转换为文本。进一步通过文本检索,检查有没有违规、敏感词、电话号码等信息。
会议记录
对会议记录的音频文件,进行快速的识别,转化成文字,方便进行会议记录。
语音短消息
通过语音发送或者接收短消息时,将音频短消息转文字,提升阅读效率和交互体验。
游戏娱乐
将游戏娱乐中的语音聊天转成文字消息,提升用户阅读效率,提升用户体验。
有声读物
将书籍、杂志、新闻的文本内容转换成逼真的人声发音,充分解放人们的眼睛,在搭乘地铁、开车、健身等场景下获取信息、享受乐趣。
电话回访
在客服系统场景中,通过将回访内容转换成人声,直接使用语音和客户交流,提升用户体验。
智能教育
集成语音合成的教育系统可以实现中文标准朗读及带读,应用于课堂和学生自学,提升教学效率。
直播实时字幕
将视频直播或现场直播中的音频实时转为字幕,为观众提供更高效的观会体验,方便对直播内容进行监控。
会议实时记录
将视频或电话会议中的音频实时转为文字,可实时校核、修改及检索转写会议内容,提高会议效率。
即时文本录入
手机App上实时录音并即时提供转写的文本,例如语音输入法等。
人机交互
通过语音合成,实现高品质的机器人发声,使得人机交互更加自然。
智能客服
借助语音合成,联络中心可以用自然的声音与客户互动。