跳到主要内容

API

接口描述

本接口服务采用websocket协议,对实时音频码流进行识别且同步返回识别结果。

接口要求

内容说明
语言种类中文普通话、英文、方言
支持行业通用
音频属性采样率:16K Hz 采样位数:16bits 声道:单声道
音频格式pcm、wave
请求协议wss
请求地址wss://dev.kedacom.com/kasr
接口鉴权详见token
响应格式json格式

请求参数

{
"msg_type":"start_session_req",
"service_type":"ASR",
"msg_id":"",
"msg_data":{}
}
字段类型说明
msg_typestring消息类型
msg_idstring消息ID,请求与返回关联ID
service_typestring取值为ASR/TTS/NLU
msg_dataobject消息内容

响应参数

{
"msg_type":"start_session_res",
"msg_id":"",
"msg_code":0,
"msg_desc":"",
"msg_data":{}
}
字段类型说明
msg_typestring消息类型
msg_idstring消息ID,请求与返回关联ID
msg_codeint消息状态,参考http状态
msg_descstring消息描述,特别是异常状态
msg_dataobject消息内容

实时语音转写

1 初始化消息

客户端必须发送初始化请求消息且在收到正确的初始化响应消息后,才能进行后续操作。

请求-> server:

{
"msg_type":"START_SESSION_REQ",
"service_type":"ASR",
"msg_id":"",
"msg_data":
{
"token":"xxx"
}
}
字段类型说明
tokenstring用户认证所需令牌,token生成规则可以参考文档

响应 -> client:

{
"msg_type":"START_SESSION_RES",
"msg_id":"",
"msg_code":0,
"msg_desc":"",
"msg_data":
{
"session_id":""
}
}
字段类型说明
session_idstring标识本次服务会话id,用于服务端与客户端查询分析问题

2 音频传输消息

客户端收到正确的初始化响应后,则可以发送pcm音频数据,音频数据频率及大小需真实且不能过快。发送数据为binary。

3 文本返回消息

客户端持续发送音频数据后,服务端会持续返回对应音频的文本。消息内容如下:

{
"msg_type":"RECOGNITION_TEXT",
"msg_id":"",
"msg_code":0,
"msg_desc":"",
"msg_data":
{
"text":"",
"bg":0,
"ed":2,
"fin":0
}
}
字段类型说明
textstring识别后的文本消息
bgint文本对应的开始时间(ms)
edint文本对应的结束时间(ms)
finint0中间结果, 1最终结果

4 会话异常状态通知

{
"msg_type":"EXCEPTION_NTF",
"msg_id":"",
"msg_code":0,
"msg_desc":""
}

5 会话结束消息

客户端主动结束会话,如果有正在识别中的文本,则可以获取到该文本的最终结果。 请求-> server:

{
"msg_type":"STOP_SESSION_REQ",
"service_type":"ASR",
"msg_id":""
}

响应 -> client:

{
"msg_type":"STOP_SESSION_RES",
"msg_id":"",
"msg_code":0,
"msg_desc":""
}