Documentation Index
Fetch the complete documentation index at: https://docs.senseaudio.cn/llms.txt
Use this file to discover all available pages before exploring further.
基于 HTTP 协议的语音识别服务,兼容 OpenAI Audio API 风格,便于从现有系统迁移。
- 接口地址:
https://api.senseaudio.cn/v1/audio/transcriptions
- Content-Type:
multipart/form-data
- 鉴权方式:Bearer Token,详见 快速接入
- 模型矩阵:Lite / Standard / Pro / DeepThink,能力差异详见 语音识别介绍
- 实时识别:低延迟场景请使用 WebSocket 实时识别
Authorizations
Bearer 鉴权头,格式为 Bearer SENSEAUDIO_API_KEY,其中 SENSEAUDIO_API_KEY 为您的 API Key。
Body
音频文件(wav / mp3 / ogg / flac / aac / m4a / mp4 等),≤ 10 MB。
模型名称。可选值:senseaudio-asr-lite-1.5-260319、senseaudio-asr-1.5-260319、senseaudio-asr-pro-1.5-260319、senseaudio-asr-deepthink-1.5-260319。
音频内容语言代码(ISO-639-1,部分 ISO-639-3),如 zh / en / ja;不设置则自动检测。
响应格式:json / text / verbose_json。
自动标点(仅 asr / pro,deepthink 静默忽略)。
enable_speaker_diarization
说话人分离(仅 asr / pro)。
最大说话人数 1–20,配合说话人分离使用(仅 asr-pro 支持)。
timestamp_granularities[]
时间戳粒度:word = 字级 / segment = 句级(仅 asr / pro)。
翻译目标语言代码(lite 不支持,pro / deepthink 支持)。
识别模式:auto / record_only(仅 deepthink 流式模式生效)。
Response
200 — application/json
识别出的文本内容(所有 response_format 均返回)。
音频时长(秒),verbose_json 下返回。
音频元信息,verbose_json / 流式下返回。
分段结果(需 response_format=verbose_json 或 timestamp_granularities[]=segment)。
说话人标识,需开启 enable_speaker_diarization。
翻译结果,需设置 target_language。
字级结果,需设置 timestamp_granularities[]=word。
响应格式详解
JSON(默认)
Text
纯文本,Content-Type: text/plain。
Verbose JSON
{
"text": "道可道非常道",
"duration": 2.1,
"audio_info": { "duration": 5230, "format": "wav" },
"segments": [
{
"id": 0,
"start": 0.0,
"end": 2.0,
"text": "道可道非常道",
"speaker": "speaker_0",
"translation": "Translated"
}
],
"words": [
{ "word": "道", "start": 0.27, "end": 0.51 },
{ "word": "可", "start": 0.57, "end": 0.81 }
]
}
流式响应 (SSE)
Content-Type: text/event-stream
data: {"delta": {"text": "增量文本"}, "finish_reason": null}
data: {"delta": {"text": "。"}, "finish_reason": "stop", "audio_info": {...}}
data: [DONE]
| 字段 | 说明 |
|---|
delta.text | 本次返回的增量文本 |
finish_reason | null(进行中)/ stop(完成)/ error(错误) |
语言支持
language 用于指定音频内容的语言(留空则自动检测);target_language 将识别结果翻译为另一语言。
各模型参数支持
| 模型 | language | target_language |
|---|
senseaudio-asr-lite-1.5-260319 | ✅ | ❌ |
senseaudio-asr-1.5-260319 | ✅ | ❌ |
senseaudio-asr-pro-1.5-260319 | ✅ | ✅ |
senseaudio-asr-deepthink-1.5-260319 | ✅ | ✅ |
部分模型仅支持 language 或 target_language,请以上表为准。
senseaudio-asr-lite-1.5-260319 支持语种
| 代码 | 语言 | 代码 | 语言 | 代码 | 语言 |
|---|
zh | 中文 | en | 英文 | yue | 粤语 |
ja | 日文 | ko | 韩文 | vi | 越南语 |
id | 印尼语 | th | 泰语 | ms | 马来语 |
tl/fil | 菲律宾语 | ar | 阿拉伯语 | hi | 印地语 |
bg | 保加利亚语 | hr | 克罗地亚语 | cs | 捷克语 |
da | 丹麦语 | nl | 荷兰语 | et | 爱沙尼亚语 |
fi | 芬兰语 | el | 希腊语 | hu | 匈牙利语 |
ga | 爱尔兰语 | lv | 拉脱维亚语 | lt | 立陶宛语 |
mt | 马耳他语 | pl | 波兰语 | pt | 葡萄牙语 |
ro | 罗马尼亚语 | sk | 斯洛伐克语 | sl | 斯洛文尼亚语 |
sv | 瑞典语 | | | | |
senseaudio-asr-1.5-260319 / senseaudio-asr-pro-1.5-260319 支持语种
| 代码 | 语言 | 代码 | 语言 | 代码 | 语言 |
|---|
ar | 阿拉伯语 | yue | 粤语 | zh | 中文 |
nl | 荷兰语 | en | 英文 | fr | 法语 |
de | 德语 | id | 印尼语 | it | 意大利语 |
ja | 日文 | ko | 韩文 | ms | 马来语 |
pt | 葡萄牙语 | ru | 俄语 | es | 西班牙语 |
th | 泰语 | tr | 土耳其语 | ur | 乌尔都语 |
vi | 越南语 | | | | |
senseaudio-asr-deepthink-1.5-260319 支持语种
同 senseaudio-asr-1.5-260319 / senseaudio-asr-pro-1.5-260319 表,用于翻译输出。
各模型调用示例
senseaudio-asr-lite-1.5-260319
轻量级模型。热词增强示例:
curl https://api.senseaudio.cn/v1/audio/transcriptions \
-H "Authorization: Bearer $SENSEAUDIO_API_KEY" \
-F file="@meeting.wav" \
-F model="senseaudio-asr-lite-1.5-260319" \
-F language="zh" \
-F hotwords="张三,李四,项目Alpha,季度复盘"
{ "text": "张三和李四负责项目Alpha的季度复盘工作" }
senseaudio-asr-1.5-260319
标准模型。字级 / 句级时间戳示例:
curl https://api.senseaudio.cn/v1/audio/transcriptions \
-H "Authorization: Bearer $SENSEAUDIO_API_KEY" \
-F file="@interview.wav" \
-F model="senseaudio-asr-1.5-260319" \
-F response_format="verbose_json" \
-F "timestamp_granularities[]=word"
senseaudio-asr-pro-1.5-260319
专业版。说话人分离 + 字级时间戳 + 翻译:
curl https://api.senseaudio.cn/v1/audio/transcriptions \
-H "Authorization: Bearer $SENSEAUDIO_API_KEY" \
-F file="@meeting.wav" \
-F model="senseaudio-asr-pro-1.5-260319" \
-F response_format="verbose_json" \
-F enable_speaker_diarization="true" \
-F max_speakers="4" \
-F "timestamp_granularities[]=word" \
-F target_language="en"
senseaudio-asr-deepthink-1.5-260319
深度理解模型。翻译示例:
curl https://api.senseaudio.cn/v1/audio/transcriptions \
-H "Authorization: Bearer $SENSEAUDIO_API_KEY" \
-F file="@complex_audio.mp3" \
-F model="senseaudio-asr-deepthink-1.5-260319" \
-F target_language="en"
{ "text": "The weather is nice today, suitable for going out for a walk." }
错误处理
错误时返回非 200 状态码,响应体:
{
"code": "invalid",
"message": "file is required"
}
| HTTP | code | 说明 |
|---|
| 400 | invalid | 参数错误 |
| 429 | rate_limit_error | 请求频率过高 |
| 500 | internal_error | 服务端错误 |
相关指南
音频文件(wav/mp3/ogg/flac/aac/m4a/mp4 等),≤10MB
可用选项:
senseaudio-asr-lite-1.5-260319,
senseaudio-asr-1.5-260319,
senseaudio-asr-pro-1.5-260319,
senseaudio-asr-deepthink-1.5-260319
语言代码(ISO-639-1/3),如 zh/en/ja,不设置会自动检测
可用选项:
json,
text,
verbose_json
enable_speaker_diarization
timestamp_granularities[]
word=字级 / segment=句级(仅 asr/pro)
识别结果。格式取决于 response_format。