跳转到主要内容
POST
/
v1
/
audio
/
transcriptions
SenseASR 语音识别(HTTP)
curl --request POST \
  --url https://api.senseaudio.cn/v1/audio/transcriptions \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: multipart/form-data' \
  --form file='@example-file' \
  --form model=senseaudio-asr-1.5-260319
{
  "text": "<string>",
  "duration": 123,
  "audio_info": {
    "duration": 123,
    "format": "<string>"
  },
  "segments": [
    {
      "id": 123,
      "start": 123,
      "end": 123,
      "text": "<string>",
      "speaker": "<string>",
      "translation": "<string>"
    }
  ],
  "words": [
    {
      "word": "<string>",
      "start": 123,
      "end": 123
    }
  ]
}

Documentation Index

Fetch the complete documentation index at: https://docs.senseaudio.cn/llms.txt

Use this file to discover all available pages before exploring further.

说明

基于 HTTP 协议的语音识别服务,兼容 OpenAI Audio API 风格,便于从现有系统迁移。
  • 接口地址https://api.senseaudio.cn/v1/audio/transcriptions
  • Content-Typemultipart/form-data
  • 鉴权方式:Bearer Token,详见 快速接入
  • 模型矩阵:Lite / Standard / Pro / DeepThink,能力差异详见 语音识别介绍
  • 实时识别:低延迟场景请使用 WebSocket 实时识别

Authorizations

Authorization
string
必填
Bearer 鉴权头,格式为 Bearer SENSEAUDIO_API_KEY,其中 SENSEAUDIO_API_KEY 为您的 API Key。

Body

multipart/form-data
file
file
必填
音频文件(wav / mp3 / ogg / flac / aac / m4a / mp4 等),≤ 10 MB。
model
string
必填
模型名称。可选值:senseaudio-asr-lite-1.5-260319senseaudio-asr-1.5-260319senseaudio-asr-pro-1.5-260319senseaudio-asr-deepthink-1.5-260319
language
string
音频内容语言代码(ISO-639-1,部分 ISO-639-3),如 zh / en / ja;不设置则自动检测。
response_format
string
默认值:"json"
响应格式:json / text / verbose_json
stream
boolean
默认值:"false"
是否流式返回(lite 不支持)。
enable_punctuation
boolean
默认值:"false"
自动标点(仅 asr / pro,deepthink 静默忽略)。
enable_speaker_diarization
boolean
默认值:"false"
说话人分离(仅 asr / pro)。
max_speakers
integer
最大说话人数 1–20,配合说话人分离使用(仅 asr-pro 支持)。
timestamp_granularities[]
string[]
时间戳粒度:word = 字级 / segment = 句级(仅 asr / pro)。
target_language
string
翻译目标语言代码(lite 不支持,pro / deepthink 支持)。
hotwords
string
热词增强,英文逗号分隔(仅 lite)。
recognize_mode
string
默认值:"auto"
识别模式:auto / record_only(仅 deepthink 流式模式生效)。
abbreviations
boolean
默认值:"false"
缩写词自动替换。

Response

200application/json
text
string
识别出的文本内容(所有 response_format 均返回)。
duration
number
音频时长(秒),verbose_json 下返回。
audio_info
object
音频元信息,verbose_json / 流式下返回。
segments
object[]
分段结果(需 response_format=verbose_jsontimestamp_granularities[]=segment)。
words
object[]
字级结果,需设置 timestamp_granularities[]=word

响应格式详解

JSON(默认)

{ "text": "识别出的文本内容" }

Text

纯文本,Content-Type: text/plain
识别出的文本内容

Verbose JSON

{
  "text": "道可道非常道",
  "duration": 2.1,
  "audio_info": { "duration": 5230, "format": "wav" },
  "segments": [
    {
      "id": 0,
      "start": 0.0,
      "end": 2.0,
      "text": "道可道非常道",
      "speaker": "speaker_0",
      "translation": "Translated"
    }
  ],
  "words": [
    { "word": "道", "start": 0.27, "end": 0.51 },
    { "word": "可", "start": 0.57, "end": 0.81 }
  ]
}

流式响应 (SSE)

Content-Type: text/event-stream
data: {"delta": {"text": "增量文本"}, "finish_reason": null}
data: {"delta": {"text": "。"}, "finish_reason": "stop", "audio_info": {...}}
data: [DONE]
字段说明
delta.text本次返回的增量文本
finish_reasonnull(进行中)/ stop(完成)/ error(错误)

语言支持

language 用于指定音频内容的语言(留空则自动检测);target_language 将识别结果翻译为另一语言。

各模型参数支持

模型languagetarget_language
senseaudio-asr-lite-1.5-260319
senseaudio-asr-1.5-260319
senseaudio-asr-pro-1.5-260319
senseaudio-asr-deepthink-1.5-260319
部分模型仅支持 languagetarget_language,请以上表为准。

senseaudio-asr-lite-1.5-260319 支持语种

代码语言代码语言代码语言
zh中文en英文yue粤语
ja日文ko韩文vi越南语
id印尼语th泰语ms马来语
tl/fil菲律宾语ar阿拉伯语hi印地语
bg保加利亚语hr克罗地亚语cs捷克语
da丹麦语nl荷兰语et爱沙尼亚语
fi芬兰语el希腊语hu匈牙利语
ga爱尔兰语lv拉脱维亚语lt立陶宛语
mt马耳他语pl波兰语pt葡萄牙语
ro罗马尼亚语sk斯洛伐克语sl斯洛文尼亚语
sv瑞典语

senseaudio-asr-1.5-260319 / senseaudio-asr-pro-1.5-260319 支持语种

代码语言代码语言代码语言
ar阿拉伯语yue粤语zh中文
nl荷兰语en英文fr法语
de德语id印尼语it意大利语
ja日文ko韩文ms马来语
pt葡萄牙语ru俄语es西班牙语
th泰语tr土耳其语ur乌尔都语
vi越南语

senseaudio-asr-deepthink-1.5-260319 支持语种

senseaudio-asr-1.5-260319 / senseaudio-asr-pro-1.5-260319 表,用于翻译输出。

各模型调用示例

senseaudio-asr-lite-1.5-260319

轻量级模型。热词增强示例
curl https://api.senseaudio.cn/v1/audio/transcriptions \
  -H "Authorization: Bearer $SENSEAUDIO_API_KEY" \
  -F file="@meeting.wav" \
  -F model="senseaudio-asr-lite-1.5-260319" \
  -F language="zh" \
  -F hotwords="张三,李四,项目Alpha,季度复盘"
{ "text": "张三和李四负责项目Alpha的季度复盘工作" }

senseaudio-asr-1.5-260319

标准模型。字级 / 句级时间戳示例
curl https://api.senseaudio.cn/v1/audio/transcriptions \
  -H "Authorization: Bearer $SENSEAUDIO_API_KEY" \
  -F file="@interview.wav" \
  -F model="senseaudio-asr-1.5-260319" \
  -F response_format="verbose_json" \
  -F "timestamp_granularities[]=word"

senseaudio-asr-pro-1.5-260319

专业版。说话人分离 + 字级时间戳 + 翻译
curl https://api.senseaudio.cn/v1/audio/transcriptions \
  -H "Authorization: Bearer $SENSEAUDIO_API_KEY" \
  -F file="@meeting.wav" \
  -F model="senseaudio-asr-pro-1.5-260319" \
  -F response_format="verbose_json" \
  -F enable_speaker_diarization="true" \
  -F max_speakers="4" \
  -F "timestamp_granularities[]=word" \
  -F target_language="en"

senseaudio-asr-deepthink-1.5-260319

深度理解模型。翻译示例
curl https://api.senseaudio.cn/v1/audio/transcriptions \
  -H "Authorization: Bearer $SENSEAUDIO_API_KEY" \
  -F file="@complex_audio.mp3" \
  -F model="senseaudio-asr-deepthink-1.5-260319" \
  -F target_language="en"
{ "text": "The weather is nice today, suitable for going out for a walk." }

错误处理

错误时返回非 200 状态码,响应体:
{
  "code": "invalid",
  "message": "file is required"
}
HTTPcode说明
400invalid参数错误
429rate_limit_error请求频率过高
500internal_error服务端错误

相关指南

授权

Authorization
string
header
必填

格式:Bearer <API_KEY>

请求体

multipart/form-data
file
file
必填

音频文件(wav/mp3/ogg/flac/aac/m4a/mp4 等),≤10MB

model
enum<string>
必填

模型名称

可用选项:
senseaudio-asr-lite-1.5-260319,
senseaudio-asr-1.5-260319,
senseaudio-asr-pro-1.5-260319,
senseaudio-asr-deepthink-1.5-260319
language
string

语言代码(ISO-639-1/3),如 zh/en/ja,不设置会自动检测

示例:

"zh"

response_format
enum<string>
默认值:json

响应格式

可用选项:
json,
text,
verbose_json
stream
boolean
默认值:false

是否流式返回(lite 不支持)

enable_punctuation
boolean
默认值:false

自动标点(仅 asr/pro)

enable_speaker_diarization
boolean
默认值:false

说话人分离(仅 asr/pro)

max_speakers
integer

最大说话人数 1-20(仅 asr-pro)

必填范围: 1 <= x <= 20
示例:

4

timestamp_granularities[]
enum<string>[]

word=字级 / segment=句级(仅 asr/pro)

可用选项:
word,
segment
target_language
string

翻译目标语言代码(lite 不支持)

示例:

"en"

hotwords
string

热词增强,逗号分隔(仅 lite)

示例:

"张三,李四,项目Alpha"

recognize_mode
enum<string>
默认值:auto

识别模式(仅 deepthink 流式)

可用选项:
auto,
record_only
abbreviations
boolean
默认值:false

缩写词自动替换

响应

识别结果。格式取决于 response_format。

json 或 verbose_json 响应

text
string

识别出的文本内容

duration
number

识别时长(秒)

audio_info
object
segments
object[]
words
object[]