语音识别转写

SenseASR 语音识别（HTTP）

curl --request POST \
  --url https://api.senseaudio.cn/v1/audio/transcriptions \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: multipart/form-data' \
  --form file='@example-file' \
  --form model=senseaudio-asr-1.5-260319

{
  "text": "<string>",
  "duration": 123,
  "audio_info": {
    "duration": 123,
    "format": "<string>"
  },
  "segments": [
    {
      "id": 123,
      "start": 123,
      "end": 123,
      "text": "<string>",
      "speaker": "<string>",
      "translation": "<string>"
    }
  ],
  "words": [
    {
      "word": "<string>",
      "start": 123,
      "end": 123
    }
  ]
}

POST

audio

transcriptions

SenseASR 语音识别（HTTP）

curl --request POST \
  --url https://api.senseaudio.cn/v1/audio/transcriptions \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: multipart/form-data' \
  --form file='@example-file' \
  --form model=senseaudio-asr-1.5-260319

{
  "text": "<string>",
  "duration": 123,
  "audio_info": {
    "duration": 123,
    "format": "<string>"
  },
  "segments": [
    {
      "id": 123,
      "start": 123,
      "end": 123,
      "text": "<string>",
      "speaker": "<string>",
      "translation": "<string>"
    }
  ],
  "words": [
    {
      "word": "<string>",
      "start": 123,
      "end": 123
    }
  ]
}

说明

基于 HTTP 协议的语音识别服务，兼容 OpenAI Audio API 风格，便于从现有系统迁移。

接口地址：https://api.senseaudio.cn/v1/audio/transcriptions
Content-Type：multipart/form-data
鉴权方式：Bearer Token，详见快速接入
模型矩阵：Lite / Standard / Pro / DeepThink，能力差异详见语音识别介绍
实时识别：低延迟场景请使用 WebSocket 实时识别

Authorizations

Authorization

string

必填

Bearer 鉴权头，格式为 Bearer SENSEAUDIO_API_KEY，其中 SENSEAUDIO_API_KEY 为您的 API Key。

Body

multipart/form-data

file

必填

音频文件（wav / mp3 / ogg / flac / aac / m4a / mp4 等），≤ 10 MB。

model

string

必填

模型名称。可选值：senseaudio-asr-lite-1.5-260319、senseaudio-asr-1.5-260319、senseaudio-asr-pro-1.5-260319、senseaudio-asr-deepthink-1.5-260319。

language

string

音频内容语言代码（ISO-639-1，部分 ISO-639-3），如 zh / en / ja；不设置则自动检测。

response_format

string

默认值:"json"

响应格式：json / text / verbose_json。

stream

boolean

默认值:"false"

是否流式返回（lite 不支持）。

enable_punctuation

boolean

默认值:"false"

自动标点（仅 asr / pro，deepthink 静默忽略）。

enable_speaker_diarization

boolean

默认值:"false"

说话人分离（仅 asr / pro）。

max_speakers

integer

最大说话人数 1–20，配合说话人分离使用（仅 asr-pro 支持）。

timestamp_granularities[]

string[]

时间戳粒度：word = 字级 / segment = 句级（仅 asr / pro）。

target_language

string

翻译目标语言代码（lite 不支持，pro / deepthink 支持）。

hotwords

string

热词增强，英文逗号分隔（仅 lite）。

recognize_mode

string

默认值:"auto"

识别模式：auto / record_only（仅 deepthink 流式模式生效）。

abbreviations

boolean

默认值:"false"

缩写词自动替换。

Response

200 — application/json

text

string

识别出的文本内容（所有 response_format 均返回）。

duration

number

音频时长（秒），verbose_json 下返回。

audio_info

object

音频元信息，verbose_json / 流式下返回。

显示 child attributes

audio_info.duration

integer

音频时长（ms）。

audio_info.format

string

音频格式。

segments

object[]

分段结果（需 response_format=verbose_json 或 timestamp_granularities[]=segment）。

显示 child attributes

segments.id

integer

分段索引。

segments.start

number

起始时间（秒）。

segments.end

number

结束时间（秒）。

segments.text

string

本段识别文本。

segments.speaker

string

说话人标识，需开启 enable_speaker_diarization。

segments.translation

string

翻译结果，需设置 target_language。

words

object[]

字级结果，需设置 timestamp_granularities[]=word。

显示 child attributes

words.word

string

字符。

words.start

number

起始时间（秒）。

words.end

number

结束时间（秒）。

响应格式详解

JSON（默认）

{ "text": "识别出的文本内容" }

Text

纯文本，Content-Type: text/plain。

识别出的文本内容

Verbose JSON

{
  "text": "道可道非常道",
  "duration": 2.1,
  "audio_info": { "duration": 5230, "format": "wav" },
  "segments": [
    {
      "id": 0,
      "start": 0.0,
      "end": 2.0,
      "text": "道可道非常道",
      "speaker": "speaker_0",
      "translation": "Translated"
    }
  ],
  "words": [
    { "word": "道", "start": 0.27, "end": 0.51 },
    { "word": "可", "start": 0.57, "end": 0.81 }
  ]
}

流式响应 (SSE)

Content-Type: text/event-stream

data: {"delta": {"text": "增量文本"}, "finish_reason": null}
data: {"delta": {"text": "。"}, "finish_reason": "stop", "audio_info": {...}}
data: [DONE]

字段	说明
`delta.text`	本次返回的增量文本
`finish_reason`	`null`（进行中）/ `stop`（完成）/ `error`（错误）

语言支持

language 用于指定音频内容的语言（留空则自动检测）；target_language 将识别结果翻译为另一语言。

各模型参数支持

模型	`language`	`target_language`
`senseaudio-asr-lite-1.5-260319`	✅	❌
`senseaudio-asr-1.5-260319`	✅	❌
`senseaudio-asr-pro-1.5-260319`	✅	✅
`senseaudio-asr-deepthink-1.5-260319`	✅	✅

部分模型仅支持 language 或 target_language，请以上表为准。

senseaudio-asr-lite-1.5-260319 支持语种

代码	语言	代码	语言	代码	语言
`zh`	中文	`en`	英文	`yue`	粤语
`ja`	日文	`ko`	韩文	`vi`	越南语
`id`	印尼语	`th`	泰语	`ms`	马来语
`tl`/`fil`	菲律宾语	`ar`	阿拉伯语	`hi`	印地语
`bg`	保加利亚语	`hr`	克罗地亚语	`cs`	捷克语
`da`	丹麦语	`nl`	荷兰语	`et`	爱沙尼亚语
`fi`	芬兰语	`el`	希腊语	`hu`	匈牙利语
`ga`	爱尔兰语	`lv`	拉脱维亚语	`lt`	立陶宛语
`mt`	马耳他语	`pl`	波兰语	`pt`	葡萄牙语
`ro`	罗马尼亚语	`sk`	斯洛伐克语	`sl`	斯洛文尼亚语
`sv`	瑞典语

senseaudio-asr-1.5-260319 / senseaudio-asr-pro-1.5-260319 支持语种

代码	语言	代码	语言	代码	语言
`ar`	阿拉伯语	`yue`	粤语	`zh`	中文
`nl`	荷兰语	`en`	英文	`fr`	法语
`de`	德语	`id`	印尼语	`it`	意大利语
`ja`	日文	`ko`	韩文	`ms`	马来语
`pt`	葡萄牙语	`ru`	俄语	`es`	西班牙语
`th`	泰语	`tr`	土耳其语	`ur`	乌尔都语
`vi`	越南语

senseaudio-asr-deepthink-1.5-260319 支持语种

同 senseaudio-asr-1.5-260319 / senseaudio-asr-pro-1.5-260319 表，用于翻译输出。

各模型调用示例

senseaudio-asr-lite-1.5-260319

轻量级模型。热词增强示例：

curl https://api.senseaudio.cn/v1/audio/transcriptions \
  -H "Authorization: Bearer $SENSEAUDIO_API_KEY" \
  -F file="@meeting.wav" \
  -F model="senseaudio-asr-lite-1.5-260319" \
  -F language="zh" \
  -F hotwords="张三,李四,项目Alpha,季度复盘"

{ "text": "张三和李四负责项目Alpha的季度复盘工作" }

senseaudio-asr-1.5-260319

标准模型。字级 / 句级时间戳示例：

curl https://api.senseaudio.cn/v1/audio/transcriptions \
  -H "Authorization: Bearer $SENSEAUDIO_API_KEY" \
  -F file="@interview.wav" \
  -F model="senseaudio-asr-1.5-260319" \
  -F response_format="verbose_json" \
  -F "timestamp_granularities[]=word"

senseaudio-asr-pro-1.5-260319

专业版。说话人分离 + 字级时间戳 + 翻译：

curl https://api.senseaudio.cn/v1/audio/transcriptions \
  -H "Authorization: Bearer $SENSEAUDIO_API_KEY" \
  -F file="@meeting.wav" \
  -F model="senseaudio-asr-pro-1.5-260319" \
  -F response_format="verbose_json" \
  -F enable_speaker_diarization="true" \
  -F max_speakers="4" \
  -F "timestamp_granularities[]=word" \
  -F target_language="en"

senseaudio-asr-deepthink-1.5-260319

深度理解模型。翻译示例：

curl https://api.senseaudio.cn/v1/audio/transcriptions \
  -H "Authorization: Bearer $SENSEAUDIO_API_KEY" \
  -F file="@complex_audio.mp3" \
  -F model="senseaudio-asr-deepthink-1.5-260319" \
  -F target_language="en"

{ "text": "The weather is nice today, suitable for going out for a walk." }

错误处理

错误时返回非 200 状态码，响应体：

{
  "code": "invalid",
  "message": "file is required"
}

HTTP	`code`	说明
400	`invalid`	参数错误
429	`rate_limit_error`	请求频率过高
500	`internal_error`	服务端错误

说明

Authorizations

Body

Response

响应格式详解

JSON（默认）

Text

Verbose JSON

流式响应 (SSE)

语言支持

各模型参数支持

senseaudio-asr-lite-1.5-260319 支持语种

senseaudio-asr-1.5-260319 / senseaudio-asr-pro-1.5-260319 支持语种

senseaudio-asr-deepthink-1.5-260319 支持语种

各模型调用示例

senseaudio-asr-lite-1.5-260319

senseaudio-asr-1.5-260319

senseaudio-asr-pro-1.5-260319

senseaudio-asr-deepthink-1.5-260319

错误处理

相关指南

授权

请求体

响应

​说明

​Authorizations

​Body

​Response

​响应格式详解

​JSON（默认）

​Text

​Verbose JSON

​流式响应 (SSE)

​语言支持

​各模型参数支持

​senseaudio-asr-lite-1.5-260319 支持语种

​senseaudio-asr-1.5-260319 / senseaudio-asr-pro-1.5-260319 支持语种

​senseaudio-asr-deepthink-1.5-260319 支持语种

​各模型调用示例

​senseaudio-asr-lite-1.5-260319

​senseaudio-asr-1.5-260319

​senseaudio-asr-pro-1.5-260319

​senseaudio-asr-deepthink-1.5-260319

​错误处理

​相关指南

授权

请求体

响应

说明

Authorizations

Body

Response

响应格式详解

JSON（默认）

Text

Verbose JSON

流式响应 (SSE)

语言支持

各模型参数支持

senseaudio-asr-lite-1.5-260319 支持语种

senseaudio-asr-1.5-260319 / senseaudio-asr-pro-1.5-260319 支持语种

senseaudio-asr-deepthink-1.5-260319 支持语种

各模型调用示例

senseaudio-asr-lite-1.5-260319

senseaudio-asr-1.5-260319

senseaudio-asr-pro-1.5-260319

senseaudio-asr-deepthink-1.5-260319

错误处理

相关指南