开始使用

SenseAudio 平台介绍

SenseAudio 开放平台面向语音、音乐、图片、视频等多模态内容生产场景，提供可快速接入业务系统的 API 与平台能力。

平台适用于智能问答、代码助手、Agent 编排、智能助手、教育陪伴、播客、有声书、影视配音、内容创作、营销素材生产、语音交互等场景，帮助开发者以更低接入成本构建稳定、可扩展的 AI 内容生产能力。

核心能力

文本生成

S2 / S2-Lite / S2-Flash 旗舰多模态模型，支持深度推理、视觉问答、函数调用与流式输出。

语音合成

富有情感的 AI 语音、低延迟流式输出、精细参数控制。

语音识别

文件转写与实时录音，支持结构化理解与说话人区分。

人声分离

从音频中分离人声，支持同步处理与异步任务查询。

自定义音色

音色克隆与文生音色，统一通过 voice_id 调用。

音乐生成

基于提示词生成歌词，并进一步生成完整歌曲。

图片生成

同步与异步调用，支持常规尺寸与高分辨率图片生成。

视频生成

支持文生视频与参考图生视频，1080P 高清画面输出。

智能体 (Agent)

构建实时语音对话式智能体，支持自定义角色与音色。

快速接入

快速接入指南

5 分钟完成首个请求。

模型列表

查看全部可调用模型与计费信息。

API 参考

浏览全部 API 端点与参数说明。

常见问题

查看高频问题与处理建议。

关键命名说明

model：模型名称，例如 senseaudio-tts-1.5-260319。
voice_id：音色标识，用于在 TTS 请求中指定系统、克隆或文生音色。
file_id：上传文件后的唯一标识，常用于音色克隆、语音识别。
task_id / id：异步任务标识，用于图片、音乐、视频等异步任务状态查询。

联系我们

如需技术支持或商务咨询，请发送邮件至 senseaudio.support@sensetime.com。

快速接入指南

​核心能力

文本生成

语音合成

语音识别

人声分离

自定义音色

音乐生成

图片生成

视频生成

智能体 (Agent)

​快速接入

快速接入指南

模型列表

API 参考

常见问题

​关键命名说明

​联系我们

核心能力

快速接入

关键命名说明

联系我们