平台介绍
面向文本、语音、音乐、图片、视频等多模态内容生产场景,提供可直接接入业务系统的 API 与平台能力。
#核心能力
文本生成
S1 / S1-Lite 旗舰多模态模型,支持深度推理、视觉问答、函数调用与流式输出。
文本转语音
富有情感的 AI 语音、低延迟流式输出、精细参数控制。
语音识别
文件转写与实时录音,支持结构化理解与说话人区分。
自定义音色
音色克隆与文生音色,统一通过 voice_id 调用。
音乐生成
基于提示词生成歌词,并进一步生成完整歌曲。
图片生成
同步与异步调用,支持常规尺寸与高分辨率图片生成。
视频生成
支持文生视频与图生视频,覆盖故事板创作流程。
智能体 (Agent)
构建实时语音对话式智能体,支持自定义角色与音色。
#快速接入
#关键命名说明
model:模型名称,例如senseaudio-tts-1.5-260319。voice_id:音色标识,用于在 TTS 请求中指定系统、克隆或文生音色。file_id:上传文件后的唯一标识,常用于音色克隆、语音识别。task_id/id:异步任务标识,用于图片、音乐、视频等异步任务状态查询。
#联系我们
如需技术支持或商务咨询,请发送邮件至 senseaudio.support@sensetime.com。
