🎬 KLING AI ⏱ 3 min read 🎵 文本转音频

Text to Audio — Technical Guide

用文字描述任何声音，AI会创造出来——雨声、脚步声、人群噪音、音乐、环境音景，任何你能想象的音频

🎵

Text to Audio

klingai audio /app/kling-audio-studio →

用文字描述任何声音，AI会创造出来——雨声、脚步声、人群噪音、音乐、环境音景，任何你能想象的音频

文本转音频将文字转化为声音。描述你想听的内容——雨水打在窗户上、体育场里人群的欢呼声、咖啡馆背景噪音伴随着低声交谈和浓缩咖啡机的声音——AI生成与您描述相匹配的音频片段。

无需视频输入，无需图像。只需一个文本提示和一个持续时间。你写下声音应该是什么，选择片段持续的时间（3到10秒），然后AI生成一个可直接使用的音频文件。

这在两个主要情况下非常有用。首先，为内容添加环境氛围——视频、播客、演示或社交媒体帖子背景音频。其次，创建在库存库中找不到的特定音效——独特的组合、不寻常的质感，或非常特定的声音，这些声音需要数小时才能获取或录制。

将多个生成的片段叠加在一起以构建复杂的音景。分别生成一个雨声片段、一个远处雷声片段和一个柔和的钢琴片段，然后在编辑器中将它们组合在一起，创造出丰富的多层音频环境。

✦ Best Results Tips

🎬 像描述场景一样描述声音

像是在向一个闭眼的人描述场景一样写下你的提示。雨水打在铁皮屋顶上，远处雷声和远方狗吠的声音，描绘出比单纯的雨声更丰富的音频画面。

🎵 为音乐指定乐器和情绪

对于音乐内容，命名乐器、节奏和情绪。柔和的原声吉他、慢节奏、忧郁而温暖，给AI提供明确的方向，而不仅仅是悲伤的音乐。

⏱️ 将持续时间与目的匹配

3到5秒的短片段最适合单一的音效，如关门声或玻璃破碎声。对于需要感觉连续的环境音景和背景质感，使用完整的10秒。

🎯 每个片段一个声音类别

生成音效和音乐作为单独的片段，而不是在一个提示中请求两者。一个森林环境片段加上一个单独的柔和长笛片段，让你在组合时有更多的控制。

🔊 具体说明距离和空间

在大理石上清晰的脚步声与空荡走廊中远处的回声脚步声听起来非常不同。描述声音的空间特性——AI理解接近度、回声和房间大小。

🔄 生成变体进行比较

AI每次对声音描述的解释都不同。多次生成相同的提示，选择最符合你心中想法的版本——质感和时机的细微差别会产生真正的影响。

Text to Audio — Available Models

Text-to-Audio

Default

text-to-audio

Generates sound effects from text prompt (3-10s).

📥 You Give

📝Sound Description Prompt ⏱️Duration

✨

AI Magic

klingai

🎵 You Get

🎵 Audio

Duration

10s

📝

200 chars

Prompt limit

💰 Text to Audio — Pricing

Estimated cost

—

Failed jobs are automatically refunded