video | Kling AI
Avatar v2
ポートレート写真を話す動画に変換します — 写真をアップロードし、音声を提供するか、話すべき内容を入力してください。AIが自然な動きと口の同期で顔をアニメーション化します。
video
Avatar Standard
Avatar Pro
Kling AI
Avatar v2は静止画に命を吹き込みます。キャラクターのポートレートをアップロードし、音声を提供します — 録音をアップロードするか、言葉を入力してAIに声を生成させます — その結果、写真の中の人物が自然に話しているように見える動画が生成されます。リアルな頭の動き、まばたき、そして完璧に同期した口の動きが特徴です。
これは、既存の動画が必要なLip Syncとは異なります。Avatarは単一の静止写真から始まります。AIがすべての動きを追加します — 微妙な頭の傾き、自然なまばたき、表情の変化、そして正確な口のアニメーション — 静止画像から説得力のあるトーキングヘッド動画を作成します。
2つの音声モードがすべての使用ケースをカバーします。Upload Audioでは、事前に録音されたスピーチ、ナレーション、ポッドキャストクリップ、または翻訳されたナレーションを使用できます。Type Textモードでは、対話を書き、カタログから声を選び、言語と感情(幸せ、悲しい、怒っている、驚いているなど)を選択し、話す速度を調整し、AIがすべてを一度のステップで処理します。
オプションのプロンプトを使用して、ムードやジェスチャースタイルをガイドできます — 表現、エネルギーレベル、または感情を説明すると、AIが頭の動きと顔のアニメーションを調整します。その結果、ソーシャルメディア、カスタマーサポートの応答、トレーニング資料、製品発表、またはパーソナライズされたビデオメッセージの準備が整った完全なトーキングヘッド動画が得られます。
これは、既存の動画が必要なLip Syncとは異なります。Avatarは単一の静止写真から始まります。AIがすべての動きを追加します — 微妙な頭の傾き、自然なまばたき、表情の変化、そして正確な口のアニメーション — 静止画像から説得力のあるトーキングヘッド動画を作成します。
2つの音声モードがすべての使用ケースをカバーします。Upload Audioでは、事前に録音されたスピーチ、ナレーション、ポッドキャストクリップ、または翻訳されたナレーションを使用できます。Type Textモードでは、対話を書き、カタログから声を選び、言語と感情(幸せ、悲しい、怒っている、驚いているなど)を選択し、話す速度を調整し、AIがすべてを一度のステップで処理します。
オプションのプロンプトを使用して、ムードやジェスチャースタイルをガイドできます — 表現、エネルギーレベル、または感情を説明すると、AIが頭の動きと顔のアニメーションを調整します。その結果、ソーシャルメディア、カスタマーサポートの応答、トレーニング資料、製品発表、またはパーソナライズされたビデオメッセージの準備が整った完全なトーキングヘッド動画が得られます。
Available Models
Avatar Standard Std
kling-v2-avatar
Natural lip-sync and expressive motion from portrait + audio.
Avatar Pro Pro
kling-v2-avatar
Higher fidelity, smoother motion, improved expressivity.
ベストな結果
良い照明の前向きポートレート
顔が正面からはっきりと見える明るい写真を使用してください。中心に頭、カメラを見つめる目、中立的またはわずかな笑顔。サングラス、マスク、または顔に重い影を避けてください。
プロンプトはムードを制御し、スピーチを制御しない
プロンプトフィールドは表現とジェスチャースタイルを制御します — 人が何を言うかではありません。自信に満ちたエネルギッシュなものや、落ち着いて考え込んでいるものを書くことができます。実際のスピーチは音声ファイルまたは入力されたテキストから来ます。
最速の結果を得るためにテキストを入力
Type Textモードは、声を生成し、口を一度のステップで同期させます — 録音や音声ファイルを見つける必要はありません。声を選び、感情を設定し、言葉を書き、AIが残りを処理します。
適切な感情を選択
Type Textモードを使用する際、感情設定は声の響きと顔の動きに影響を与えます。幸せは温かみとわずかな笑顔を加え、怒りは強さを加え、悲しみは柔らかさを加えます。感情を内容に合わせてください。
音声は60秒未満に保つ
短い音声クリップは最高の品質のアニメーションを生み出します。60秒未満が理想的です — AIは自然な動きの一貫性を維持します。長いクリップは表現の質がずれる可能性があります。
頭と肩のフレーミング
最良の結果は、上胸から上の写真から得られます。全身が多すぎると顔の詳細が減ります。切り取りがきつすぎると、アニメーション中に自然な頭の動きの余地がなくなります。
ガイド
Avatar v2
🎬
Video
Avatar v2 — Technical Guide
Turn any portrait photo into a talking video — upload a photo and provide audio or type what they should say, and the AI animates the face with natural movement and lip sync