Home AIツール AIガイド AIモデル AIクリエイター 🛒 購入 始める
🎬 KLING AI ⏱ 4 min read 🗣️ Avatar v2

Avatar v2 — Technical Guide

ポートレート写真を話す動画に変換します — 写真をアップロードし、音声を提供するか、話すべき内容を入力してください。AIが自然な動きと口の同期で顔をアニメーション化します。

🗣️

Avatar v2

klingai video /app/avatar →
ポートレート写真を話す動画に変換します — 写真をアップロードし、音声を提供するか、話すべき内容を入力してください。AIが自然な動きと口の同期で顔をアニメーション化します。
Avatar v2は静止画に命を吹き込みます。キャラクターのポートレートをアップロードし、音声を提供します — 録音をアップロードするか、言葉を入力してAIに声を生成させます — その結果、写真の中の人物が自然に話しているように見える動画が生成されます。リアルな頭の動き、まばたき、そして完璧に同期した口の動きが特徴です。

これは、既存の動画が必要なLip Syncとは異なります。Avatarは単一の静止写真から始まります。AIがすべての動きを追加します — 微妙な頭の傾き、自然なまばたき、表情の変化、そして正確な口のアニメーション — 静止画像から説得力のあるトーキングヘッド動画を作成します。

2つの音声モードがすべての使用ケースをカバーします。Upload Audioでは、事前に録音されたスピーチ、ナレーション、ポッドキャストクリップ、または翻訳されたナレーションを使用できます。Type Textモードでは、対話を書き、カタログから声を選び、言語と感情(幸せ、悲しい、怒っている、驚いているなど)を選択し、話す速度を調整し、AIがすべてを一度のステップで処理します。

オプションのプロンプトを使用して、ムードやジェスチャースタイルをガイドできます — 表現、エネルギーレベル、または感情を説明すると、AIが頭の動きと顔のアニメーションを調整します。その結果、ソーシャルメディア、カスタマーサポートの応答、トレーニング資料、製品発表、またはパーソナライズされたビデオメッセージの準備が整った完全なトーキングヘッド動画が得られます。
✦ Best Results Tips
👤 良い照明の前向きポートレート
顔が正面からはっきりと見える明るい写真を使用してください。中心に頭、カメラを見つめる目、中立的またはわずかな笑顔。サングラス、マスク、または顔に重い影を避けてください。
🎭 プロンプトはムードを制御し、スピーチを制御しない
プロンプトフィールドは表現とジェスチャースタイルを制御します — 人が何を言うかではありません。自信に満ちたエネルギッシュなものや、落ち着いて考え込んでいるものを書くことができます。実際のスピーチは音声ファイルまたは入力されたテキストから来ます。
⌨️ 最速の結果を得るためにテキストを入力
Type Textモードは、声を生成し、口を一度のステップで同期させます — 録音や音声ファイルを見つける必要はありません。声を選び、感情を設定し、言葉を書き、AIが残りを処理します。
😊 適切な感情を選択
Type Textモードを使用する際、感情設定は声の響きと顔の動きに影響を与えます。幸せは温かみとわずかな笑顔を加え、怒りは強さを加え、悲しみは柔らかさを加えます。感情を内容に合わせてください。
⏱️ 音声は60秒未満に保つ
短い音声クリップは最高の品質のアニメーションを生み出します。60秒未満が理想的です — AIは自然な動きの一貫性を維持します。長いクリップは表現の質がずれる可能性があります。
📐 頭と肩のフレーミング
最良の結果は、上胸から上の写真から得られます。全身が多すぎると顔の詳細が減ります。切り取りがきつすぎると、アニメーション中に自然な頭の動きの余地がなくなります。

Avatar v2 — Available Models

Avatar Standard
Default
kling-v2-avatar
Natural lip-sync and expressive motion from portrait + audio.
Mode: std
Avatar Pro
kling-v2-avatar
Higher fidelity, smoother motion, improved expressivity.
Mode: pro
📥 You Give
🖼️Character Photo 🎤Audio (TTS or Upload) 🎭Expression Prompt
AI Magic
klingai
🎬 You Get
🎬 Video
Quality modes
Standard
Professional
TTS emotions
😐 Neutral 😊 Happy 😠 Angry 😢 Sad 😨 Fearful 🤢 Disgusted 😲 Surprised
⏱️
5 min
Max duration
🎤
Upload (MP3/WAV/M4A)
Audio source
🎤
TTS
Audio source
🌐
English, Chinese
TTS languages

💰 Avatar v2 — Pricing

Estimated cost
Failed jobs are automatically refunded
The Avatar 2.0 feature allows you to upload character images, add voiceovers, and describe the character’s expressions to generate lifelike dynamic avatar videos. The newly upgraded Avatar 2.0 dramatically enhances performance, offering full coverage for 5-minute-long content scenes!

Showcase Kling Avatar

Prompt Excited and joyful, the child raises her hands covered in paint, laughing and interacting with the colorful art supplies on the table, camera zooms in.
Input
Input
Output
Prompt Selfie of a young lady with a bright smile, her eyes sparkling with excitement as she sits in the driver's seat. Very Subtile handheld camera mouvement. No cars passing by. No distortions. Very natural mouvements
Input
Input
Output
Prompt With a joyful expression Santa laughs and interacts with the camera, gesturing with open hands wearing white gloves, exuding holiday cheer, surrounded by festive lights and decorations.
Input
Input
Output
Prompt While talking, they excitedly shook their heads and swayed their bodies. Finally, they clenched their fists and decided to set off, jumping and skipping happily.
Input
Input
Output
Prompt Put hands together in front of your chest, and finally hold them together and tell a story naturally.
Input
Input
Output
Prompt He raised his hand to touch his glasses and then angrily pointed at the camera with his finger.
Input
Input
Output
Prompt Patient and gentle explanations, occasionally glancing at the item in the hand, maintaining a smile, with natural movement.
Input
Input
Output
Prompt Professional explanations, natural movements, and sometimes use gestures to assist in the explanation.
Input
Input
Output
Prompt The singer sings earnestly, enjoying the stage with a smile, her body movements swaying naturally in coordination with the performance.
Input
Input
Output
Prompt The female singer sings to the audience while looking confident, occasionally smiling at the camera, hand on the microphone, natural arm movements.
Input
Input
Output
Prompt In a commercial advertisement, a person holds a product in one hand and speaks directly to the camera. The gesture is deliberate and confident.
Input
Input
Output
Prompt The expression is intoxicated, emotions high, gently shaking the head. The snake around the neck moves as light reflects off its body, gradually zooming in on the face.
Input
Input
Output
Prompt Smiling, swaying confidently while rapping, holding a microphone. Eyes focused on the audience, natural and fluid movements. Occasional head movements.
Input
Input
Output
Prompt Confidently posing with a sultry gaze, the figure exudes an aura of mystery and allure, captivating the audience with every movement.
Input
Input
Output
Prompt A teacher is speaking politely and earnestly.
Input
Input
Output
Prompt Confidently holding a smartphone, standing in an empty street, exuding a mysterious aura with a slight smile.
Input
Input
Output
Prompt The man is angry, shown in both facial expression and action.
Input
Input
Output
Prompt Smiling warmly at the camera, she gently touches her necklace, exuding confidence and grace.
Input
Input
Output

🗣️ Avatar v2

Avatar v2を試す