Home Herramientas IA Guías IA Modelos IA Creadores IA 🛒 Comprar Empezar
🎬 KLING AI ⏱ 4 min read 🗣️ Avatar v2

Avatar v2 — Technical Guide

Convierte cualquier foto de retrato en un video hablante: sube una foto y proporciona audio o escribe lo que deberían decir, y la IA anima la cara con movimiento natural y sincronización labial

🗣️

Avatar v2

klingai video /app/avatar →
Convierte cualquier foto de retrato en un video hablante: sube una foto y proporciona audio o escribe lo que deberían decir, y la IA anima la cara con movimiento natural y sincronización labial
Avatar v2 da vida a fotos estáticas. Sube un retrato de tu personaje y proporciona audio: ya sea subiendo una grabación o escribiendo las palabras y dejando que la IA genere la voz, y el resultado es un video donde la persona en la foto parece hablar de manera natural con movimiento realista de cabeza, parpadeo de ojos y movimientos labiales perfectamente sincronizados.

Esto es diferente de Lip Sync, que requiere un video existente. Avatar comienza a partir de una sola fotografía estática. La IA añade todo el movimiento: sutiles inclinaciones de cabeza, parpadeos naturales, cambios en la expresión facial y animación precisa de la boca, creando un video convincente de cabeza hablante a partir de nada más que una imagen estática.

Dos modos de audio cubren cada caso de uso. Subir Audio te permite usar cualquier discurso pregrabado, voz en off, clip de podcast o narración traducida. El modo Escribir Texto te permite escribir el diálogo, elegir una voz del catálogo, seleccionar un idioma y emoción (feliz, triste, enojado, sorprendido y más), ajustar la velocidad de habla, y la IA se encarga de todo en un solo paso.

Un aviso opcional te permite guiar el estado de ánimo y el estilo de gesto: describe la expresión, nivel de energía o emoción y la IA ajusta el movimiento de la cabeza y la animación facial para que coincidan. El resultado es un video completo de cabeza hablante listo para redes sociales, respuestas de atención al cliente, materiales de capacitación, anuncios de productos o mensajes de video personalizados.
✦ Best Results Tips
👤 Retrato Frontal con Buena Iluminación
Usa una foto bien iluminada donde la cara sea claramente visible desde el frente. Cabeza centrada, ojos mirando a la cámara, sonrisa neutral o ligera. Evita gafas de sol, máscaras o sombras pesadas en la cara.
🎭 El Aviso Controla el Estado de Ánimo, No el Discurso
El campo de aviso controla la expresión y el estilo de gesto, no lo que dice la persona. Escribe cosas como confiado y enérgico o calmado y reflexivo. El discurso real proviene del archivo de audio o del texto escrito.
⌨️ Escribe Texto para los Resultados Más Rápidos
El modo Escribir Texto genera la voz y sincroniza los labios en un solo paso: no es necesario grabar o encontrar un archivo de audio. Elige una voz, establece la emoción, escribe las palabras y la IA hace el resto.
😊 Elige la Emoción Correcta
Al usar el modo Escribir Texto, la configuración de emoción cambia cómo suena la voz y cómo se mueve la cara. Feliz añade calidez y sonrisas ligeras, enojado añade intensidad, triste añade suavidad. Alinea la emoción con el contenido.
⏱️ Mantén el Audio por Debajo de 60 Segundos
Los clips de audio más cortos producen la animación de mayor calidad. Menos de 60 segundos es ideal: la IA mantiene la consistencia del movimiento natural a lo largo de todo. Clips más largos pueden desvirtuar la calidad de expresión.
📐 Enmarcado de Cabeza y Hombros
Los mejores resultados provienen de fotos enmarcadas desde la parte superior del pecho hacia arriba. Demasiado cuerpo completo reduce el detalle de la cara. Un recorte demasiado ajustado no deja espacio para el movimiento natural de la cabeza durante la animación.

Avatar v2 — Available Models

Avatar Standard
Default
kling-v2-avatar
Natural lip-sync and expressive motion from portrait + audio.
Mode: std
Avatar Pro
kling-v2-avatar
Higher fidelity, smoother motion, improved expressivity.
Mode: pro
📥 You Give
🖼️Character Photo 🎤Audio (TTS or Upload) 🎭Expression Prompt
AI Magic
klingai
🎬 You Get
🎬 Video
Quality modes
Standard
Professional
TTS emotions
😐 Neutral 😊 Happy 😠 Angry 😢 Sad 😨 Fearful 🤢 Disgusted 😲 Surprised
⏱️
5 min
Max duration
🎤
Upload (MP3/WAV/M4A)
Audio source
🎤
TTS
Audio source
🌐
English, Chinese
TTS languages

💰 Avatar v2 — Pricing

Estimated cost
Failed jobs are automatically refunded
The Avatar 2.0 feature allows you to upload character images, add voiceovers, and describe the character’s expressions to generate lifelike dynamic avatar videos. The newly upgraded Avatar 2.0 dramatically enhances performance, offering full coverage for 5-minute-long content scenes!

Showcase Kling Avatar

Prompt Excited and joyful, the child raises her hands covered in paint, laughing and interacting with the colorful art supplies on the table, camera zooms in.
Input
Input
Output
Prompt Selfie of a young lady with a bright smile, her eyes sparkling with excitement as she sits in the driver's seat. Very Subtile handheld camera mouvement. No cars passing by. No distortions. Very natural mouvements
Input
Input
Output
Prompt With a joyful expression Santa laughs and interacts with the camera, gesturing with open hands wearing white gloves, exuding holiday cheer, surrounded by festive lights and decorations.
Input
Input
Output
Prompt While talking, they excitedly shook their heads and swayed their bodies. Finally, they clenched their fists and decided to set off, jumping and skipping happily.
Input
Input
Output
Prompt Put hands together in front of your chest, and finally hold them together and tell a story naturally.
Input
Input
Output
Prompt He raised his hand to touch his glasses and then angrily pointed at the camera with his finger.
Input
Input
Output
Prompt Patient and gentle explanations, occasionally glancing at the item in the hand, maintaining a smile, with natural movement.
Input
Input
Output
Prompt Professional explanations, natural movements, and sometimes use gestures to assist in the explanation.
Input
Input
Output
Prompt The singer sings earnestly, enjoying the stage with a smile, her body movements swaying naturally in coordination with the performance.
Input
Input
Output
Prompt The female singer sings to the audience while looking confident, occasionally smiling at the camera, hand on the microphone, natural arm movements.
Input
Input
Output
Prompt In a commercial advertisement, a person holds a product in one hand and speaks directly to the camera. The gesture is deliberate and confident.
Input
Input
Output
Prompt The expression is intoxicated, emotions high, gently shaking the head. The snake around the neck moves as light reflects off its body, gradually zooming in on the face.
Input
Input
Output
Prompt Smiling, swaying confidently while rapping, holding a microphone. Eyes focused on the audience, natural and fluid movements. Occasional head movements.
Input
Input
Output
Prompt Confidently posing with a sultry gaze, the figure exudes an aura of mystery and allure, captivating the audience with every movement.
Input
Input
Output
Prompt A teacher is speaking politely and earnestly.
Input
Input
Output
Prompt Confidently holding a smartphone, standing in an empty street, exuding a mysterious aura with a slight smile.
Input
Input
Output
Prompt The man is angry, shown in both facial expression and action.
Input
Input
Output
Prompt Smiling warmly at the camera, she gently touches her necklace, exuding confidence and grace.
Input
Input
Output

🗣️ Avatar v2

Probar Avatar v2