Avatar v2 — Technical Guide
Transforme qualquer foto de retrato em um vídeo falante — faça o upload de uma foto e forneça áudio ou digite o que eles devem dizer, e a IA anima o rosto com movimento natural e sincronização labial
Transforme qualquer foto de retrato em um vídeo falante — faça o upload de uma foto e forneça áudio ou digite o que eles devem dizer, e a IA anima o rosto com movimento natural e sincronização labial
Avatar v2 dá vida a fotos paradas. Faça o upload de um retrato do seu personagem e forneça áudio — seja fazendo o upload de uma gravação ou digitando as palavras e deixando a IA gerar a voz — e o resultado é um vídeo onde a pessoa na foto parece falar naturalmente com movimento de cabeça realista, piscadas de olhos e movimentos labiais perfeitamente sincronizados.
Isso é diferente do Lip Sync, que requer um vídeo existente. O Avatar começa a partir de uma única fotografia parada. A IA adiciona todo o movimento — inclinações sutis da cabeça, piscadas naturais dos olhos, mudanças de expressão facial e animação labial precisa — criando um vídeo convincente de uma cabeça falante a partir de nada além de uma imagem estática.
Dois modos de áudio cobrem todos os casos de uso. O Upload de Áudio permite que você use qualquer discurso pré-gravado, narração, clipe de podcast ou narração traduzida. O modo Digitar Texto permite que você escreva o diálogo, escolha uma voz do catálogo, selecione um idioma e emoção (feliz, triste, bravo, surpreso e mais), ajuste a velocidade de fala, e a IA cuida de tudo em um passo.
Um prompt opcional permite que você guie o humor e o estilo de gesto — descreva a expressão, nível de energia ou emoção e a IA ajusta o movimento da cabeça e a animação facial para corresponder. O resultado é um vídeo completo de cabeça falante pronto para redes sociais, respostas de suporte ao cliente, materiais de treinamento, anúncios de produtos ou mensagens de vídeo personalizadas.
✦ Best Results Tips
👤
Retrato de Frente com Boa Iluminação
Use uma foto bem iluminada onde o rosto esteja claramente visível de frente. Cabeça centralizada, olhos olhando para a câmera, sorriso neutro ou leve. Evite óculos de sol, máscaras ou sombras pesadas no rosto.
🎭
Prompt Controla o Humor, Não a Fala
O campo de prompt controla a expressão e o estilo de gesto — não o que a pessoa diz. Escreva coisas como confiante e enérgico ou calmo e reflexivo. A fala real vem do arquivo de áudio ou do texto digitado.
⌨️
Digite Texto para os Resultados Mais Rápidos
O modo Digitar Texto gera a voz e sincroniza os lábios em um passo — não é necessário gravar ou encontrar um arquivo de áudio. Escolha uma voz, defina a emoção, escreva as palavras e a IA faz o resto.
😊
Escolha a Emoção Certa
Ao usar o modo Digitar Texto, a configuração de emoção altera como a voz soa e como o rosto se move. Feliz adiciona calor e sorrisos leves, bravo adiciona intensidade, triste adiciona suavidade. Combine a emoção com o conteúdo.
⏱️
Mantenha o Áudio Abaixo de 60 Segundos
Clipes de áudio mais curtos produzem a animação de maior qualidade. Abaixo de 60 segundos é ideal — a IA mantém a consistência do movimento natural ao longo do tempo. Clipes mais longos podem desviar na qualidade da expressão.
📐
Enquadramento de Cabeça e Ombros
Os melhores resultados vêm de fotos enquadradas do peito para cima. Um corpo inteiro demais reduz os detalhes do rosto. Um corte muito apertado não deixa espaço para o movimento natural da cabeça durante a animação.
Avatar v2 — Available Models
kling-v2-avatar
Natural lip-sync and expressive motion from portrait + audio.
Mode: std
kling-v2-avatar
Higher fidelity, smoother motion, improved expressivity.
Mode: pro
📥
You Give
🖼️Character Photo
🎤Audio (TTS or Upload)
🎭Expression Prompt
TTS emotions
😐 Neutral
😊 Happy
😠 Angry
😢 Sad
😨 Fearful
🤢 Disgusted
😲 Surprised
🎤
Upload (MP3/WAV/M4A)
Audio source
🌐
English, Chinese
TTS languages
💰 Avatar v2 — Pricing
Estimated cost
—
Failed jobs are automatically refunded
The Avatar 2.0 feature allows you to upload character images, add voiceovers, and describe the character’s expressions to generate lifelike dynamic avatar videos. The newly upgraded Avatar 2.0 dramatically enhances performance, offering full coverage for 5-minute-long content scenes!
✦
Showcase Kling Avatar
Prompt
Excited and joyful, the child raises her hands covered in paint, laughing and interacting with the colorful art supplies on the table, camera zooms in.
Input
Prompt
Selfie of a young lady with a bright smile, her eyes sparkling with excitement as she sits in the driver's seat. Very Subtile handheld camera mouvement. No cars passing by. No distortions. Very natural mouvements
Input
Prompt
With a joyful expression Santa laughs and interacts with the camera, gesturing with open hands wearing white gloves, exuding holiday cheer, surrounded by festive lights and decorations.
Input
Prompt
While talking, they excitedly shook their heads and swayed their bodies. Finally, they clenched their fists and decided to set off, jumping and skipping happily.
Input
Prompt
Put hands together in front of your chest, and finally hold them together and tell a story naturally.
Input
Prompt
He raised his hand to touch his glasses and then angrily pointed at the camera with his finger.
Input
Prompt
Patient and gentle explanations, occasionally glancing at the item in the hand, maintaining a smile, with natural movement.
Input
Prompt
Professional explanations, natural movements, and sometimes use gestures to assist in the explanation.
Input
Prompt
The singer sings earnestly, enjoying the stage with a smile, her body movements swaying naturally in coordination with the performance.
Input
Prompt
The female singer sings to the audience while looking confident, occasionally smiling at the camera, hand on the microphone, natural arm movements.
Input
Prompt
In a commercial advertisement, a person holds a product in one hand and speaks directly to the camera. The gesture is deliberate and confident.
Input
Prompt
The expression is intoxicated, emotions high, gently shaking the head. The snake around the neck moves as light reflects off its body, gradually zooming in on the face.
Input
Prompt
Smiling, swaying confidently while rapping, holding a microphone. Eyes focused on the audience, natural and fluid movements. Occasional head movements.
Input
Prompt
Confidently posing with a sultry gaze, the figure exudes an aura of mystery and allure, captivating the audience with every movement.
Input
Prompt
A teacher is speaking politely and earnestly.
Input
Prompt
Confidently holding a smartphone, standing in an empty street, exuding a mysterious aura with a slight smile.
Input
Prompt
The man is angry, shown in both facial expression and action.
Input
Prompt
Smiling warmly at the camera, she gently touches her necklace, exuding confidence and grace.
Input