Kling Video
Genera videos de IA a partir de texto o fotos — con diálogo hablado incorporado, guiones gráficos de múltiples tomas, control de cámara y elementos de personajes para una identidad consistente a través de las escenas
Lo que distingue esto de herramientas de video más simples es el audio nativo incorporado. Escribe diálogos en tu aviso utilizando referencias de voz, y los personajes realmente hablan en el video generado con sus labios perfectamente sincronizados. No se necesita un paso separado de sincronización de labios: el video sale con voz, sonido y visuales juntos.
El modo de múltiples tomas te permite construir secuencias de guiones gráficos de hasta 6 escenas en una sola generación. Cada escena tiene su propio aviso y duración, creando una mini narrativa — una toma de apertura, una reacción, un cambio de escena, un primer plano, una revelación. Puedes escribir cada escena tú mismo o dejar que la IA divida tu aviso en tomas óptimas automáticamente.
Los elementos te permiten hacer referencia a personajes preentrenados para que la IA sepa exactamente cómo lucen. Las referencias de voz te permiten asignar voces específicas a los personajes en el diálogo. Los controles de cámara te dan acercamientos, panorámicas, inclinaciones, órbitas y tomas de grúa. El modo de inicio y fin de fotograma te permite definir el primer y último fotograma del video, y la IA genera la transición entre ellos.
Seis versiones de modelo te dan opciones desde borradores rápidos hasta la máxima calidad cinematográfica, con la v3 ofreciendo las últimas capacidades y la mayor fidelidad.
Available Models
Top-tier cinematic video with native multilingual audio and lip-sync. Multi-shot storyboards up to 6 scenes with AI Director. Physics-aware motion, 3+ character consistency, flexible 3-15s duration. Best quality available for prompt-driven creative work.
Industrial-grade character and voice consistency using Elements 3.0 references. Native audio with voice binding and cloning, perfect lip-sync across shots. Multi-shot via references. The model you choose when your character must look identical in every frame.
Advanced multimodal reasoning model with excellent start/end frame transitions and motion transfer. Strong visual consistency in single-shot mode. Precursor to v3 Omni architecture.
Advanced motion engine with fluid actions and stable camera. First model with native audio support and voice control — characters can speak with assigned voices. Strong temporal coherence for cinematic final clips.
Speed-optimized model for rapid iteration. Decent cinematic motion at significantly lower cost and faster generation. Ideal for testing prompt ideas before committing to a higher-tier model.
Master quality tier with improved character motion stability. Professional mode only — designed for polished output rather than quick drafts.
Original master quality tier. Professional mode only. Superseded by v2.1 Master with better stability, but still available for existing workflows.
Reliable mid-generation model at lower cost. Supports Element references for character consistency and camera controls. Good balance of features and affordability.
Original Kling model. Lowest cost for quick experiments and testing basic concepts. Simple text-to-video and image-to-video at minimal credit cost.
Mejores resultados
Galería
Guías
Kling Video — Technical Guide
Generate AI videos from text or photos — with built-in spoken dialogue, multi-shot storyboards, camera control, and character elements for consistent identity across scenes