Aprenda como fazer uma imagem falar e mexer com Inteligência Artificial D-ID. A tecnologia criativa de IA da D-ID captura imagens de rostos e as transforma em vídeos foto realistas de alta qualidade. Apenas com o clique de um botão, ele pode combinar imagens com áudio ou texto para dar-lhes expressão e fala.
A inteligência Artificial do D-ID permite que os usuários transformem qualquer imagem ou vídeo em experiências extraordinárias. A tecnologia é usada por criadores, agências de marketing líderes, empresas de produção e plataformas de mídia social em todo o mundo.
Como fazer uma imagem falar e mexer com Inteligência Artificial D-ID
O studio da D-ID permitir que os usuários criem vídeos com avatares que se movem e falam. Combinando os poderes da tecnologia de animação facial de aprendizado profundo da D-ID com geração de texto GPT-3 e recursos de conversão de texto em imagem de difusão estável permitindo criar vídeos de ponta com o poder da inteligência artificial.
Para quem serve é o D-ID?
Desenvolvido para criadores de conteúdo individuais que desejam usar avatares de IA para criar vídeos impressionantes, dando vida à sua arte, bem como para empresas que desejam usar humanos digitais para uma ampla variedade de fins comerciais.
Qual o tamanho e formato de imagem para usar no D-ID?
- O tamanho da imagem é limitado a 4,5 MB, ao usar a API, vai até 15 MB.
- Formatos suportados – JPEG, JPG, PNG.
Formato de Vídeo D-ID
Todos os vídeos são gerados no formato MP4. A resolução do vídeo de saída depende do AI Presenter que você está usando, bem como do seu plano D-ID Creative Reality™ Studio.
- A resolução de saída padrão do AI Presenter é sempre de até 1280 × 1280 pixels.
- Resolução de saída Premium AI Presenter
- Plano Trial – 720p
- Plano Lite – apresentador premium não suportado
- Planos Pro, Advanced e Enterprise – 1080p
Ao usar o D-ID Creative Reality Studio no plano Trial, a duração do vídeo é limitada a 5 min.
Crie uma imagem personalizada
Como criar rostos para animar no D-ID?
Existem três maneiras de animar rostos no D-ID:
- Selecione um dos avatares pré-fabricados existentes
- Carregue uma imagem facial
- Use o gerador de retratos de texto para imagem com difusão estável.
Faça seu avatar falar
Como fazer o avatar falar?
Existem três maneiras de adicionar voz ao seu vídeo
- Digite o script que deseja que o avatar fale
- Carregue uma gravação de voz
- Use o gerador de texto GPT-3 para escrever um script
Quais formatos e durações de áudio suportados pelo D-ID?
Ao usar o D-ID o tamanho do áudio é limitado a 4,5 MB e até 5 minutos. Ao usar a API, o tamanho do áudio sobe para 15 MB e até 10 minutos. Os Formatos de áudio suportados – MP3, FLAC, M4A, MP4, WAV.
Quais idiomas o D-ID disponibiliza?
O estúdio atualmente suporta 119 idiomas, juntamente com uma variedade de sotaques e estilos de fala.
Posso adicionar pausas para tornar o texto mais realista?
Sim, você pode adicionar quebras em seu script clicando no ícone do cronômetro na parte inferior da caixa de texto. Cada pausa tem 0,5 segundos de duração.
D-ID Versão Grátis
Os vídeos criados na versão grátis terão marca d’água.
Como é a marca d’água?
Depende do seu plano:
- O plano Free Trial e Lite obtém uma marca d’água do logotipo D-ID
- Os usuários do plano Pro obtêm uma pequena marca d’água de IA genérica
- Os usuários Advanced e Enterprise podem personalizar a marca d’água AI, mas não removê-la.
Créditos do D-ID
O que são créditos?
Cada crédito vale até 15 segundos de vídeo, por isso ao gerar vídeos mais longos, os créditos são somados de acordo com a duração do vídeo gerado. Por exemplo, um vídeo de 40 segundos consome 3 créditos.
Evite erros no D-ID
Por que minha imagem foi rejeitada?
Pode ocorrer de sua imagem ou áudio ser rejeitado. Alguns pontos específicos devem ser evitados, por isso vamos analisar 5 razões possíveis:
- A imagem que você está tentando usar falhou no processo de moderação integrado.
- Sua imagem não segue as diretrizes de imagem: câmera de frente, plano médio, expressão neutra, boca fechada .
- Tamanho mínimo da cabeça 200×200 pixels, Iluminação boa e consistente.
- Até 4,5 MB.
- Sem oclusões faciais (óculos de sol, máscaras, viseiras, brincos grandes).
Por que meu áudio/texto foi rejeitado?
Isso provavelmente aconteceu porque a moderação integrada detectou uma violação e, portanto, bloqueou a geração do vídeo. Para superar isso, remova o conteúdo problemático e tente novamente.
Veja também nosso artigo: Criar Imagens do Zero com Inteligência Artificial MidJourney.