Como fazer uma imagem falar e mexer com Inteligência Artificial D-ID

Aprenda como fazer uma imagem falar e mexer com Inteligência Artificial D-ID. A tecnologia criativa de IA da D-ID captura imagens de rostos e as transforma em vídeos foto realistas de alta qualidade. Apenas com o clique de um botão, ele pode combinar imagens com áudio ou texto para dar-lhes expressão e fala.

A inteligência Artificial do D-ID permite que os usuários transformem qualquer imagem ou vídeo em experiências extraordinárias. A tecnologia é usada por criadores, agências de marketing líderes, empresas de produção e plataformas de mídia social em todo o mundo.

Como fazer uma imagem falar e mexer com Inteligência Artificial D-ID

O studio da D-ID  permitir que os usuários criem vídeos com avatares que se movem e falam. Combinando os poderes da tecnologia de animação facial de aprendizado profundo da D-ID com geração de texto GPT-3 e recursos de conversão de texto em imagem de difusão estável permitindo criar  vídeos de ponta com o poder da inteligência artificial.

Para quem serve é o D-ID?

Desenvolvido para criadores de conteúdo individuais que desejam usar avatares de IA para criar vídeos impressionantes, dando vida à sua arte, bem como para empresas que desejam usar humanos digitais para uma ampla variedade de fins comerciais.

Qual o tamanho e formato de imagem para usar no D-ID?

  • O tamanho da imagem é limitado a 4,5 MB, ao usar a API, vai até 15 MB.
  • Formatos suportados – JPEG, JPG, PNG.

Formato de Vídeo D-ID

 Todos os vídeos são gerados no formato MP4. A resolução do vídeo de saída depende do AI Presenter que você está usando, bem como do seu plano D-ID Creative Reality™ Studio.

  • A resolução de saída padrão do AI Presenter é sempre de até 1280 × 1280 pixels.
  • Resolução de saída Premium AI Presenter
  1. Plano Trial – 720p
  2. Plano Lite – apresentador premium não suportado
  3. Planos Pro, Advanced e Enterprise – 1080p

Ao usar o D-ID Creative Reality Studio no plano Trial, a duração do vídeo é limitada a 5 min.

Crie uma imagem personalizada

Como criar rostos para animar no D-ID?

Existem três maneiras de animar rostos no D-ID:

  1. Selecione um dos avatares pré-fabricados existentes
  2. Carregue uma imagem facial
  3. Use o gerador de retratos de texto para imagem com difusão estável.

Faça seu avatar falar

Como fazer o avatar falar? 

Existem três maneiras de adicionar voz ao seu vídeo

  1. Digite o script  que deseja que o avatar fale
  2. Carregue uma gravação de voz
  3. Use o gerador de texto GPT-3 para escrever um script

Quais formatos e durações de áudio suportados pelo D-ID?

Ao usar o D-ID o tamanho do áudio é limitado a 4,5 MB e até 5 minutos. Ao usar a API, o tamanho do áudio sobe para 15 MB e até 10 minutos. Os Formatos de áudio suportados – MP3, FLAC, M4A, MP4, WAV.

Quais idiomas o D-ID disponibiliza?

O estúdio atualmente suporta 119 idiomas, juntamente com uma variedade de sotaques e estilos de fala.

Posso adicionar pausas para tornar o texto mais realista?

Sim, você pode adicionar quebras em seu script clicando no ícone do cronômetro na parte inferior da caixa de texto. Cada pausa tem 0,5 segundos de duração.

D-ID Versão Grátis

Os vídeos criados na versão grátis terão marca d’água.

Como é a marca d’água?

Depende do seu plano:

  • O plano Free Trial e Lite obtém uma marca d’água do logotipo D-ID
  • Os usuários do plano Pro obtêm uma pequena marca d’água de IA genérica
  • Os usuários Advanced e Enterprise podem personalizar a marca d’água AI, mas não removê-la.

Créditos do D-ID

O que são créditos? 

Cada crédito vale até 15 segundos de vídeo, por isso ao gerar vídeos mais longos, os créditos são somados de acordo com a duração do vídeo gerado. Por exemplo, um vídeo de 40 segundos consome 3 créditos.

Evite erros no D-ID

Por que minha imagem foi rejeitada?

Pode ocorrer de sua imagem ou áudio ser rejeitado. Alguns pontos específicos devem ser evitados, por isso vamos analisar 5 razões possíveis:

  1. A imagem que você está tentando usar falhou no processo de moderação integrado.
  2.  Sua imagem não segue as diretrizes de imagem: câmera de frente, plano médio, expressão neutra, boca fechada .
  3. Tamanho mínimo da cabeça 200×200 pixels, Iluminação boa e consistente.
  4. Até 4,5 MB.
  5. Sem oclusões faciais (óculos de sol, máscaras, viseiras, brincos grandes).

Por que meu áudio/texto foi rejeitado?

Isso provavelmente aconteceu porque a moderação integrada detectou uma violação e, portanto, bloqueou a geração do vídeo. Para superar isso, remova o conteúdo problemático e tente novamente.

 

Veja também nosso artigo: Criar Imagens do Zero com Inteligência Artificial MidJourney.

error: Conteúdo Protegido!