A OpenAI revelou nesta quinta-feira (15), uma ferramenta que pode gerar vídeos a partir de instruções de texto.
O novo modelo, apelidado de ‘Sora’ em homenagem à palavra japonesa “céu”, pode produzir imagens realistas de até um minuto de duração que seguem as instruções do usuário tanto sobre o assunto quanto sobre o estilo. De acordo com uma postagem no blog da empresa, a modelo também é capaz de criar um vídeo baseado em uma imagem estática ou ampliar a filmagem existente com novo material.
“Estamos ensinando IA a compreender e simular o mundo físico em movimento, com o objetivo de treinar modelos que ajudem as pessoas a resolver problemas que exigem interação no mundo real”, diz a postagem do blog.
Um vídeo incluído entre vários exemplos iniciais da empresa foi baseado na sugestão: “Um trailer de filme apresentando as aventuras do homem espacial de 30 anos usando um capacete de motocicleta tricotado de lã vermelha, céu azul, deserto de sal, estilo cinematográfico, filmado em filme 35mm, cores vivas.”
A empresa anunciou que abriu o acesso ao Sora para alguns pesquisadores e criadores de vídeos. Os especialistas fariam uma equipe vermelha do produto, testando-o quanto à suscetibilidade para contornar os termos de serviço da OpenAI, que proíbem “violência extrema, conteúdo sexual, imagens de ódio, semelhança de celebridades ou IP de terceiros”, de acordo com a postagem do blog da empresa. OpenAI só permite acesso limitado a pesquisadores, artistas visuais e cineastas, embora o CEO Sam Altman tenha respondido às solicitações dos usuários no Twitter após o anúncio com videoclipes que ele disse terem sido feitos por Sora. Os vídeos trazem uma marca d’água para mostrar que foram feitos por IA.
A empresa lançou o gerador de imagens estáticas Dall-E em 2021 e o chatbot generativo de IA ChatGPT em novembro de 2022, que rapidamente acumulou 100 milhões de usuários. Outras empresas de IA lançaram ferramentas de geração de vídeo, embora esses modelos só tenham conseguido produzir alguns segundos de filmagem que muitas vezes têm pouca relação com seus prompts. Google e Meta disseram que estão desenvolvendo ferramentas de vídeo generativas, embora não as tenham divulgado ao público. Na quarta-feira, anunciou um experimento para adicionar memória mais profunda ao ChatGPT para que pudesse lembrar mais bate-papos de seus usuários.
A OpenAI não divulgou quantas imagens foram usadas para treinar Sora ou onde os vídeos de treinamento podem ter se originado, além de informar ao New York Times que o corpus continha vídeos que estavam disponíveis publicamente e licenciados pelos proprietários dos direitos autorais. A empresa foi processada diversas vezes por suposta violação de direitos autorais no treinamento de suas ferramentas generativas de IA, que digerem quantidades gigantescas de material extraído da Internet e imitam as imagens ou textos contidos nesses conjuntos de dados.
*Com informações do The Guardian/ Foto de capa: Divulgação/ OpenAI
Acompanhe o Adnews no Instagram e LinkedIn. #WhereTransformationHappens