banner

Notícias

May 22, 2023

Roll quer recriar tiros de dolly e muito mais usando IA generativa

Quem conhece Faizan Buzdar, até recentemente vice-presidente de gestão de produtos da Box, provavelmente associa o empresário ao Convo, plataforma de espaço de trabalho digital popular entre as redações (incluindo esta). Mas Buzdar, cuja formação é em engenharia eletrônica, há muito tem um fascínio por vídeo e efeitos visuais.

"Um entusiasta de vídeo e fotografia ao longo da vida, eu fazia vídeos sozinho há anos, mas percebi que a produção de vídeo permaneceu em grande parte manual com pouca inovação nas últimas décadas, especialmente para tarefas demoradas como edição de vídeo", Buzdar me disse por e-mail. . "Enquanto isso, notei que a câmera do iPhone e a tecnologia do sensor tiveram melhorias de função passo a passo nos últimos anos, tornando-se quase equivalentes em qualidade de imagem às DSLRs."

Então, enquanto estava na Box, Buzdar diz que decidiu tentar combinar vídeo - um meio cada vez mais popular - com inovações em IA e aprendizado de máquina para tentar melhorar a experiência de captura e edição de vídeo. Buzdar contratou Adeel Abbas, um engenheiro de vídeo que, enquanto estava no Twitter, contribuiu para a infraestrutura que alimenta os recursos de transmissão ao vivo do site, ao lado de Saj Khan, Fahad Yaqub e a colega executiva da Box, Michelle Oh, para explorar as fronteiras da produção de vídeo acelerada pela tecnologia.

Role é o resultado. Um novo aplicativo para iOS, oferece bokeh, fotos multicam, gráficos em movimento e - talvez o mais intrigante para mim - controles deslizantes, dollies e jibs "simulados por IA".

Créditos da imagem:Rolar

"Nossa missão é inovar o mundo da produção de vídeo de alta qualidade e nos tornar o novo padrão para criação de conteúdo de vídeo", continuou Buzdar. "Criar um ótimo vídeo é um grande investimento inicial em equipamento, aprender a usar esse equipamento, software para edição - estamos nos livrando de tudo isso."

O Roll, voltado para o mercado "prosumer" (pense em influenciadores e podcasters, mas também em empresas que criam seu próprio material de marketing), consiste em dois produtos: o aplicativo Roll para iPhone e o aplicativo da web. O aplicativo para iPhone captura e grava vídeos e os carrega automaticamente na nuvem da Roll para armazenamento e processamento. O aplicativo da web, por sua vez, é onde a filmagem pode ser visualizada, acessada, compartilhada, baixada e editada por um ou uma equipe de criadores de conteúdo.

Claro, os aplicativos de vídeo custam dez centavos. Então, o que torna o Roll diferente? Por um lado, o aplicativo é voltado para casos de uso que a maioria dos aplicativos de câmera não são, diz Buzdar - como entrevistas remotas em vídeo, podcasts em vídeo e depoimentos de clientes. Embora o Zoom, o Microsoft Teams e o Google Meet preencham a necessidade até certo ponto, Buzdar argumenta que eles não foram projetados para produção de vídeo de "alta qualidade".

O Roll também emprega vários efeitos em tempo real para (aparentemente) oferecer uma gama maior de opções de pós-produção do que a maioria dos aplicativos de captura de vídeo. Por exemplo, Roll registra no padrão HEVC, oferecendo aproximadamente o dobro da taxa de bits e maior qualidade de imagem para o mesmo tamanho de arquivo. E o Roll pode gravar e processar até duas tomadas de câmera - uma tomada de grande angular e uma tomada de close-up - ao mesmo tempo, permitindo que os usuários criem vídeos com perspectivas efetivamente "multicâmera".

A interface de edição do rolo.Créditos da imagem:Rolar

Concedido, multicam não é particularmente único - roll está longe de ser o primeiro aplicativo a oferecê-lo. Mas Buzdar diz que a mágica está no pós-processamento. O Roll aproveita a IA generativa para recriar salas no espaço 3D, para que os criadores de conteúdo possam mover uma câmera virtual semelhante a um videogame, simulando movimentos como panorâmica de um lado para o outro com um carrinho ou guindaste.

“Hoje, a IA generativa é frequentemente associada à criação de conteúdo falso do nada”, disse Buzdar. "Essa não é a nossa filosofia. Não geramos pixels, pessoas ou cenas falsas. Estamos usando IA generativa puramente como uma ferramenta de produtividade - queremos democratizar o acesso à produção de vídeo de maior qualidade."

Buzdar explicou que a IA de Roll foi treinada para entender a profundidade 3D em uma cena, usando dados para medir profundidade e formas independentemente da pessoa sentada na sala. Roll começou a treinar seus algoritmos com conjuntos de dados de código aberto comumente usados ​​para benchmarking na academia, mas depois gravou internamente mais de 22.000 chamadas de vídeo, criando seu próprio banco de dados rico.

COMPARTILHAR