Roll quer recriar tiros de dolly e muito mais usando IA generativa
Quem conhece Faizan Buzdar, até recentemente vice-presidente de gestão de produtos da Box, provavelmente associa o empresário ao Convo, plataforma de espaço de trabalho digital popular entre as redações (incluindo esta). Mas Buzdar, cuja formação é em engenharia eletrônica, há muito tem um fascínio por vídeo e efeitos visuais.
"Um entusiasta de vídeo e fotografia ao longo da vida, eu fazia vídeos sozinho há anos, mas percebi que a produção de vídeo permaneceu em grande parte manual com pouca inovação nas últimas décadas, especialmente para tarefas demoradas como edição de vídeo", Buzdar me disse por e-mail. . "Enquanto isso, notei que a câmera do iPhone e a tecnologia do sensor tiveram melhorias de função passo a passo nos últimos anos, tornando-se quase equivalentes em qualidade de imagem às DSLRs."
Então, enquanto estava na Box, Buzdar diz que decidiu tentar combinar vídeo - um meio cada vez mais popular - com inovações em IA e aprendizado de máquina para tentar melhorar a experiência de captura e edição de vídeo. Buzdar contratou Adeel Abbas, um engenheiro de vídeo que, enquanto estava no Twitter, contribuiu para a infraestrutura que alimenta os recursos de transmissão ao vivo do site, ao lado de Saj Khan, Fahad Yaqub e a colega executiva da Box, Michelle Oh, para explorar as fronteiras da produção de vídeo acelerada pela tecnologia.
Role é o resultado. Um novo aplicativo para iOS, oferece bokeh, fotos multicam, gráficos em movimento e - talvez o mais intrigante para mim - controles deslizantes, dollies e jibs "simulados por IA".
Créditos da imagem:Rolar
"Nossa missão é inovar o mundo da produção de vídeo de alta qualidade e nos tornar o novo padrão para criação de conteúdo de vídeo", continuou Buzdar. "Criar um ótimo vídeo é um grande investimento inicial em equipamento, aprender a usar esse equipamento, software para edição - estamos nos livrando de tudo isso."
O Roll, voltado para o mercado "prosumer" (pense em influenciadores e podcasters, mas também em empresas que criam seu próprio material de marketing), consiste em dois produtos: o aplicativo Roll para iPhone e o aplicativo da web. O aplicativo para iPhone captura e grava vídeos e os carrega automaticamente na nuvem da Roll para armazenamento e processamento. O aplicativo da web, por sua vez, é onde a filmagem pode ser visualizada, acessada, compartilhada, baixada e editada por um ou uma equipe de criadores de conteúdo.
Claro, os aplicativos de vídeo custam dez centavos. Então, o que torna o Roll diferente? Por um lado, o aplicativo é voltado para casos de uso que a maioria dos aplicativos de câmera não são, diz Buzdar - como entrevistas remotas em vídeo, podcasts em vídeo e depoimentos de clientes. Embora o Zoom, o Microsoft Teams e o Google Meet preencham a necessidade até certo ponto, Buzdar argumenta que eles não foram projetados para produção de vídeo de "alta qualidade".
O Roll também emprega vários efeitos em tempo real para (aparentemente) oferecer uma gama maior de opções de pós-produção do que a maioria dos aplicativos de captura de vídeo. Por exemplo, Roll registra no padrão HEVC, oferecendo aproximadamente o dobro da taxa de bits e maior qualidade de imagem para o mesmo tamanho de arquivo. E o Roll pode gravar e processar até duas tomadas de câmera - uma tomada de grande angular e uma tomada de close-up - ao mesmo tempo, permitindo que os usuários criem vídeos com perspectivas efetivamente "multicâmera".
A interface de edição do rolo.Créditos da imagem:Rolar
Concedido, multicam não é particularmente único - roll está longe de ser o primeiro aplicativo a oferecê-lo. Mas Buzdar diz que a mágica está no pós-processamento. O Roll aproveita a IA generativa para recriar salas no espaço 3D, para que os criadores de conteúdo possam mover uma câmera virtual semelhante a um videogame, simulando movimentos como panorâmica de um lado para o outro com um carrinho ou guindaste.
“Hoje, a IA generativa é frequentemente associada à criação de conteúdo falso do nada”, disse Buzdar. "Essa não é a nossa filosofia. Não geramos pixels, pessoas ou cenas falsas. Estamos usando IA generativa puramente como uma ferramenta de produtividade - queremos democratizar o acesso à produção de vídeo de maior qualidade."
Buzdar explicou que a IA de Roll foi treinada para entender a profundidade 3D em uma cena, usando dados para medir profundidade e formas independentemente da pessoa sentada na sala. Roll começou a treinar seus algoritmos com conjuntos de dados de código aberto comumente usados para benchmarking na academia, mas depois gravou internamente mais de 22.000 chamadas de vídeo, criando seu próprio banco de dados rico.