AutoFlip: Framework AI bikinan Google yang super pintar

 Source : Google AI Blog

Video yang difilmkan dan diedit untuk televisi dan desktop biasanya dibuat dan dilihat dalam rasio aspek lanskap (16:9 atau 4:3). Namun, dengan meningkatnya jumlah pengguna yang membuat dan mengonsumsi konten di perangkat seluler, rasio aspek historis tidak selalu sesuai dengan tampilan yang digunakan untuk menonton. Pendekatan tradisional untuk membingkai ulang video ke rasio aspek yang berbeda biasanya melibatkan pemotongan statis, yaitu, menentukan area pandang kamera, lalu memotong konten visual yang berada di luar. Sayangnya, pendekatan pemotongan statis ini sering kali menghasilkan hasil yang tidak memuaskan karena variasi komposisi dan gaya gerak kamera. Namun, pendekatan yang lebih dipesan lebih dahulu biasanya memerlukan kurator video untuk secara manual mengidentifikasi konten yang menonjol pada setiap bingkai, melacak transisinya dari bingkai ke bingkai, dan menyesuaikan area pemangkasan yang sesuai di seluruh video. Proses ini seringkali membosankan, memakan waktu, dan rawan kesalahan.

Untuk mengatasi masalah ini, kami dengan senang hati mengumumkan AutoFlip, kerangka kerja sumber terbuka untuk pembingkaian ulang video cerdas. AutoFlip dibangun di atas kerangka MediaPipe yang memungkinkan pengembangan jalur pipa untuk memproses data multimodal deret waktu. Mengambil video (diambil secara santai atau diedit secara profesional) dan dimensi target (lanskap, persegi, potret, dll.) sebagai input, AutoFlip menganalisis konten video, mengembangkan strategi pelacakan dan pemotongan yang optimal, dan menghasilkan video output dengan durasi yang sama di rasio aspek yang diinginkan.


Ringkasan AutoFlip

AutoFlip memberikan solusi otomatis sepenuhnya untuk pembingkaian ulang video dengan cerdas, memanfaatkan teknologi deteksi dan pelacakan objek berkemampuan ML yang canggih untuk memahami konten video secara cerdas. AutoFlip mendeteksi perubahan komposisi yang menandakan perubahan adegan untuk mengisolasi adegan untuk diproses. Dalam setiap pengambilan gambar, analisis video digunakan untuk mengidentifikasi konten yang menonjol sebelum adegan dibingkai ulang dengan memilih mode kamera dan jalur yang dioptimalkan untuk konten tersebut.


Deteksi Bidikan (Adegan)

Adegan atau bidikan adalah rangkaian video yang berkesinambungan tanpa pemotongan (atau lompatan). Untuk mendeteksi terjadinya perubahan bidikan, AutoFlip menghitung histogram warna setiap frame dan membandingkannya dengan frame sebelumnya. Jika distribusi warna bingkai berubah pada kecepatan yang berbeda dari jendela historis geser, perubahan bidikan ditandai. AutoFlip buffer video sampai adegan selesai sebelum membuat keputusan pembingkaian ulang, untuk mengoptimalkan pembingkaian ulang untuk seluruh adegan.

Analisis Konten Video

Kami menggunakan model deteksi objek berbasis pembelajaran mendalam untuk menemukan konten yang menarik dan menonjol dalam bingkai. Konten ini biasanya mencakup orang dan hewan, tetapi elemen lain dapat diidentifikasi, tergantung pada aplikasinya, termasuk overlay teks dan logo untuk iklan, atau deteksi gerakan dan bola untuk olahraga.

Model deteksi wajah dan objek diintegrasikan ke dalam AutoFlip melalui MediaPipe, yang menggunakan TensorFlow Lite pada CPU. Struktur ini memungkinkan AutoFlip dapat diperluas, sehingga pengembang dapat dengan mudah menambahkan algoritme deteksi baru untuk kasus penggunaan dan konten video yang berbeda. Setiap jenis objek dikaitkan dengan nilai bobot, yang menentukan kepentingan relatifnya — semakin tinggi bobotnya, semakin besar pengaruh fitur tersebut saat menghitung jalur kamera.



Membingkai ulang/Refarming 

Setelah mengidentifikasi subjek yang menarik pada setiap frame, keputusan logis tentang bagaimana membingkai ulang konten untuk tampilan baru dapat dibuat. AutoFlip secara otomatis memilih strategi pembingkaian ulang yang optimal — stasioner, panning, atau pelacakan — tergantung pada cara objek berperilaku selama adegan (misalnya, bergerak atau diam). Dalam mode stasioner, area pandang kamera yang dibingkai ulang ditetapkan pada posisi di mana konten penting dapat dilihat di sebagian besar pemandangan. Mode ini dapat secara efektif meniru sinematografi profesional di mana kamera dipasang pada tripod stasioner atau di mana stabilisasi pasca-pemrosesan diterapkan. Dalam kasus lain, yang terbaik adalah menggeser kamera, menggerakkan area pandang dengan kecepatan konstan. Mode pelacakan menyediakan pelacakan objek menarik yang berkelanjutan dan stabil saat mereka bergerak di dalam bingkai.

Berdasarkan mana dari tiga strategi pembingkaian ulang yang dipilih algoritme, AutoFlip kemudian menentukan jendela pemangkasan yang optimal untuk setiap bingkai, sambil mempertahankan konten yang diinginkan dengan sebaik-baiknya. Sementara kotak pembatas melacak objek fokus dalam pemandangan, mereka biasanya menunjukkan jitter yang cukup besar dari bingkai ke bingkai dan, akibatnya, tidak cukup untuk menentukan jendela pemangkasan. Sebagai gantinya, kami menyesuaikan viewport pada setiap frame melalui proses optimasi Euclidean-norm, di mana kami meminimalkan residu antara jalur kamera halus (polinomial derajat rendah) dan kotak pembatas.


Grafik konfigurasi AutoFlip menyediakan pengaturan untuk upaya terbaik atau pembingkaian ulang yang diperlukan. Jika menjadi tidak mungkin untuk mencakup semua wilayah yang diperlukan (misalnya, ketika terlalu menyebar di bingkai), jalur pipa akan secara otomatis beralih ke strategi yang kurang agresif dengan menerapkan efek kotak surat, melapisi gambar untuk mengisi bingkai. Untuk kasus di mana latar belakang terdeteksi sebagai warna solid, warna ini digunakan untuk membuat padding yang mulus; jika tidak, versi buram dari bingkai asli digunakan.


Kasus Penggunaan AutoFlip

Kami sangat senang untuk merilis alat ini langsung ke pengembang dan pembuat film, mengurangi hambatan kreativitas desain dan jangkauan mereka melalui otomatisasi pengeditan video. Kemampuan untuk mengadaptasi format video apa pun ke berbagai rasio aspek menjadi semakin penting karena keragaman perangkat untuk konsumsi konten video terus meningkat pesat. Baik kasus penggunaan Anda potret ke lanskap, lanskap ke potret, atau bahkan penyesuaian kecil seperti 4:3 hingga 16:9, AutoFlip memberikan solusi untuk pembingkaian ulang video yang cerdas, otomatis, dan adaptif.


Apa berikutnya?
Seperti algoritme pembelajaran mesin lainnya, AutoFlip dapat memperoleh manfaat dari peningkatan kemampuan untuk mendeteksi objek yang relevan dengan maksud video, seperti deteksi speaker untuk wawancara atau deteksi wajah animasi pada kartun. Selain itu, masalah umum muncul ketika video input memiliki lapisan penting di tepi layar (seperti teks atau logo) karena sering kali terpotong dari tampilan. Dengan menggabungkan deteksi teks/logo dan teknologi pengecatan gambar, kami berharap AutoFlip versi mendatang dapat memposisikan ulang objek latar depan agar lebih sesuai dengan rasio aspek baru. Terakhir, dalam situasi di mana padding diperlukan, teknologi deep uncrop dapat memberikan peningkatan kemampuan untuk memperluas di luar area yang dapat dilihat aslinya.

Sementara kami bekerja untuk meningkatkan AutoFlip secara internal di Google, kami mendorong kontribusi dari pengembang dan pembuat film di komunitas open source.

Ucapan Terima Kasih
Kami ingin berterima kasih kepada rekan-rekan kami yang berkontribusi pada Autoflip, Alexander Panagopoulos, Jenny Jin, Brian Mulford, Yuan Zhang, Alex Chen, Xue Yang, Mickey Wang, Justin Parra, Hartwig Adam, Jingbin Wang, dan Weilong Yang; Tim MediaPipe yang membantu open source, Jiuqiang Tang, Tyler Mullen, Mogan Shieh, Ming Guang Yong, dan Chuo-Ling Chang.


Komentar

Populer

Khasiat Batu Pasir Intan - Iklan10.com

G.I. Joe di ending film Transformer Rise of the beast