NVIDIA video görüşmelerinde çığır açacak bir sıkıştırma teknolojisi geliştirdi: Maxine

NVIDIA yapay zeka ekibi video görüşmelerinde çığır açacak bir sıkıştırma teknolojisi geliştirdi. Yaygın olarak kullanılan H264 video sıkıştırma formatının onda biri bant genişliğini kullanan Maxine çok daha kaliteli bir görüntü sunuyor.

Maxine’in gücü aslında sıkıştırmadan değil yapay zekadan geliyor. Çünkü video gibi büyük bant tüketen veriyi sıkıştırıp göndermekten ziyade video görüşmesi yapan kişinin genel görüntüsünü “keyframe” (anahtar kare) olarak ilk başta bir kere gönderip daha sonra sadece görüşmeyi yapan kişinin yüz hatlarını takip ederek bu hareket noktalarını gönderiyor. Alıcı tarafta yapay zeka motoru bu noktaları daha önceden aldığı anahtar kare üzerinde uygulayarak görüşme yapan kişinin görüntüsünü yeniden oluşturuyor. Böylece 0.1165 KB/frame gibi düşük bir bant genişliğinde bile çok daha net bir görüntü elde ediliyor.


Maxine bütün görüntüyü göndermek yerine sadece anahtar kare olarak bir görüntü gönderip daha sonra sadece yüz hatlarının koordinatlarını gönderiyor. Görüntü alıcıda yeniden üretiliyor.

Çok düşük bant tüketen bu sıkıştırma(!) tekniği sayesinde bilhassa Kovid döneminde fazlaca kullanılan ve çoğu zaman kalabalık yapılan toplantı, uzaktan eğitim gibi video görüşmelerinde kişilerin görüntüleri iletilirken tasarruf edilen bant genişliğinde daha kaliteli ve kesintisiz ses ve ekran paylaşımları yapılması sağlanacak.

Maxine düşük bant genişliğinde klasik h264 sıkıştırmasına nazaran çok daha net bir görüntü sağlıyor.

Yapay zekanın beraberinde getirdiği ilginç özellikler

Maxine’de görüşmeyi yapan kişinin yüz hatları yapay zeka ile takip edildiğinden orijinal görüntüde kişi başını sağa sola çevirmeye başlasa bile bu koordinatlar kişinin ilk başta gönderilen önden görünümüne göre normalize edilip yeniden üretiliyor ve hedef ekranda kişi hep kameraya doğrudan bakıyormuş gibi yansıyor.

Maxine teknolojisinde kaynak videoda kişi başka yöne doğru dönse de yüz hatları yeniden hesaplanarak hedef ekranda hep doğrudan kameraya bakıyor izlenimi veriliyor.

Bir diğer ilginç özellik; hedef ekranda kişinin orijinal görüntüsü yerine Apple’ın iPhone’larda sunduğu “animoji” karakterleri gibi 3d animasyon karakterleri kullanılabiliyor. Böylece kişi video görüşmelerine kendi görüntüsü ile değil mimiklerini birebir taklid eden 3d karakterlerle katılabiliyor.

Apple’ın iPhone’larda kullandığı “animoji” mantığı Maxine’le de mümkün.

Kaynak: NVIDIA

BT Magazin

BT Magazin, 13 Mayıs 2016'da yerli girişimleri tanıtmak için kuruldu.

Bunlar da hoşunuza gidebilir...