Yazılım

NVIDIA video görüşmelerinde çığır açacak bir sıkıştırma teknolojisi geliştirdi: Maxine

NVIDIA yapay zeka ekibi video görüşmelerinde çığır açacak bir sıkıştırma teknolojisi geliştirdi. Yaygın olarak kullanılan H264 video sıkıştırma formatının onda biri bant genişliğini kullanan Maxine çok daha kaliteli bir görüntü sunuyor.

Maxine’in gücü aslında sıkıştırmadan değil yapay zekadan geliyor. Çünkü video gibi büyük bant tüketen veriyi sıkıştırıp göndermekten ziyade video görüşmesi yapan kişinin genel görüntüsünü “keyframe” (anahtar kare) olarak ilk başta bir kere gönderip daha sonra sadece görüşmeyi yapan kişinin yüz hatlarını takip ederek bu hareket noktalarını gönderiyor. Alıcı tarafta yapay zeka motoru bu noktaları daha önceden aldığı anahtar kare üzerinde uygulayarak görüşme yapan kişinin görüntüsünü yeniden oluşturuyor. Böylece 0.1165 KB/frame gibi düşük bir bant genişliğinde bile çok daha net bir görüntü elde ediliyor.


Maxine bütün görüntüyü göndermek yerine sadece anahtar kare olarak bir görüntü gönderip daha sonra sadece yüz hatlarının koordinatlarını gönderiyor. Görüntü alıcıda yeniden üretiliyor.

Çok düşük bant tüketen bu sıkıştırma(!) tekniği sayesinde bilhassa Kovid döneminde fazlaca kullanılan ve çoğu zaman kalabalık yapılan toplantı, uzaktan eğitim gibi video görüşmelerinde kişilerin görüntüleri iletilirken tasarruf edilen bant genişliğinde daha kaliteli ve kesintisiz ses ve ekran paylaşımları yapılması sağlanacak.

Maxine düşük bant genişliğinde klasik h264 sıkıştırmasına nazaran çok daha net bir görüntü sağlıyor.

Yapay zekanın beraberinde getirdiği ilginç özellikler

Maxine’de görüşmeyi yapan kişinin yüz hatları yapay zeka ile takip edildiğinden orijinal görüntüde kişi başını sağa sola çevirmeye başlasa bile bu koordinatlar kişinin ilk başta gönderilen önden görünümüne göre normalize edilip yeniden üretiliyor ve hedef ekranda kişi hep kameraya doğrudan bakıyormuş gibi yansıyor.

Maxine teknolojisinde kaynak videoda kişi başka yöne doğru dönse de yüz hatları yeniden hesaplanarak hedef ekranda hep doğrudan kameraya bakıyor izlenimi veriliyor.

Bir diğer ilginç özellik; hedef ekranda kişinin orijinal görüntüsü yerine Apple’ın iPhone’larda sunduğu “animoji” karakterleri gibi 3d animasyon karakterleri kullanılabiliyor. Böylece kişi video görüşmelerine kendi görüntüsü ile değil mimiklerini birebir taklid eden 3d karakterlerle katılabiliyor.

Apple’ın iPhone’larda kullandığı “animoji” mantığı Maxine’le de mümkün.

Kaynak: NVIDIA

BT Magazin

BT Magazin, 13 Mayıs 2016'da yerli girişimleri tanıtmak için kuruldu.

View Comments

Recent Posts

Power BI Eğitim

Power BI, iş dünyasında veri görselleştirme ve iş zekası çözümleri sunan en popüler araçlardan biri…

4 hafta ago

Togg T10X’in yeni rengi Ayder ile tanışın

Togg T10X modelinin seri üretimden çıkışının 2. yıl dönümünde yeni rengi duyurdu: Ayder. Karadeniz'in eşsiz…

2 ay ago

Bayiden çıkan CAR MEKAN’da: Araç Koruma Sanatı

Araç sahipleri için otomobillerini dış etkenlerden koruma ihtiyacı, her geçen gün dahafazla önem kazanıyor. Bu…

2 ay ago

Togg T10X’lere ADAS özellikleri geliyor

Togg T10X araçlara yeni sürümle birlikte ADAS (Advanced Driver Assistant System / Gelişmiş Sürücü Asistan…

2 ay ago

Peşinatsız Araba

Birçok insan için araba sahibi olmak büyük bir hayaldir. Ancak, peşinat gerekliliği, bu hayalin gerçekleşmesini…

2 ay ago

JBL, Xiaomi ve Bluetooth Kulaklık İncelemesi: Hangi Model Size Uygun?

Kulaklık seçimi, müzik tutkunları ve gün içinde sıkça görüşme yapanlar için oldukça önemli bir konu.…

2 ay ago