Yazılım

NVIDIA video görüşmelerinde çığır açacak bir sıkıştırma teknolojisi geliştirdi: Maxine

NVIDIA yapay zeka ekibi video görüşmelerinde çığır açacak bir sıkıştırma teknolojisi geliştirdi. Yaygın olarak kullanılan H264 video sıkıştırma formatının onda biri bant genişliğini kullanan Maxine çok daha kaliteli bir görüntü sunuyor.

Maxine’in gücü aslında sıkıştırmadan değil yapay zekadan geliyor. Çünkü video gibi büyük bant tüketen veriyi sıkıştırıp göndermekten ziyade video görüşmesi yapan kişinin genel görüntüsünü “keyframe” (anahtar kare) olarak ilk başta bir kere gönderip daha sonra sadece görüşmeyi yapan kişinin yüz hatlarını takip ederek bu hareket noktalarını gönderiyor. Alıcı tarafta yapay zeka motoru bu noktaları daha önceden aldığı anahtar kare üzerinde uygulayarak görüşme yapan kişinin görüntüsünü yeniden oluşturuyor. Böylece 0.1165 KB/frame gibi düşük bir bant genişliğinde bile çok daha net bir görüntü elde ediliyor.


Maxine bütün görüntüyü göndermek yerine sadece anahtar kare olarak bir görüntü gönderip daha sonra sadece yüz hatlarının koordinatlarını gönderiyor. Görüntü alıcıda yeniden üretiliyor.

Çok düşük bant tüketen bu sıkıştırma(!) tekniği sayesinde bilhassa Kovid döneminde fazlaca kullanılan ve çoğu zaman kalabalık yapılan toplantı, uzaktan eğitim gibi video görüşmelerinde kişilerin görüntüleri iletilirken tasarruf edilen bant genişliğinde daha kaliteli ve kesintisiz ses ve ekran paylaşımları yapılması sağlanacak.

Maxine düşük bant genişliğinde klasik h264 sıkıştırmasına nazaran çok daha net bir görüntü sağlıyor.

Yapay zekanın beraberinde getirdiği ilginç özellikler

Maxine’de görüşmeyi yapan kişinin yüz hatları yapay zeka ile takip edildiğinden orijinal görüntüde kişi başını sağa sola çevirmeye başlasa bile bu koordinatlar kişinin ilk başta gönderilen önden görünümüne göre normalize edilip yeniden üretiliyor ve hedef ekranda kişi hep kameraya doğrudan bakıyormuş gibi yansıyor.

Maxine teknolojisinde kaynak videoda kişi başka yöne doğru dönse de yüz hatları yeniden hesaplanarak hedef ekranda hep doğrudan kameraya bakıyor izlenimi veriliyor.

Bir diğer ilginç özellik; hedef ekranda kişinin orijinal görüntüsü yerine Apple’ın iPhone’larda sunduğu “animoji” karakterleri gibi 3d animasyon karakterleri kullanılabiliyor. Böylece kişi video görüşmelerine kendi görüntüsü ile değil mimiklerini birebir taklid eden 3d karakterlerle katılabiliyor.

Apple’ın iPhone’larda kullandığı “animoji” mantığı Maxine’le de mümkün.

Kaynak: NVIDIA

BT Magazin

BT Magazin, 13 Mayıs 2016'da yerli girişimleri tanıtmak için kuruldu.

View Comments

Recent Posts

THY’den yeni reklam: Türkiye’nin efsaneleri Türk Hava Yolları ile keşfedin!

https://www.youtube.com/watch?v=vKEbhHvZom4 Türk Hava Yolları (THY), Burak Özçivit’in başrolünde yer aldığı yeni reklam filmiyle Türkiye'nin tarihi…

2 hafta ago

Paslanmaz Depo ve Paslanmaz Reaktör Kullanım Çeşitleri

Endüstriyel üretimin vazgeçilmez unsurlarından olan paslanmaz depo ve paslanmaz reaktör sistemleri, hijyen, sağlamlık ve uzun…

2 hafta ago

Togg İçin Geliştirilen Buluş “Haftanın Patenti” Seçildi

Togg'da ürün yöneticisi olarak görev yapan Elif Uzun'un buluşçusu olduğu patent, Türk Patent ve Marka…

2 hafta ago

Çin, Hainan Açıklarında Su Altı Veri Merkezleriyle Bilişimde Yeni Bir Dönem Başlatıyor

Çin, teknoloji altyapısını denizin derinliklerine taşıyarak yepyeni bir sayfa açıyor. Hainan açıklarında başlatılan su altı…

3 hafta ago

ITS Istanbul Summit 2025: Başakşehir’de Teknoloji, Yatırım ve İnovasyon Buluşması

Başakşehir Belediyesi'nin ev sahipliğinde ve Türkiye Yazılımcılar Federasyonu (TÜYAFED) organizasyonuyla düzenlenen ITS Istanbul Summit 2025,…

4 hafta ago

TROY Kartlar Artık Google Play’de Doğrudan Kullanılabilecek

Türkiye’nin yerli ödeme sistemi TROY, dijital ekosistemdeki varlığını güçlendirmeye devam ediyor. 15 Nisan 2025 itibarıyla…

4 hafta ago