Yazılım

NVIDIA video görüşmelerinde çığır açacak bir sıkıştırma teknolojisi geliştirdi: Maxine

NVIDIA yapay zeka ekibi video görüşmelerinde çığır açacak bir sıkıştırma teknolojisi geliştirdi. Yaygın olarak kullanılan H264 video sıkıştırma formatının onda biri bant genişliğini kullanan Maxine çok daha kaliteli bir görüntü sunuyor.

Maxine’in gücü aslında sıkıştırmadan değil yapay zekadan geliyor. Çünkü video gibi büyük bant tüketen veriyi sıkıştırıp göndermekten ziyade video görüşmesi yapan kişinin genel görüntüsünü “keyframe” (anahtar kare) olarak ilk başta bir kere gönderip daha sonra sadece görüşmeyi yapan kişinin yüz hatlarını takip ederek bu hareket noktalarını gönderiyor. Alıcı tarafta yapay zeka motoru bu noktaları daha önceden aldığı anahtar kare üzerinde uygulayarak görüşme yapan kişinin görüntüsünü yeniden oluşturuyor. Böylece 0.1165 KB/frame gibi düşük bir bant genişliğinde bile çok daha net bir görüntü elde ediliyor.


Maxine bütün görüntüyü göndermek yerine sadece anahtar kare olarak bir görüntü gönderip daha sonra sadece yüz hatlarının koordinatlarını gönderiyor. Görüntü alıcıda yeniden üretiliyor.

Çok düşük bant tüketen bu sıkıştırma(!) tekniği sayesinde bilhassa Kovid döneminde fazlaca kullanılan ve çoğu zaman kalabalık yapılan toplantı, uzaktan eğitim gibi video görüşmelerinde kişilerin görüntüleri iletilirken tasarruf edilen bant genişliğinde daha kaliteli ve kesintisiz ses ve ekran paylaşımları yapılması sağlanacak.

Maxine düşük bant genişliğinde klasik h264 sıkıştırmasına nazaran çok daha net bir görüntü sağlıyor.

Yapay zekanın beraberinde getirdiği ilginç özellikler

Maxine’de görüşmeyi yapan kişinin yüz hatları yapay zeka ile takip edildiğinden orijinal görüntüde kişi başını sağa sola çevirmeye başlasa bile bu koordinatlar kişinin ilk başta gönderilen önden görünümüne göre normalize edilip yeniden üretiliyor ve hedef ekranda kişi hep kameraya doğrudan bakıyormuş gibi yansıyor.

Maxine teknolojisinde kaynak videoda kişi başka yöne doğru dönse de yüz hatları yeniden hesaplanarak hedef ekranda hep doğrudan kameraya bakıyor izlenimi veriliyor.

Bir diğer ilginç özellik; hedef ekranda kişinin orijinal görüntüsü yerine Apple’ın iPhone’larda sunduğu “animoji” karakterleri gibi 3d animasyon karakterleri kullanılabiliyor. Böylece kişi video görüşmelerine kendi görüntüsü ile değil mimiklerini birebir taklid eden 3d karakterlerle katılabiliyor.

Apple’ın iPhone’larda kullandığı “animoji” mantığı Maxine’le de mümkün.

Kaynak: NVIDIA

BT Magazin

BT Magazin, 13 Mayıs 2016'da yerli girişimleri tanıtmak için kuruldu.

View Comments

Recent Posts

TEKNOFEST 2025: Türkiye’nin En Büyük Teknoloji Festivali Heyecanla Başlıyor!

Türkiye’nin en büyük teknoloji festivali TEKNOFEST, 8. yılında da gençlerin inovasyon ve mühendislik tutkusuna ev…

4 gün ago

Basaksehir Living Lab 2025 Kick-Off Etkinliğine Kayıtlar Başladı

Başakşehir Belediyesi ve Başakşehir Living Lab, 20 Şubat 2025’te girişimcilik ekosisteminin geleceğini şekillendirecek önemli bir…

1 hafta ago

TÜBİTAK’tan Yeni Alışveriş Platformu MarketFiyati.org.tr ile Market Fiyatlarını Karşılaştırın

TÜBİTAK BİLGEM tarafından geliştirilen MarketFiyati.org.tr, tüketicilere büyük market zincirlerindeki fiyatları karşılaştırma imkânı sunan yeni bir…

1 hafta ago

Togg 50 bininci T10x’i sahibi ile buluşturdu.

https://www.youtube.com/watch?v=cLLG9A-Ei7k Türkiye’nin yerli ve milli otomobili Togg, önemli bir kilometre taşını daha geride bıraktı. 2018…

1 hafta ago

ABD’de 3 dakikada banka hesabı açmak mı? Türk girişimi CENOA ile tanışın.

Cenoa, Amerika’dan Türkiye’ye para transferini kolaylaştıran bir fintech girişimidir. E-ticaret yapanlar ve freelancer’lar için yüksek…

2 hafta ago

SEO ve SEO Hizmeti

Günümüzde dijital pazarlamanın önemi giderek artarken, işletmelerin çevrimiçi varlıklarını güçlendirmek için SEO (Search Engine Optimization)…

3 hafta ago