Konuşmacının Dudaklarını Diğer Dillere Senkronize Eden Yazılım Sistemi Geliştirildi
Hindistan'daki bir araştırmacı ekibi, kelimeleri farklı bir dile çevirmek ve bir konuşmacının dudaklarının o dil ile senkronize olarak hareket etmesini sağlamak için bir sistem geliştirdi.
28.03.2020 tarihli yazı 7603 kez okunmuştur.
“LipGAN” adı verilen bu teknoloji, orijinal videodaki dudak hareketlerini, çevrilen konuşmaya uyacak şekilde düzeltebilir. Hindistan, Haydarabad'daki Uluslararası Bilgi Teknolojileri Enstitüsü'nde bilgisayar bilimi yüksek lisans öğrencisi olan Prajwal KR, "Dil engelleri arasında etkili bir şekilde iletişim kurmak tüm dünyada insanlar için her zaman büyük bir istek olmuştur . Bugün, internet çevrimiçi dersler, video konferanslar, filmler, TV şovları vb. ile dolu. Şu anki çeviri sistemleri, bu tür video içeriği için yalnızca çevrilmiş bir konuşma çıktısı veya metinsel altyazılar oluşturabilirler. Görsel bileşeni işlemezler. Sonuç olarak, videoya bindirildiğinde çevrilen konuşma, dudak hareketleri ile ses senkronize olmayacaktır.” dedi.
►İlginizi Çekebilir: Denetimli ve Denetimsiz Makine Öğrenmesi Nedir?
Prajwal, konuşmadan konuşmaya çeviri sistemleri üzerine inşa ettiğini ve kaynak dilde konuşan bir kişinin videosunu çekebilen ve aynı tarzda bir konuşmacının hedef dilde konuşan bir videosunu ses tarzı ve dudak hareketleri hedef dil konuşmasına uyduğunu bunu yaparak çeviri sistemi bütünsel hale geldiğini ve çevrilmiş görsel-işitsel içerik oluşturma ve kullanma konusundaki kullanıcı deneyimini önemli ölçüde geliştirdiğini söylüyor.
Prajwal LipGAN teknolojisini , “Yüz Yüze Çeviri ( Face-to-Face Translation), bir dizi karmaşık özellik gerektirir. Konuşan bir kişinin videosu göz önüne alındığında, tercüme edilecek iki önemli bilgi akışı var: Görsel ve Konuşma bilgisi. Sistem ilk olarak otomatik konuşma tanıma (ASR) kullanarak konuşmadaki cümleleri kopyalar. Bu, mobil cihazlarda sesli yardımcılarda (örneğin Google Asistan) kullanılan teknolojinin aynısıdır. Daha sonra, transkripsiyonlu cümleler, Nöral Makine Çevirisi (Neural Machine Translation) modelleri kullanılarak istenen dile çevrilir ve sonra çeviri, dijital asistanların kullandığı teknoloji olan bir metin-konuşma sentezleyicisi ile konuşulan kelimelere dönüştürülür. Konuşma ilk girişten senkronize çıkışa gider. Böylece dudak senkronizasyonu ile de tamamen çevrilmiş bir video elde ediyoruz.” şeklinde açıklıyor.
Prajwal, Dünyanın dört bir yanındaki milyonlarca yabancı dil öğrencisi çevrimiçi olarak mevcut olan mükemmel eğitim içeriğini anlayamadığını, çünkü bunlar ingilizce olduğunu ve bu sistemin dünyanın her yerindeki öğrencilerin diğer dillerde çevrimiçi ders videolarını anlamalarına yardımcı olmak için kullanılmasının faydalı olacağını söylüyor. Yüz Yüze Çeviri, yalnızca konuşmayı çevirmekle kalmayıp dudakla senkronize bir yüz görüntüsü de sağladığından, metinden metne veya konuşmadan konuşmaya çeviri konusunda bir ilerlemedir.
►İlginizi Çekebilir: Denetimli ve Denetimsiz Makine Öğrenmesi Nedir?
Prajwal, konuşmadan konuşmaya çeviri sistemleri üzerine inşa ettiğini ve kaynak dilde konuşan bir kişinin videosunu çekebilen ve aynı tarzda bir konuşmacının hedef dilde konuşan bir videosunu ses tarzı ve dudak hareketleri hedef dil konuşmasına uyduğunu bunu yaparak çeviri sistemi bütünsel hale geldiğini ve çevrilmiş görsel-işitsel içerik oluşturma ve kullanma konusundaki kullanıcı deneyimini önemli ölçüde geliştirdiğini söylüyor.
Prajwal LipGAN teknolojisini , “Yüz Yüze Çeviri ( Face-to-Face Translation), bir dizi karmaşık özellik gerektirir. Konuşan bir kişinin videosu göz önüne alındığında, tercüme edilecek iki önemli bilgi akışı var: Görsel ve Konuşma bilgisi. Sistem ilk olarak otomatik konuşma tanıma (ASR) kullanarak konuşmadaki cümleleri kopyalar. Bu, mobil cihazlarda sesli yardımcılarda (örneğin Google Asistan) kullanılan teknolojinin aynısıdır. Daha sonra, transkripsiyonlu cümleler, Nöral Makine Çevirisi (Neural Machine Translation) modelleri kullanılarak istenen dile çevrilir ve sonra çeviri, dijital asistanların kullandığı teknoloji olan bir metin-konuşma sentezleyicisi ile konuşulan kelimelere dönüştürülür. Konuşma ilk girişten senkronize çıkışa gider. Böylece dudak senkronizasyonu ile de tamamen çevrilmiş bir video elde ediyoruz.” şeklinde açıklıyor.
Prajwal, Dünyanın dört bir yanındaki milyonlarca yabancı dil öğrencisi çevrimiçi olarak mevcut olan mükemmel eğitim içeriğini anlayamadığını, çünkü bunlar ingilizce olduğunu ve bu sistemin dünyanın her yerindeki öğrencilerin diğer dillerde çevrimiçi ders videolarını anlamalarına yardımcı olmak için kullanılmasının faydalı olacağını söylüyor. Yüz Yüze Çeviri, yalnızca konuşmayı çevirmekle kalmayıp dudakla senkronize bir yüz görüntüsü de sağladığından, metinden metne veya konuşmadan konuşmaya çeviri konusunda bir ilerlemedir.
Kaynak
►howstuffworks
Yazar: Fatmanur Arslan
YORUMLAR
ANKET
- Dünyanın En Görkemli 10 Güneş Tarlası
- Dünyanın En Büyük 10 Makinesi
- 2020’nin En İyi 10 Kişisel Robotu
- Programlamaya Erken Yaşta Başlayan 7 Ünlü Bilgisayar Programcısı
- Üretimin Geleceğinde Etkili Olacak 10 Beceri
- Olağan Üstü Tasarıma Sahip 5 Köprü
- Dünyanın En İyi Bilim ve Teknoloji Müzeleri
- En İyi 5 Tıbbi Robot
- Dünyanın En Zengin 10 Mühendisi
- Üretim için 6 Fabrikasyon İşlemi
- NA8 Serisi Açık Tip Şalter Kurulum Kılavuzu | Chint Turkiye
- NKG3 Dijital Zaman Saati Kurulum Kılavuzu | Chint Türkiye
- NXU Serisi Parafudr Kurulum Kılavuzu | Chint Türkiye
- CJ19 Kondansatör Kontaktörü Kurulum Kılavuzu | Chint Turkiye
- NXZM Serisi Otomatik Transfer Şalterleri Kurulum Kılavuzu | Chint Türkiye
- Nasıl Dönüşür | İleri Dönüşüm
- Nasıl Dönüşür | Çevresel Etki
- Nasıl Dönüşür | Ekolojik Ayak İzi
- Motor Testinin Temelleri | Megger Türkiye | Webinar
- Webinar I Büyüyen Veri, Artan Güç: Sürdürülebilir Çözümler
Aktif etkinlik bulunmamaktadır.