Konuşmacının Dudaklarını Diğer Dillere Senkronize Eden Yazılım Sistemi Geliştirildi
Hindistan'daki bir araştırmacı ekibi, kelimeleri farklı bir dile çevirmek ve bir konuşmacının dudaklarının o dil ile senkronize olarak hareket etmesini sağlamak için bir sistem geliştirdi.
28.03.2020 tarihli yazı 7524 kez okunmuştur.
“LipGAN” adı verilen bu teknoloji, orijinal videodaki dudak hareketlerini, çevrilen konuşmaya uyacak şekilde düzeltebilir. Hindistan, Haydarabad'daki Uluslararası Bilgi Teknolojileri Enstitüsü'nde bilgisayar bilimi yüksek lisans öğrencisi olan Prajwal KR, "Dil engelleri arasında etkili bir şekilde iletişim kurmak tüm dünyada insanlar için her zaman büyük bir istek olmuştur . Bugün, internet çevrimiçi dersler, video konferanslar, filmler, TV şovları vb. ile dolu. Şu anki çeviri sistemleri, bu tür video içeriği için yalnızca çevrilmiş bir konuşma çıktısı veya metinsel altyazılar oluşturabilirler. Görsel bileşeni işlemezler. Sonuç olarak, videoya bindirildiğinde çevrilen konuşma, dudak hareketleri ile ses senkronize olmayacaktır.” dedi.
►İlginizi Çekebilir: Denetimli ve Denetimsiz Makine Öğrenmesi Nedir?
Prajwal, konuşmadan konuşmaya çeviri sistemleri üzerine inşa ettiğini ve kaynak dilde konuşan bir kişinin videosunu çekebilen ve aynı tarzda bir konuşmacının hedef dilde konuşan bir videosunu ses tarzı ve dudak hareketleri hedef dil konuşmasına uyduğunu bunu yaparak çeviri sistemi bütünsel hale geldiğini ve çevrilmiş görsel-işitsel içerik oluşturma ve kullanma konusundaki kullanıcı deneyimini önemli ölçüde geliştirdiğini söylüyor.
Prajwal LipGAN teknolojisini , “Yüz Yüze Çeviri ( Face-to-Face Translation), bir dizi karmaşık özellik gerektirir. Konuşan bir kişinin videosu göz önüne alındığında, tercüme edilecek iki önemli bilgi akışı var: Görsel ve Konuşma bilgisi. Sistem ilk olarak otomatik konuşma tanıma (ASR) kullanarak konuşmadaki cümleleri kopyalar. Bu, mobil cihazlarda sesli yardımcılarda (örneğin Google Asistan) kullanılan teknolojinin aynısıdır. Daha sonra, transkripsiyonlu cümleler, Nöral Makine Çevirisi (Neural Machine Translation) modelleri kullanılarak istenen dile çevrilir ve sonra çeviri, dijital asistanların kullandığı teknoloji olan bir metin-konuşma sentezleyicisi ile konuşulan kelimelere dönüştürülür. Konuşma ilk girişten senkronize çıkışa gider. Böylece dudak senkronizasyonu ile de tamamen çevrilmiş bir video elde ediyoruz.” şeklinde açıklıyor.
Prajwal, Dünyanın dört bir yanındaki milyonlarca yabancı dil öğrencisi çevrimiçi olarak mevcut olan mükemmel eğitim içeriğini anlayamadığını, çünkü bunlar ingilizce olduğunu ve bu sistemin dünyanın her yerindeki öğrencilerin diğer dillerde çevrimiçi ders videolarını anlamalarına yardımcı olmak için kullanılmasının faydalı olacağını söylüyor. Yüz Yüze Çeviri, yalnızca konuşmayı çevirmekle kalmayıp dudakla senkronize bir yüz görüntüsü de sağladığından, metinden metne veya konuşmadan konuşmaya çeviri konusunda bir ilerlemedir.
►İlginizi Çekebilir: Denetimli ve Denetimsiz Makine Öğrenmesi Nedir?
Prajwal, konuşmadan konuşmaya çeviri sistemleri üzerine inşa ettiğini ve kaynak dilde konuşan bir kişinin videosunu çekebilen ve aynı tarzda bir konuşmacının hedef dilde konuşan bir videosunu ses tarzı ve dudak hareketleri hedef dil konuşmasına uyduğunu bunu yaparak çeviri sistemi bütünsel hale geldiğini ve çevrilmiş görsel-işitsel içerik oluşturma ve kullanma konusundaki kullanıcı deneyimini önemli ölçüde geliştirdiğini söylüyor.
Prajwal LipGAN teknolojisini , “Yüz Yüze Çeviri ( Face-to-Face Translation), bir dizi karmaşık özellik gerektirir. Konuşan bir kişinin videosu göz önüne alındığında, tercüme edilecek iki önemli bilgi akışı var: Görsel ve Konuşma bilgisi. Sistem ilk olarak otomatik konuşma tanıma (ASR) kullanarak konuşmadaki cümleleri kopyalar. Bu, mobil cihazlarda sesli yardımcılarda (örneğin Google Asistan) kullanılan teknolojinin aynısıdır. Daha sonra, transkripsiyonlu cümleler, Nöral Makine Çevirisi (Neural Machine Translation) modelleri kullanılarak istenen dile çevrilir ve sonra çeviri, dijital asistanların kullandığı teknoloji olan bir metin-konuşma sentezleyicisi ile konuşulan kelimelere dönüştürülür. Konuşma ilk girişten senkronize çıkışa gider. Böylece dudak senkronizasyonu ile de tamamen çevrilmiş bir video elde ediyoruz.” şeklinde açıklıyor.
Prajwal, Dünyanın dört bir yanındaki milyonlarca yabancı dil öğrencisi çevrimiçi olarak mevcut olan mükemmel eğitim içeriğini anlayamadığını, çünkü bunlar ingilizce olduğunu ve bu sistemin dünyanın her yerindeki öğrencilerin diğer dillerde çevrimiçi ders videolarını anlamalarına yardımcı olmak için kullanılmasının faydalı olacağını söylüyor. Yüz Yüze Çeviri, yalnızca konuşmayı çevirmekle kalmayıp dudakla senkronize bir yüz görüntüsü de sağladığından, metinden metne veya konuşmadan konuşmaya çeviri konusunda bir ilerlemedir.
Kaynak
►howstuffworks
Yazar: Fatmanur Arslan
YORUMLAR
ANKET
- Dünyanın En Görkemli 10 Güneş Tarlası
- Dünyanın En Büyük 10 Makinesi
- 2020’nin En İyi 10 Kişisel Robotu
- Programlamaya Erken Yaşta Başlayan 7 Ünlü Bilgisayar Programcısı
- Üretimin Geleceğinde Etkili Olacak 10 Beceri
- Olağan Üstü Tasarıma Sahip 5 Köprü
- Dünyanın En İyi Bilim ve Teknoloji Müzeleri
- En İyi 5 Tıbbi Robot
- Dünyanın En Zengin 10 Mühendisi
- Üretim için 6 Fabrikasyon İşlemi
- DrivePro Yaşam Döngüsü Hizmetleri
- Batarya Testinin Temelleri
- Enerji Yönetiminde Ölçümün Rolü: Verimliliğe Giden Yol
- HVAC Sistemlerinde Kullanılan EC Fan, Sürücü ve EC+ Fan Teknolojisi
- Su İşleme, Dağıtım ve Atık Su Yönetim Tesislerinde Sürücü Kullanımı
- Röle ve Trafo Merkezi Testlerinin Temelleri | Webinar
- Chint Elektrik Temel DIN Ray Ürünleri Tanıtımı
- Sigma Termik Manyetik Şalterler ile Elektrik Devrelerinde Koruma
- Elektrik Panoları ve Üretim Teknikleri
- Teknik Servis | Megger Türkiye
Aktif etkinlik bulunmamaktadır.