Google DeepMind Gerçekçi Konuşma Sunuyor
Yapay zeka alanınki gelişmeler ile makineler daha da akıllanmaya başladı. Google tarafından geliştirilen yapay zeka uygulaması ‘Google DeepMind’ ile artık makineler de konuşmaya başlıyor.
21.09.2016 tarihli yazı 11579 kez okunmuştur.
Google DeepMind, yapay zeka uygulaması ile derin öğrenme teknikleri kullanılarak gerçekçi sesler oluşturuldu. Makine-insan etkileşimi artarken makinelerin konuşması daha gerçekçi hale geldi. WaveNet olarak adlandırılan bu sistemde, gerçek insan konuşmasını örnekleme ve doğrudan ses dalga formlarını modelleyerek sesler oluşturulur. WaveNet ile insan sesi taklit edilerek makine konuşması olarak adlandırılan bir seslendirme platformu oluşturulmuştur. WaveNet tarafından oluşturulan İngilizce ve Mandarin Çincesi seslendirmeleri klasik metin seslendirme programlarına göre daha gerçekçi sonuçlar ve doğal sesler sunuyor. İnsan sesine yaklaşık olarak %50 oranında yakın sesler üretmektedir. Ayrıca sistemde melodi ve çalgı aletleri sesleri de oluşturmak mümkün.
Metin seslendirme programları özellikle akıllı cihazlarda giderek önem kazanmaktadır. Yapay zekâ kişisel asistanları içinde en çok bilinenleri kuşkusuz Apple Siri, Microsoft Cortana, Amazon Alexa ve Google Asistandır. Siri veya Cortana’ya soru sorulduğu zaman insan sesleri kaydedilerek oluşturulan veri tabanından istenilen parçalar düzenlenerek seslendirilir. Sonuçlar her ne kadar gerçekçi olsa da ses tonu üretmek için gerçek bir kişinin seslendirmesi gereklidir. Tamamen bilgisayar tarafından oluşturulan sesler ağız yapısı ve gramer bilgileri kodlanarak oluşturulur. Parametrik sesler üretmek için bir kaynağa ihtiyaç yoktur.
Vocoder olarak bilinen sinyal işleme metodu ile gerçek ses oluşturulur. Yapay zekâ ile harmanlandığı zaman bağımsız sesleri kendi kendine oluşur. WaveNet sadece dilin ses yapısını bilir. İnsan ağız yapısına yönelik konuşma taklit edilmeye çalışılır. Nefes alıp verme zamanları, dudaklar arası mesafe gibi durumlar göz önüne alınır. Google, dilsel kurallar ve öneriler ile anlamlı konuşma veya sesler oluşturur.
Sistem sadece konuşmalardan ibaret değildir. Yapay zeka ile bir piyano sesi bile oluşturulmuştur. Melodi oluşturmak anlamlı bir konuşma oluşturmaktan daha kolaydır. Görme engelli 500 kişiye farklı sesler dinletilerek 1 (gerçekçi değil) ila 5 (gerçekçi) arasında puanlama yapılması istendi. WaveNet, puanlamaya göre İngilizce de 4,21 puan ve Çince de 4,08 puan aldı.
Görsel: puan tablosu
16 kHz sesler üreten WaveNet, geliştirilmeye devam ediliyor. Matematiksel modeller ve algoritmaları gerçekleştirmek için işlem gücü yüksek bilgisayarlar ile kullanılmaktadır.
Kaynak:
►The Verge
►Deepmind.com
YORUMLAR
ANKET
- Dünyanın En Görkemli 10 Güneş Tarlası
- Dünyanın En Büyük 10 Makinesi
- 2020’nin En İyi 10 Kişisel Robotu
- Programlamaya Erken Yaşta Başlayan 7 Ünlü Bilgisayar Programcısı
- Üretimin Geleceğinde Etkili Olacak 10 Beceri
- Olağan Üstü Tasarıma Sahip 5 Köprü
- Dünyanın En İyi Bilim ve Teknoloji Müzeleri
- En İyi 5 Tıbbi Robot
- Dünyanın En Zengin 10 Mühendisi
- Üretim için 6 Fabrikasyon İşlemi
- DrivePro Yaşam Döngüsü Hizmetleri
- Batarya Testinin Temelleri
- Enerji Yönetiminde Ölçümün Rolü: Verimliliğe Giden Yol
- HVAC Sistemlerinde Kullanılan EC Fan, Sürücü ve EC+ Fan Teknolojisi
- Su İşleme, Dağıtım ve Atık Su Yönetim Tesislerinde Sürücü Kullanımı
- Röle ve Trafo Merkezi Testlerinin Temelleri | Webinar
- Chint Elektrik Temel DIN Ray Ürünleri Tanıtımı
- Sigma Termik Manyetik Şalterler ile Elektrik Devrelerinde Koruma
- Elektrik Panoları ve Üretim Teknikleri
- Teknik Servis | Megger Türkiye
Aktif etkinlik bulunmamaktadır.