Meta’nın yeni yapay zeka modeli Voicebox, sesle ilgili hemen hemen her şeyi yapabiliyor.
Facebook ve Instagram’ın çatı şirketi Meta, yeni üretken yapay zeka modelini duyurdu. Voicebox, özel olarak eğitilmemesine rağmen, içerik oluşturuculara ses düzenleme, örnekleme ve şekillendirme gibi konuşma oluşturma görevlerini yerine getirme becerisiyle yardımcı olmak için tasarlanmıştır..
Meta, bu yeni yapay zeka modelinin dünyadaki birçok kişiye fayda sağlayacağını söylüyor. Örneğin görme engellilerin arkadaşlarının yazılı ifadelerini kendi seslerinden duyabilmeleri için birçok örnek veriyor. Kişilerin kendi sesleriyle yabancı dil konuşmasını da sağlayabilir.
Yapay zeka modeli, yüksek kaliteli ses klipleri üretebiliyor ve önceden kaydedilmiş sesleri düzenleyerek otomobil kornası gibi istenmeyen sesleri ortadan kaldırabiliyor. Bunun yanı sıra, içeriği ve stili korurken Altı dilde ses üretebilir.Modelin ayrıca gelecekte metaverse’teki oyunlarda görsel asistanlara veya gerçek oyuncu olmayan karakterlere doğal sesler vermesi bekleniyor.
Meta, Voicebox’ı piyasadaki diğer sesli AI modelleriyle karşılaştırdı ve özellikle Vall-E ve YourTTS’yi rakip olarak gösterdi . Sözcük hata oranları ve stil benzerliği karşılaştırıldığında, Voicebox her iki modelden de daha gelişmiştir ve daha iyi performans gösterir.
Voicebox, Meta’nın en yeni otoregresif olmayan üretken modelidir ve metin ile orta konuşma arasında son derece deterministik olmayan eşleştirme yeteneğine sahiptir. Flow Matching modeli üzerine inşa edilmiştir.Bugüne kadar Voicebox, İngilizce, Fransızca, İspanyolca, Almanca, Lehçe ve Portekizce dillerinde halka açık sesli kitaplardan alınan 50.000 saatin üzerinde kayıtlı konuşma ve transkript kullanılarak eğitildi.
Meta, yapay zeka programını herkesin kullanımına açmayacağı gibi kaynak kodunu da paylaşmayacak.