GenelTeknoloji
Trend

Otomatik konuşma tanıma hala büyük sorunlar yaşıyor

Almanya’daki yedi konuşma tanıma sisteminin performansını inceleyen yeni bir araştırma, Alexa, Bing, Google ve Co.’nun insan transkripsiyonuyla rekabet edemeyecek kadar uzakta olduğunu buldu.

Hannover (Almanya). Otomatik konuşma tanıma sistemleri zaten günlük yaşamın bir parçası. Uygulama alanları, ilk bakışta şüphelendiğinden daha geniş kapsamlıdır: Siri veya Cortana gibi kişisel ses yardımcıları, konuşmayı metne çeviren navigasyon cihazları ve ardından net komutlara veya çağrı merkezlerinde veya hastanelerde otomatik konuşma tanıma sistemlerinin kullanılması – uygulama alanları Otomatik konuşma tanıma için çok büyük. Fakat bu otomatik konuşma tanıma sistemleri gerçekten ne kadar iyi?

Alman transkriptleri için Alman pazar lideri abtipper.de, Almanca konuşulan ülkelerde çeşitli otomatik konuşma tanıma sistemlerinin performansını bilimsel bir çalışmada inceledi. Çalışmada Alexa, Bing ve Google gibi büyük sağlayıcılara ek olarak, aynı zamanda daha küçük niş sağlayıcılar da dikkate alınmıştır.

Konuşma tanıma sistemi sadece yüzde 67,6 isabet oranına sahip

Kapsamlı bir testte, 80 farklı dilde transkript sunan abtipper.de, iki kişiyle yaptığı konuşmada kelime tanıma oranını inceledi. Böyle tipik bir görüşme durumunda, bir kişi konuşma konusuna ve kişisel deneyime bağlı olarak yüzde 96’dan fazla bir isabet oranına ulaşır. Sade bir dilde, bu bir insan transkripsiyonunda, 100 kelimelik bir metinde dört hatadan daha az hata meydana geldiği anlamına gelir.

Testte, en iyi konuşma tanıma sistemi sadece yüzde 67,6 oranında oy alarak insanı geride bıraktı. Zaten iki hoparlörle, hiçbir sistem güvenilir bir hoparlör tahsisi yapamadı. şey çok iyi kalitede Yani eğer yazıya istiyorum, başlangıçta Google ve ortaklarının tam otomatik hizmetlerini feragat ve abtipper.de gibi bir sağlayıcı tarafından manuel transkripsiyon güvenmek gerekir. Özellikle birden fazla hoparlöre sahip profesyonel transkriptler için, mevcut teknolojinin şu anki haliyle gelip manuel bir çözüm bulamıyorsunuz. Bu arada, Bing’in konuşmasını tanıma, testteki en kötü sistemdi.

Çalışma, birden fazla konuşmacıya sahip konuşma durumlarında, test edilen tüm sağlayıcıların otomatik konuşma tanıma yazılımının hala çok hata eğilimli olduğunu göstermiştir. Transcript hizmeti abtipper.de, tam otomatik servislerin yalnızca tek bir konuşmacı ile kayıt yapmak, kelime bilgisi vermek veya büyük arşivlerin sayısallaştırılması gibi çok özel uygulamalar için uygun olduğu sonucuna varmaktadır. Hatasız manuel transkriptlerin maliyeti muhtemelen ikinci durumda olmaz.

Monologlarda konuşma tanıma sistemleri daha iyi dövüldü

Her ne kadar konuşma tanıma sistemleri tipik bir dikte durumunda yaklaşık yüzde 85 isabet oranına sahip yalnızca bir konuşmacı ile daha iyi performans gösterse de, yine de insan isabet oranına ulaşmıyor. Bununla birlikte, bu değere sahip sistemler, farklı pratik uygulamalar için zaten hassas bir şekilde kullanılabilir. Özellikle belirli bir konuyla ilgili doğal olmayan konuşma durumları ve Alexa komutları gibi sınırlı kelime hazineleri için, konuşma tanıma sistemleri zaten oldukça iyi çalışıyor. Bununla birlikte, yapay olarak sınırlı kelime dağarcığı olmadan ve birden fazla konuşmacı ile ücretsiz konuşma tanıma söz konusu olduğunda, test edilen tüm sistemler hala iyileştirme için büyük potansiyel göstermektedir.

Etiketler

İlgili Makaleler

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Başa dön tuşu
error: Kull Hakkina Girme
Kapalı
Kapalı