Alexa, Siri Nasıl Çalışıyor? Açıklanan Ses Kontrolü

  • Lesley Fowler
  • 0
  • 2847
  • 400
reklâm

Artık neredeyse tüm gadget'larımızla konuşabiliriz, ancak tam olarak nasıl çalışıyor? Sorduğun zaman “Bu hangi şarkı?” ya da söyle “Annemi ara”, modern teknoloji mucizesi gerçekleşiyor. Ve en yeni gibi hissettirse de, bu cihazlarla konuşma fikri on yıllara dayanıyor - neredeyse bilim kurgudaki jetpack'ler kadar!

Bugün, sesle çalışan bilgisayarlara verilen dikkatin büyük kısmı akıllı telefonlarda. Apple, Amazon, Microsoft ve Google, her biri elektronikle konuşmanın kendi yolunu sunan zincirin en üstünde. Kim olduklarını biliyorsunuz: Siri, Alexa, Cortana ve isimsiz “Tamam Google” olmak. Bu büyük bir soruyu gündeme getiriyor…

Bir cihaz konuşulan kelimeleri nasıl alır ve anlayabileceği komutlara nasıl dönüştürür? Temelde, kalıp eşleştirme ve bu kalıplara dayalı tahminlerde bulunma gelir. Daha spesifik olarak, ses tanıma karmaşık bir iştir Akustik Modelleme ve Dil Modellemesi.

Akustik Modelleme: Dalga Biçimleri ve Telefonlar

Akustik Modelleme, bir konuşma dalgası biçimi alma ve istatistiksel modeller kullanarak analiz etme işlemidir. Bunun için en yaygın yöntem Gizli Markov Modellemesi, Bu, telaffuz modelleme olarak adlandırılan şeyde, konuşmayı telefonlar denilen parçalara bölmek için kullanılır (gerçek telefon cihazlarıyla karıştırılmamalıdır). Microsoft bu alanda uzun yıllardır lider bir araştırmacıdır..

Gizli Markov Modellemesi: Olasılık Durumları

Gizli Markov Modelleme, mevcut durumun çıktı analiz edilerek belirlendiği yordayıcı bir matematiksel modeldir. Wikipedia'da iki arkadaş kullanarak harika bir örnek var.

Farklı şehirlerde yaşayan iki arkadaş - Yerel Arkadaş ve Uzak Arkadaş - hayal edin. Yerel Dost, Remote Friend'in yaşadığı yerdeki havanın nasıl olduğunu öğrenmek istiyor, ancak Remote Friend yalnızca o gün yaptığı şey hakkında konuşmak istiyor: yürümek, alışveriş yapmak veya temiz olmak. Günün hava durumuna bağlı olarak her bir aktivitenin olasılığı.

Mevcut olan tek bilgi bu gibi davran. Bununla birlikte, Yerel Arkadaş havanın günden güne nasıl değiştiğine dair eğilimler bulabilir ve bu eğilimleri kullanarak, bugünkü havanın arkadaşının dünkü etkinliğine dayalı olacağı konusunda eğitimli tahminler yapmaya başlayabilir. (Yukarıdaki sistemin bir diyagramını görebilirsiniz.)

Daha karmaşık bir örnek istiyorsanız, bu örneği Matlab'ta inceleyin. Ses tanımada, bu model esas olarak dalga biçiminin her bir bölümünü neyin gelip neyin geldiğiyle ve ne söylendiğini anlamak için dalga formları sözlüğüyle karşılaştırır..

Esasen, eğer bir “inci” ses, bu sesi genellikle kendisinden önce ve sonra gelen en olası seslere karşı kontrol edecektir. Belki bu demek oluyor ki “e” ses, “en” ses, vb. Desen doğru bir şekilde eşleştiğinde, o zaman tüm kelimenizi alır. Bu aşırı basitleştirmedir, ancak Microsoft'un tüm açıklamasını burada görebilirsiniz..

Dil Modellemesi: Sesten Fazla

Akustik Modelleme, bilgisayarınızın sizi anlamasına yardımcı olmak için uzun bir yol kat eder, peki telaffuzdaki homonimler ve bölgesel farklılıklar? Dil Modellemenin devreye girdiği yer burasıdır. Google, bu alanda, özellikle de N-gram Modelleme.

Google konuşmanızı anlamaya çalışırken, büyük Sesli Arama bankası ve YouTube transkripsiyon bankasından türetilen modellere dayanıyor. Çok komik bir şekilde yanlış olan video başlıkları aslında Google’ın sözlüklerini geliştirmesine yardımcı oldu. Ayrıca, ayrılan GOOG-411'i insanların nasıl konuştukları hakkında bilgi toplamak için kullandılar..

Bu dil koleksiyonunun tümü, sağlam bir sözlük ve nasıl ses çıkardıklarını söyleyen çok sayıda telaffuz ve lehçe oluşturdu. Bu, ham olasılıklara dayanarak kaba kuvvet eşleşmesinden çok daha düşük bir hata oranına sahip eşleşmelere izin verir. Yöntemlerini açıklayan kısa bir makaleyi buradan okuyabilirsiniz.

Google bu alanda lider olsa da, yapay zeka araştırmalarından doğan daha ileri teknikler olan sürekli uzay modelleri ve konumsal dil modelleri dahil olmak üzere başka matematiksel modeller de geliştirilmektedir. Bu yöntemler, insanların birbirlerini dinlerken yaptıkları mantık türünün çoğaltılmasına dayanır. Bunlar hem arkalarındaki teknoloji açısından hem de bu modelleri ortaya çıkarmak için gereken matematik ve programlama açısından çok daha gelişmiş..

N-Gram Modelleme: Olasılık Hafızayla Buluşuyor

N-gram Modelleme olasılıkları temel alarak çalışır, ancak bir dallanma olanakları ağacı oluşturmak için mevcut bir sözcük sözlüğünü kullanır, bu daha sonra verimlilik uğruna düzenlenir. Bir şekilde, bu, N-gram Modellemenin, yukarıda belirtilen Gizli Markov Modellemesinde belirsizliği ortadan kaldırdığı anlamına gelir..

Yukarıda belirtildiği gibi, bu yöntemin gücü büyük bir sözlüğe sahip olmaktan kaynaklanmaktadır. kelimeler ve kullanım, sadece ilkel değil sesleri. Bu program gibi ev telefonları arasındaki farkı söylemek için yeteneği verir “dövmek” ve “pancar”. Bağlamsal, yani dün geceki puanlardan bahsettiğinizde, programın pancar çorbasıyla ilgili kelimeleri toplamayacağı anlamına geliyor.

Ancak, bu modeller aslında daha uzun ifadelerdeki kelimelerin olasılıkları ile ilgili sorunlardan dolayı dil için en iyisi değildir. Bir cümleye daha fazla kelime eklerken, ilk kelimeleriniz tam düşünceniz için gereken her şeyi yüklememiş olma ihtimalinden dolayı bu model biraz bitiyor.

Bununla birlikte, basit ve uygulaması kolaydır, Google gibi bir şirketin hesaplama problemlerine sunucu atmaktan hoşlanan bir şirket için mükemmel bir eşleşme sağlar. Washington Üniversitesi'ndeki N-gram Modelieng hakkında daha fazla okuma yapabilir veya Coursera'da bir dersi izleyebilirsiniz..

Bulutlarda Bağırmak: Uygulamalar ve Cihazlar

Siri'yi kullanan herkes, yavaş bir ağ bağlantısının hayal kırıklığını bilir. Bunun nedeni, Siri'ye komutlarınızın Apple tarafından çözülmesi için ağ üzerinden gönderilmesidir. Cortana for Windows telefon da düzgün çalışması için bir ağ bağlantısı gerektirir. Buna karşın, Amazon'un Yankısı, herhangi bir İnternet bağlantısı olmadan sadece bir Bluetooth hoparlördür.

Neden fark? Çünkü Siri ve Cortana konuşmanızı çözmek için ağır hizmet sunucularına ihtiyaç duyuyor. Telefonunuzda veya tabletinizde yapılabilir mi? Elbette, ancak bu sırada performansınızı ve pil ömrünüzü kesersiniz. İşlemi özel makinelere boşaltmak daha mantıklı geliyor.

Bunu şu şekilde düşünün: Emriniz çamura saplanmış bir araba. Muhtemelen yeterli zaman ve çabayla kendin ortaya koyabilirsin, ama saatlerini alacak ve seni yorgun bırakacak. Bunun yerine, yol yardımı çağırırsınız ve arabanızı birkaç dakika içinde çıkarırlar. Dezavantajı ise aramayı yapmanız ve onları beklemeniz gerektiği, ancak yine de daha hızlı ve daha az vergi.

Nuance gibi masaüstü modelleri, daha güçlü donanımlar nedeniyle yerel kaynakları kullanma eğilimindedir. Sonuçta, Steve Jobs'un sözleriyle masaüstünüz bir kamyon. (OS X'in işlemesi için sunucuları kullanması biraz saçma.) Bu yüzden dili ve sesi işlemeniz gerektiğinde, kendi başına halledecek kadar iyi bir donanıma sahip.

Öte yandan, Android geliştiricilerin uygulamalarına çevrimdışı konuşma tanıma özelliği eklemelerini sağlar. Google, teknolojinin önüne geçmeyi seviyor ve diğer platformlar, donanımları daha güçlü hale geldikçe bu yeteneği kazanacaklarına bahse girebilirsiniz. Zayıf kapsama alanı veya kötü alım, cihazlarını lobotomize ederken kimse hoşlanmaz.

Şimdi Sesli Komutları Kullanmaya Başlayın

Artık temel kavramları bildiğinize göre, çeşitli cihazlarınızla oynamalısınız. Google Dokümanlar'daki yeni ses yazmayı deneyin Google Dokümanlar'ın En İyi Özelliği Sesle Yazma Ne Kadar Sesle Yazma Google Dokümanlar'ın En İyi Özelliği Ne Kadar Sesle Yazma Ses tanıma son yıllarda atlamalar ve sınırlamalar ile düzeldi. Bu haftanın başlarında, Google nihayet Google Dokümanlar'a sesle yazı yazdı. Ama bu iyi mi? Hadi bulalım! . Web ofis paketi zaten yeterince güçlü değildi gibi, ses kontrolü belgelerinizi tamamen dikte etmenize ve biçimlendirmenize izin verir. Bu, zaten Chrome ve Android için tasarladıkları güçlü teknolojiyi genişletiyor.

Diğer fikirler arasında Mac'inizin sesli komutları kullanması ve Mac'inizdeki Konuşma Komutlarının Kullanımı Mac'inizdeki Konuşma Komutlarının Kullanımı ve Amazon Echo'nuzu otomatik kullanıma alma ile ayarlama Amazon Echo'nun Evinizi Nasıl Akıllı Ev Yapabileceği Evinizi Akıllı Bir Ev Yapın Akıllı ev teknolojisi halen ilk günlerinde olmasına rağmen, Amazon'dan "Echo" adlı yeni bir ürün, onu ana akıma sokmaya yardımcı olabilir. . Gelecekte yaşayın ve daha fazla kağıt havlu sipariş ediyor olsanız bile, cihazlarınızla konuşmayı kucaklayın. Bir akıllı telefon bağımlısıysanız, Siri'nin Muhtemelen Yapamayacağınız Siri 8 Şey Muhtemelen Siri'nin Yapamayacağı 8 Şey Muhtemelen Yapmadığın 8 Şey Siri'nin iPhone'un tanımlayıcı özelliklerinden biri haline gelebileceğini, birçok insan, her zaman en kullanışlı değildir. Bunların bazıları ses tanıma sınırlamaları nedeniyle olsa da, kullanma…, Cortana 6 Windows 10'da Cortana ile Kontrol Edebileceğiniz En Güzel Şeyler Windows 6 Cortana ile Windows 10'da Kontrol Edebileceğiniz En İyi Şeyler Cortana eller serbest bırakmanıza yardımcı olabilir Windows 10'da. Dosyalarınızı ve web’de arama yapmasına, hesaplamaları yapmasına veya hava tahminlerini yükseltmesine izin verebilirsiniz. Burada onun bazı serin yeteneklerini ele alıyoruz. , ve Android OK, Google: Android Telefonunuza Söyleyebileceğiniz 20 Yararlı Şey OK, Google: Android Telefonunuza 20 Söyleyebileceğiniz Yararlı Şey Google Assistant, telefonunuzda çok şey yapmanıza yardımcı olabilir. İşte denemek için bir sürü temel ama kullanışlı Tamam Google komutları. .

Favori ses kontrolü kullanımınız nedir? Yorumlarda bize bildirin.

Image Credits: Shutterstock ile T-flex, Wikimedia Foundation ile Terencehonles, Arizona Eyaleti, Shientersch ile Cienpies Tasarımı




Henüz no comments

Modern teknoloji hakkında basit ve uygun fiyatlı.
Modern teknoloji dünyasında rehberiniz. Her gün bizi çevreleyen teknolojileri ve araçları nasıl kullanacağınızı ve Internet'te ilginç şeyleri nasıl keşfedeceğinizi öğrenin.