Marka Etkileşiminin Ve Müşteri Deneyiminin Geleceği: Yaani Sesli Asistan

marka-etkilesiminin-ve-musteri-deneyiminin-gelecegi:-yaani-sesli-asistan

İnanç Çakıroğlu

Sesli asistanlar bugün karşımıza sanal asistan, yapay zeka asistanı gibi farklı isimlerle de çıkıyor. İlk örnekleri ise 1952 yılında Bell Laboratuvarları tarafından geliştirilen “Audrey” ve daha sonrasında IBM tarafından 1962’de lanse edilen “ShoeBox” ile tarihe geçti. O dönemdeki bu teknolojiler, doğal dil işleme yerine sadece sesi yazıya dönüştüren bir fonksiyonda olsa da teknolojinin ilerlemesi ile hayatımıza giren en komplike ve en bilindik sesli asistan, Ekim 2011’de çıkan “Siri” oldu. Bunu takiben Nisan 2014 Microsoft Cortana, Kasım 2014’te Amazon Alexa ve Mayıs 2016’da Google Assistant piyasaya sürüldü. Turkcell olarak biz de çağın gerekliliklerine ve kurumlar ile kullanıcıların ihtiyaçlarına yanıt vermek üzere, Yaani Search için entegrasyonunu yaptığımız sesli asistanımız Yaani Asistan’ı kullanıma sunduk.

Yaani Asistan arka planında, üç disiplinin birleşmesinden oluşan komplike bir yapay zeka uygulamasını barındırıyor. STT (Speech to Text), NLP (Natural Language Processing) ve TTS (Text to Speech) olmak üzere üç ayrı yapay zeka katmanına Aksiyon modülünün de eklenmesiyle Sesli Asistan mimarisi tamamlanıyor.

Yaani Asistan’ın arkasındaki üstün yapay zeka teknolojisinin katmanlarını detaylandıralım:

1 – Speech to Text (Sesten Yazıya)

Sesli asistana söylenen sesli komutları yazıya çeviren bu modül; akustik, dil modeli ve dil sözlüğü olmak üzere yapay zekanın üç katmanına sahiptir. Akustik model, yapay bir sinir ağı olup ses frekansını ona en yakın fonem ağırlıklarına, matematiksel olasılıklara dayanarak indirger.

Dil modeli, akustik modelden alınan matematiksel değerleri sözlükte tanımlanmış fonem değerlerini de göz önüne alarak HMM’e (Hidden Markov Model – Saklı Markov Modeli) göre kelimelere çevirir. Ses sinyali kelimelere çevrilirken de herhangi bir kelimeyi, içinde bulunduğu cümleye göre en yüksek olasılığa sahip olanı belirleyerek seçer.

Dil modeline alınmamış bir kelime STT tarafından asla dikkate alınmaz. Başka bir deyişle, sözlükte veya dil modelinde olmayan kelimenin denk gelme olasılığı sıfır olacak şekilde hesaplanacağından, STT çıktısındaki yazıya çevrilen kısımda, söz konusu kelimeyi görmemiz mümkün olmaz. Bu bakış açısıyla, STT modelini günlük kullanım diliyle eğiterek, asistanın konuşma sesini metne çevirmeyi sağladık.

2 – Natural Language Processing (Doğal Dil İşleme)

Doğal dil işleme (NLP) yapay zekanın en zor alanlarından biridir. İnsan dilinin bilgisayar tarafından algılanması, anlamlandırılması ve anlamlı parçaların tespit edilmesi gibi birçok problemin çözülmeye çalışıldığı alandır.

Yaani Sesli asistanımızda, sesten yazıya dönüştürülen içeriğin ne ile ilgili olduğunu tespit edebilmek için Türkçe diline özel NLP (Doğal Dil İşleme) ve NLU (Doğal Dil Anlamlandırma) modelleri geliştirdik. Kullanıcılar bu sayede aynı anlama gelebilecek birçok cümleyi kurabilirler.

NLU tarafında ise cümlenin niyetini tespit ederken transformer tabanlı bir dil modeli kullandık. Bu dil modellerine NLP alanında akademik olarak en ileri teknoloji diyebiliriz. OpenAI’ın yaptığı GPT-3 veya Google’ın yaptığı BERT transformer tabanlı dil modellerini buna örnek olarak verebiliriz.

3 – Aksiyon

Kullanıcının isteği eğer cevap verilebilecek bir istekse, Yaani Asistan çeşitli web servisler ile aksiyon alır ve cevapları toplar. Örneğin hava durumu sorgulanmışsa, hava durumu bilgisinin sağlandığı web servis’e istek yapılır ve ilgili lokasyondaki hava durumu bilgisi metin şeklinde kullanıcıya cevap olarak sunulur.

4 – Text to Speech (Yazıdan Sese)

Bu modüle bir nevi “response” basamağı da diyebiliriz. Kullanıcının isteği önce yazıya çevrilmiş, sonra niyeti (isteği) algılanmış ve aksiyon alınmıştı. Dolayısıyla son durum hakkında kullanıcıyı bir şekilde bilgilendirmemiz gerekiyor. Bunu da çıktı metnini kullanıcıya TTS (yazıdan sese) modülü ile sesli olarak gerçekleştiriyoruz.

TTS modülü de yine yapay sinir ağı kullanılarak günlük kullanım Türkçesi ile eğitilmiş bir dil modelidir. Dil modeli eğitiminde kullanılan veri seti ise ses sanatçısının 40 saate yakın ses kaydından oluşur. Bu ses kayıtları da 2 saniyeden 25 saniyeye kadar çeşitli uzunluklardaki audio dosyalarından oluşur ve her bir audio kaydı, transkript karşılıkları ile sistemde eğitime girer. Çıktı olan TTS modelinin başarısı ise bu eğitim verisinin doğruluğu ve kelime havuzunun genişliği ile çok ilintilidir.

Günümüzde sanal asistan parçalarını oluşturan yapay sinir ağı katmanlarının geliştirilmesi, hem dünyada hem de Turkcell bünyesinde hızla devam ediyor. Her bir yapay zeka katmanı, bütünleşik bir mimari ile sanal asistan seklinde kullanılacağı gibi STT, TTS veya NLP kullanan chatbot’lar şeklinde stand-alone olarak da kullanılabiliyor. Örneğin, Turkcell Dergilik’te sesli makale okunması (TTS), kurumsal müşterilerimize sunduğumuz chatbot’larımız, Global Bilgi için tasarladığımız Digital IVR-TTS sistemleri, sanal asistanın yapay zeka katmanlarının ayrı birer uygulama olarak hayata geçirilmiş güzel örnekleridir.

Geleceğin dünyasının, MetaVerse’e doğru gittiğini de düşünürsek, sesli asistanlar ve buna ait yukarıda saydığımız parçaların önemi daha da artmış bulunuyor.