OpenAI ChatGPT için gerçek zamanlı yeni ses modeli geliştiriyor
OpenAI, yapay zekâ ile yapılan sesli konuşmaları daha doğal ve kesintisiz hale getirmek için yeni bir teknoloji üzerinde çalışıyor. ChatGPT’in sesli iletişim yeteneklerini geliştirmeyi hedefleyen şirket, gerçek zamanlı tepki verebilen yeni bir ses modeli geliştirdi. “BiDi” adı verilen bu modelin, kullanıcı ile yapay zekâ arasındaki konuşma akışını daha akıcı ve insan benzeri bir seviyeye taşıması amaçlanıyor.
CHATGPT’İN SESLİ İLETİŞİMİ DEĞİŞİYOR
Günümüzde ChatGPT’de kullanılan gelişmiş sesli mod, belirli bir konuşma sırasına göre çalışıyor. Kullanıcı konuşmasını tamamladıktan sonra sistem sesi işliyor ve ardından yanıt oluşturuyor. Ancak konuşma sırasında “evet”, “tamam”, “hı hı” gibi kısa geri bildirimler verildiğinde modelin konuşmayı tamamen kesmesi doğal akışı bozabiliyor.
OpenAI’nin geliştirdiği yeni sistem ise bu sorunu ortadan kaldırmayı hedefliyor. BiDi modeli, konuşmayı kesintisiz şekilde analiz ederek kullanıcı konuşurken bile yanıtını anlık olarak uyarlayabilecek bir yapıya sahip.
Bu yaklaşım, klasik sesli asistanların aksine daha gerçekçi bir diyalog deneyimi sunmayı amaçlıyor.
“BİDİ” MODELİ NASIL ÇALIŞIYOR?
BiDi ismi “çift yönlü iletişim” anlamına geliyor. Bu model, konuşmacının sesini sürekli analiz ederek diyalog sırasında meydana gelen değişikliklere anında tepki verebiliyor.
Mevcut sistemlerde yapay zekâ konuşmaya başladıktan sonra oluşturulan yanıt sabit kalıyor. Kullanıcı konuşmayı bölse bile sistem yeni duruma göre cevap üretmekte zorlanıyor.
Yeni modelde ise yapay zekâ, konuşma sırasında oluşan kesintileri analiz ederek yanıtını yeniden şekillendirebiliyor.
Bu teknoloji sayesinde yapay zekâ ile yapılan konuşmaların daha doğal, daha akıcı ve gerçek insan diyaloglarına daha yakın olması hedefleniyor.
HENÜZ GELİŞTİRME AŞAMASINDA
Her ne kadar teknoloji umut vaat etse de sistem henüz kullanıma hazır değil. Prototip model üzerinde yapılan testlerde bazı teknik sorunlar ortaya çıktı.
Geliştirilen modelin birkaç dakikalık konuşmanın ardından performans kaybı yaşayabildiği belirtiliyor. Ayrıca bazı testlerde modelin beklenmedik ses tonlarıyla yanıt verdiği de ifade ediliyor.
OpenAI araştırmacılarının başlangıçta BiDi modelini yılın ilk aylarında kullanıma sunmayı planladığı belirtiliyordu. Ancak yaşanan teknik sorunlar nedeniyle lansman takviminin ertelenebileceği değerlendiriliyor.
YAPAY ZEKÂ İLETİŞİMİNDE YENİ DÖNEM
OpenAI, ses tabanlı yapay zekâ sistemlerinin gelişmesinin teknoloji kullanım alışkanlıklarını değiştireceğini düşünüyor. Şirket, insanların yapay zekâ ile konuşmayı yazışmaya göre daha doğal bulduğunu vurguluyor.
Şirketin hedefi, sesli yapay zekâ ile metin tabanlı sistemler arasındaki performans farkını ortadan kaldırmak.
Bu hedef doğrultusunda geliştirilen BiDi modeli, özellikle müşteri hizmetleri alanında önemli bir dönüşüm yaratabilir.
MÜŞTERİ HİZMETLERİNDE BÜYÜK DEĞİŞİM
Yeni modelin en çok fayda sağlayacağı alanlardan biri çağrı merkezleri ve müşteri destek sistemleri olacak.
Örneğin bir müşteri, bir ürün iadesi için müşteri hizmetlerini aradığında konuşma sırasında kararını değiştirebilir. Geleneksel sistemlerde bu durum konuşmanın kesilmesine veya yeniden başlatılmasına neden olabilir.
BiDi modeli ise konuşmanın ortasında gerçekleşen bu değişikliği anlayarak diyalogu kesmeden farklı bir çözüme yönlendirebilecek.
Bu özellik sayesinde hem müşteri deneyimi hem de yapay zekâ destekli hizmetlerin verimliliği artabilir.
GELECEKTE SESLE YÖNETİLEN YAPAY ZEKÂ CİHAZLARI
OpenAI’nin planları yalnızca ChatGPT ile sınırlı değil. Şirketin gelecekte kullanıcıların çoğunlukla konuşarak kontrol edeceği yeni nesil yapay zekâ cihazları geliştirmeyi değerlendirdiği biliniyor.
Bu cihazların sesli komutlarla e-posta kontrolü yapabilmesi, rezervasyon oluşturabilmesi veya günlük görevleri yönetebilmesi hedefleniyor.
Yeni nesil ses modelleri, bu tür cihazların temel altyapısını oluşturabilir.
