Nutqdan matnga (STT) — ovozli agent tushunchasi shu yerdan boshlanadi. Agar u noto‘g‘ri eshitsa, undan keyingi hammasi xato bo‘ladi — agent hech kim bermagan savolga javob beradi. Shovqin, talaffuz va aralash tillar bo‘lgan haqiqiy telefon liniyalarida buni to‘g‘ri bajarish toza demolardagidan ancha qiyin.
Diktovka ilovasi bitta so‘zlovchi, yaxshi mikrofon va jimlikni kutadi. Qo‘ng‘iroq markazida bularning birortasi yo‘q. Mijozlar shovqin fonida gapiradi, jumla o‘rtasida o‘zbekchadan ruschaga o‘tadi, shevada so‘zlaydi va signalning bir qismini yo‘qotadigan siqilgan telefon kodeki orqali eshitiladi.
Bularning har biri alohida ham qiyinchilik. Birgalikda — shovqinli liniya, til almashgan jumla, notanish ism — bu aynan universal aniqlash sezdirmay buziladigan sharoit.
Nega universal modellar yetarli emas
Aksariyat yirik nutq modellari o‘qitish paytida o‘zbek tilini kam ko‘radi. Ular uni yozib olishi mumkin, lekin kontekstni — mahalliy ismlar, joy nomlari, telefonda sonlar va manzillar qanday aytilishini — o‘tkazib yuboradi.
NavAI aniqlovchisi tarjima qilingan matn emas, balki minglab soat jonli o‘zbek nutqida sozlangan. Bu so‘zlarni yozib olish bilan bu bozordagi odamlar qanday gapirishini haqiqatan tushunish o‘rtasidagi farq.
Tizim ikki tilli qo‘ng‘iroqlar haqiqatiga ham moslangan. O‘zbekchada boshlab, texnik atama uchun ruschaga o‘tadigan mijoz agentni buzmasligi kerak — bu yerda bunday almashinuv tabiiy va tizim buni kutadi.
So‘zlardan harakatga
Yaxshi STT — marra emas, boshlanish. So‘zlar to‘g‘ri aniqlanganidan keyin agent maqsadni ajratib, harakat qilishi kerak: buyurtmani ochish, vaqtga yozish yoki qo‘ng‘iroqqa inson kerakligini hal qilish.
Aniq aniqlash har bir keyingi qadamni mumkin qiladi. Bu yerda xato qilsangiz, keyin hech qanday aqlli mantiq qutqarmaydi. So‘zlarning 95 foizini yozib oladigan, lekin mijoz maqsadini o‘tkazib yuboradigan agent 95 foiz foydali emas — yagona muhim raqam maqsad.


