Posted on

Қазақ тілі үшін ерікті / ашық бастапқы кодты сөйлеу тану жүйесіне қарай

English version is here.

Бұл мақала — мұндағы ағылшынша мақаланың аудармасы. Қателер көрсеңіз contact@taruen.com мекенжайына жазуыңызды өтінеміз.


Google Assistant немесе Yandex Alisa қазақ тілінде де сөйлесе, керемет болмас па еді?

Мұндай сөйлесетін ассистенттердің қажетті компоненті болып сөйлеуді тану (ағылшыншасы “speech recognition”) немесе сөйлеуді мәтінге (ағылшыншасы “speech-to-text”) деп аталатын жүйе табылады.

Машина оқыту методтарымен бір тіл үшін жақсы сапалы сөйлеу тану жүйесін болдыру үшін, ол тілде даустық деректердің аса үлкен көлемі (мыңдаған сағат, төменде қараңыз) болуы қажет. Бұдан басқа, ол деректер әртүрлі адамдар тарапынан жазылған болуы және транскрипцияланған болуы керек. Осы уақытқа дейін, тиісті лицензиялі аудиодеректердің болмауы себепті, көпшілік тілдер үшін ерікті / ашық бастапқы кодты сөйлеуді тану жүйесі қол жетімсіз болып қала береді.

Бақытымызға орай, бұл жағдайды жақсы жаққа өзгертуге болады. 2018 жылы Mozilla, Firefox веб-браузері және көптеген басқа бағдарламалардың артындағы компания, Common Voice (“Халық дауысы”) жобасын іске қосты.

Міне, ол жобаның FAQ бетінен бір үзінді:

Common Voice деген не?

Дауысты тану технологиясы машиналармен өзара әрекеттесу жолын өзгертеді, бірақ қазіргі уақытта қол жетімді жүйелер қымбат және меншікті. Common Voice — Mozilla компаниясының дауыс тану технологияларын жақсарту және барлық адамдар үшін қол жетімді ету жөніндегі бастамасының бөлігі. Common Voice — кез келген тілдегі ықпалды дыбыстық бағдарламаларды тез және оңай үйретуге мүмкіндік беретін қайырымды дауыс беретін жаппай ғаламдық дерекқор.

Біз тек кеңінен сөйлейтін тілдерде дауыс үлгілерін жинап қана қоймай, сонымен бірге сөйлеушілердің кішігірім тұрғындарын да жинаймыз. Дауыстардың әртүрлі деректер жиынтығын шығарушылар әзірлеушілерге, кәсіпкерлерге және қауымдастықтарға осы бос орынды өздері шешуге мүмкіндік береді. Common Voice деректер жиынтығына қоса, біз Deep Speech деп аталатын ашық бастапқы мәтінді тану механизмін жасаймыз.

Сіз қалай көмектесе аласыз?

Біз «taruen.com» қазақ тіліндегі «Common Voice»-ты іске қосқымыз келеді, және бұл мақсатқа қарай алғашқы қадамдарды өттік. Бірақ Common Voice-та қазақ тілі де іске қосылсын үшін, қазақ тілін жақсы білушілердің көмегі керек. Егер қазақ тілі ана тіліңіз болса, мына қалай көмектесе аласыз:

  1. Common Voice сайты Pontoon атты Mozilla-дың локализация құралында дұрыс аударылған ма жоқ па екенін тексеріңіз. Аудармалардың шамамен үштен бірін біз — яғни қазақ тілі ана тілі болмаған адамдар, үстедік — сондықтан олар қателі болуға мүмкін.

  2. Біз Common Voice-тың сөйлем жинау құралына жіберген сөйлемдерді тексеріңіз. Бір тіл Common Voice-та іске қосылсын үшін, ол тілде ең азы 5000 сөйлем болу қажет.

Бұл сөйлемдерді біз М.Әуезов атындағы Әдебиет және өнер институты жариялаған “Бабалар сөзі” деп аталатын, қазақ халық шығармашылығы тыундыларын өз ішіне алған мықты 100 томдықтың 65 және 68 томдарынан алдық (65-68 томдарда мақалдар жиналған). Қазақстан Республикасының Авторлық құқық туралы заңының 8 нші бабына сәйкес, фольклор шығармалары авторлық құқықтан азат және осылайша қоғамдық байлық (public domain) болып тұр. Демек, оларды Common Voice-та қолдануға болады. Сонымен, 65-68 нші томдар ішіндегі мақал-мәтелдер Common Voice жобасының басқа критерийлеріне де сәйкес келеді — оларда сандар, шетелдік әріптер және рұқсат етілмеген басқа белгілер жоқ, олар әдетте қысқа, педагогикалық міндетті / қызықты және осылайша оқу үшін көңілді.

Common Voice үйреткенше орфография мен грамматиканың дұрыстығын тексеруден басқа, біз сізден ол сөйлемдер кімді де болса ренжітпей екенін тексеруіңізді өтінеміз. Басқаша айтқанда, ол сөйлемдерде ерлерге, әйелдерге, ата-аналарға, балаларға, діни адамдарға, діни емес адамдарға, Оңтүстік Қазақстандықтарға, Солтүстік Қазақстандықтарға, Батыс Қазақстанстықтарға, Шығыс Қазақстандықтарға, Қытайдың қазақтарына… түсінесіз шығар тіл тігізетін заттардың болмауы қайырлы. Ол сөйлемдерден көз жүгірткенде ондайларын көрмедік, бірақ бұл сұраққа да қазақша жақсы білетін адамдар ғана жауап бере алады.

Бірге, қалаған әр адам да қазақ тілін түсінуші сөйлеу тану жүйесін болдыра аларлық көлемде, аудиодеректер жинай аламыз деген үміттеміз. Жобадың жиі қойылатын сұрақтар бетінде мозиллашылар жақсы сапалы сөйлеу тану жүйесін үйрету үшін шамамен 10000 сағат тексерілген аудиожазбалар қажет деп жазады. Демек бұл — мақсат. 10000 сағат қолжетпеслік көп сияқты, бірақ 10 мың сағатты қазақша білушілердің ең консерватив санына бөлсек те, кісі басына шамашен 4 секунд аудио тура келеді. Ал 4 секунд ол әлдеқайда азрақ қорқынышты сан ;)