Аңдатпа. Сөйлеуді автоматты түрде тану-бұл машиналық оқытудың қарқынды дамып келе жатқан саласы. Бүгінгі таңда сөйлеуді танудың ең танымал жүйелері-бұл интегралды (end-to-end) архитектураға негізделген жүйелер, әсіресе нақты уақыт режимінде кіріс дыбысын ескере отырып, сөз тізбегін тікелей шығаратын модельдер, олар end-to-end онлайн модельдері болып табылады. Ағынды сөйлеуді тану дыбыс ағынын мәтінге айналдыруға және дыбыс өңделген кезде нақты уақыт режимінде сөйлеуді тану нәтижелерін алуға мүмкіндік береді. Бұл мақалада қазақ тілін тануға арналған RNN-T негізіндегі танымал модель қарастырылып, іске асырылды. Сондай-ақ, CTC моделі негізінде қазақ тілін тануға байланысты жұмыстарға талдау жасалды. Нәтижелер RNN-T негізіндегі модель тілдік модель сияқты қосымша компоненттерсіз жақсы жұмыс істей алатындығын көрсетті және біздің деректер жиынтығымызда жақсы нәтиже көрсетті. Жүргізілген зерттеулер нәтижесінде жүйе 10.6% CER-ге жетті, бұл қазақ тілін тану бойынша басқа интегралдық жүйелер арасында Ең үздік көрсеткіш болып табылады.
Түйін сөздер: Автоматты сөйлеу recognition, end-to-end, RNN-T, CTC, sequence-to-sequence.