光明网推出“AI学习通”
Препознава?е говора (у многим контекстима тако?е познато и као аутоматско препознава?е говора, рачунарско препознава?е говора, или, као што се погрешно назива, препознава?е гласова) ?е процес преобра?а?а говорних сигнала у низ речи, уз помо? алгоритма имплементираног као рачунарски програм. Примена препознава?а говора ко?а се по?авила у послед?их неколико година ук?учу?е гласовно бира?е или гласовно позива?е (voice dialing, нпр. Позови ку?у), усмерава?е позива (нпр. Хтео бих да остварим позив на рачун саговорника), унос ?едноставних података (нпр. унос бро?а кредитне картице), припрема структурираних докумената (нпр. радиолошки извешта?) и говорна аудио претрага заснована на садржа?у (нпр. на?и подкаст где су изговорене одре?ене речи).[1]
Препознава?е гласа или препознава?е говорника ?е сродан процес ко?и покушава да идентифику?е особу ко?а говори наспрам онога што ?е изречено.
Технологи?а препознава?а говора
[уреди | уреди извор]Када говоримо о технологи?и, ве?ина техничких у?беника данас истиче употребу скривеног Марков?евог модела као основну технологи?у. Приступ динамичног програмира?а, приступ заснован на неуронско? мрежи и приступ уче?а заснован на зна?у, били су интензивно проучавани током 1980-их и 1990-их.
Перформанса система препознава?а говора
[уреди | уреди извор]Перформанса система препознава?а говора ?е обично одре?ена у погледу прецизности и брзине. Прецизност ?е мерена стопом погрешних речи, док ?е брзина мерена фактором реалног времена.
Ве?ина корисника препознава?а говора би се сложила да машине за диктира?е могу пости?и велики успех у контролисаним условима. До забуне долази меша?ем употребе термина препознава?е говора и диктат.
Системи диктира?а ко?и су услов?ени говорником и ко?и захтева?у кратак период обуке могу са веома високом тачнош?у ухватити континуиран говор са великим вокабуларом изречен нормалним темпом. Ве?ина комерци?алних компани?а тврди да софтвер за препознава?е може да достигне изме?у 98% и 99% тачности (погреши ?едну до две речи од сто) ако ради под оптималним, односно на?пово?ни?им условима. Под оптималним условима се обично подразумева да суб?екти ко?и се тестира?у има?у
- карактеристике ко?е се подудара?у са подацима за обуку
- одговара?у?у адаптаци?у говорника
- чисто, односно празно окруже?е (нпр. канцелари?у).
Ово об?аш?ава зашто неки корисници, поготову они са нагласком, могу сматрати да ?е стопа препознава?а много нижа од очекиваних 98% до 99%.
Други системи, ограниченог вокабулара, ко?и не захтева?у никакву обуку, могу препознати мали бро? речи (нпр. десет цифара) код ве?ине говорника. Овакви системи су популарни за усмерава?е долазе?их телефонских позива на ?ихове дестинаци?е у великим организаци?ама.
И акустичко моделова?е и ?езичко моделова?е су важне студи?е у модерном статистичком препознава?у говора. У овом приступу, усредсреди?емо се на об?аш?е?е употребе скривеног Марков?евог модела ?ер ?е широко употреб?аван у многим системима. (?езичко моделова?е има многе друге примене као што ?е паметна тастатура и класификаци?а докумената; молимо погледа?те одговара?у?е одреднице)
Приступи статистичког препознава?а говора
[уреди | уреди извор]Препознава?е говора засновано на скривеном Марков?евом моделу
[уреди | уреди извор]Модерни системи препознава?а говора опште намене обично су засновани на скривеним Марков?евим моделима. Ово ?е статистички модел ко?и производи низ симбола или квантитета.
?едан могу?и разлог због ко?ег се скривени Марков?еви модели употреб?ава?у у препознава?у говора ?есте то што се говорни сигнал може посматрати као по деловима стационарни сигнал или краткотра?ан стационарни сигнал. То ?ест, може се претпоставити да, у кратком временском периоду од 10 милисекунди, говор може бити схва?ен као стационаран процес. О говору се, према томе, може мислити као о Марков?евом моделу за многе стохастичке процесе (познате као претпоставке).
Други разлог због ко?ег су скривени Марков?еви модели популарни ?е зато што могу бити обучени аутоматски и зато што су ?едноставни и практични за рачунарску употребу. У препознава?у говора, да бисмо произвели на??едноставни?у могу?у поставку, скривени Марков?ев модел би требало да произведе низ n-димензионалних вектора од праве вредности, при чему ?е n, рецимо, око 13, производе?и по ?едан на сваких 10 милисекунди. Вектори, опет у на??едноставни?ем случа?у, би се састо?али од кепстралних (cepstral) коефици?ента, ко?и се доби?а?у кориш?е?ем Фури?еове трансформаци?е краткотра?ног прозора говора и декорелаци?е спектра кориш?е?ем косинусне трансформаци?е и онда узима?ем првих (на?знача?ни?их) коефици?ената. Скривени Марков?ев модел ?е тежити да има, у сваком ста?у, статистичку дистрибуци?у ко?а представ?а мешавину Гаусовских расподела вероватно?е ко?е има?у ди?агоналне ковари?ационе матрице и ко?е ?е дати вероватно?у за сваки посматран вектор. Свака реч, или (за општи?е системе препознава?а говора) свака фонема, има?е различит производ дистрибуци?е; скривени Марков?ев модел за низ речи или фонема ?е направ?ен спа?а?ем индивидуално обучених скривених Марков?евих модела за одво?ене речи и фонеме.
Горе речено ?е веома кратак увод неким знача?ним аспектима препознава?а говора. Модерни системи препознава?а говора користе велики бро? стандардних техника чи?е би одговара?у?е об?аш?е?е захтевало много времена, али, само да назначимо, типични континуирани систем са великим вокабуларом би вероватно имао следе?е делове. Била би му потребна зависност од контекста за фонове, односно гласове (тако да фонови са различитим левим и десним контекстом има?у различите реализаци?е); да бисмо решили пита?е неви?ених контекста била би потребна три груписа?а контекста; користила би се наравно кепстрална нормализаци?а за нормализова?е у различитим условима снима?а и зависе?и од дужине времена ко?е систем мора да прилагоди различитим говорницима и условима, могла би се користити сред?а кепстрална и дисперзна нормализаци?а за разлике у каналима, нормализаци?а дужине вокалног тракта за мушко-женску нормализаци?у и линеарна регреси?а максималне вероватно?е за уопштени?у адаптаци?у говорнику. Карактеристике би имале делта и делта-делта коефици?енте да би се забележила динамика говора, а додатно би се могла користити хетероседактична линеарна дискриминантна анализа, односно линеарна дискриминантна анализа скупа случа?них промен?ивих ко?е нема?у исту дисперзи?у, т?. вари?ансу; или би се могли прескочити делта и делта-делта коефици?енти и користити линеарна дискриминантна анализа пра?ена можда хетероседактичном линеарном дискриминантном анализом или глобалном ковари?ансном трансформаци?ом, ко?а ?е тако?е позната и као максимална веродосто?ност линеарног трансформиса?а. Озби?на компани?а са великом количином података за обучава?е би вероватно желела да узме у обзир дискриминативне технике тренира?а као што ?е на?ве?а уза?амна информаци?а, МPE, или МСЕ (за кратке исказе), и ако би била на располага?у велика количина говорнику специфичних уписаних података, ве?а адаптаци?а говорнику би била постигнута помо?у МАП, или, макар, помо?у линеарне регреси?е по методи максималне веродосто?ности засноване на дрвету. Декодира?е говора (термин ко?и се употреб?ава за оно што се дешава када ?е систему презентован нови исказ и када се мора израчунати на?вероватни?и извор реченице) би вероватно користило Витерби алгоритам да би се нашла на?бо?а пута?а, али посто?и избор изме?у динамично ствара?у?их комбинаци?а скривених Марков?евих модела ко?а ук?учу?е и акустичке и ?езичке узорне информаци?е, или их унапред статистички комбину?е (АТ&Т приступ, за ко?и ?ихов алат FSM може бити користан).
Препознава?е говора засновано на неуронско? мрежи
[уреди | уреди извор]?ош ?едан приступ у акустичком моделова?у ?е употреба неуронских мрежа. У ста?у су да реше много компликовани?е задатке препознава?а, али нису добре колико скривени Марков?еви модели када су у пита?у вокабулари. Оваква препознава?а говора се пре употреб?ава?у када су у пита?у лош квалитет, бучни подаци или независност говорника, него што има?у општу намену. Овакви системи могу пости?и ве?у тачност него системи засновани на скривеном Марков?евом моделу, докле год посто?е подаци за обуку и докле год ?е вокабулар ограничен. ?ош општи?и приступ кориш?е?ем неуронских мрежа ?е препознава?е фонема. Ово ?е активно по?е истражива?а, али резултати су генерално бо?и него за скривене Марков?еве моделе. Тако?е посто?е и хибридни системи засновани и на неуронско? мрежи и на скривеном Марков?евом моделу, ко?и користе ?едан део за препознава?е говора, а други за ?езичко моделова?е.
Препознава?е говора засновано на динамично? временско? криви
[уреди | уреди извор]Динамична временска крива ?е алгоритам за мере?е сличности изме?у два низа ко?е могу варирати у времену и брзини. Нпр, сличности у шаблонима хода би требало да се детекту?у чак и ако ?е на ?едном снимку особа ходала споро, а на другом много брже, или чак ако би било убрза?а и успоре?а за време опсерваци?е. Динамична временска крива ?е била приме?ена на видео, аудио и графику. Заиста, сваки податак ко?и може бити претворен у линеарну репрезентаци?у може бити анализиран помо?у динамичне временске криве.
Добро позната примена ?е аутоматско препознава?е говора, где се излази на кра? са различитим брзинама говора. Уопште, то ?е метод ко?и дозво?ава комп?утеру да на?е оптимално подудара?е изме?у два дата низа са одре?еним ограниче?има, односно низови су ?искрив?ени“ нелинеарно да би одговарали ?едан другом. Ова? метод регулиса?а низова ?е често кориш?ен у контексту скривених Марков?евих модела.
Препознава?е говора засновано на зна?у
[уреди | уреди извор]Ова? метод користи ускладиштене базе података команди ко?е пореде просте речи са онима у бази података.
Патенти препознава?а говора и расправа о патентима
[уреди | уреди извор]Мicrosoft и Alcatel-Lucent су носиоци патената за препознава?е говора и у спору су од 2. марта 2007. године.
АлфаНум
[уреди | уреди извор]Сви успеси у препознава?у и синтези говора су сконцентрисани на велике ?езике и богата тржишта ?ер се ради о мултидисциплинарним проблемима на чи?ем решава?у у свету ве? дужи низ година раде тимови од по више десетина ?уди. Ме?утим, разво? оваквих алата и за српски ?език отпочео ?е тим са Факултета техничких наука (ФТН) у Новом Саду предво?ен др Владом Дели?ем у про?екту Алфанум[2].
Временом ?е ова? тим прерастао и у посебно предузе?е, АлфаНум д. о. о., ко?е се бави разво?ем и пласманом говорних технологи?а. Резултати рада тима за сада су преточени у два заокружена система ко?а се не заснива?у ни на каквим претходним готовим реше?има, ве? су разви?ена од почетка. Прода?у се у виду софтверских компонената ко?е се ?едноставно могу интегрисати у разне апликаци?е, као и у оквиру готових реше?а про?ектованих према захтевима купца.
- AlfaNumASR ?е систем за препознава?е континуалног говора, дакле, може да препозна и читаве реченице, а не само по?единачне речи. Систем ради независно од говорника, дакле, не мора посебно да се обучава за препознава?е сваког новог говорника што га чини идеалним за примене у, примера ради, говорним аутоматима за пружа?е информаци?а корисницима. У речнику од 50 речи систем препозна?е речи пренете преко телефонске лини?е са преко 98% тачности (преко 99% на снимку студи?ског квалитета), док ?е код речника са ве?им бро?ем речи тачност ма?а. Пошто систем врши фонетско препознава?е, врло лако се може научити да препозна?е и нове речи. Осмиш?ена ?е и посебна техника препознава?а низа цифара са тачнош?у ве?ом од тачности препознава?а сваке од ?их по?единачно, чиме се достиже тачност упоредива са ?удском. Притом, систем води рачуна и о изразима као што су нпр. ?молим вас” или ?хммм”, ко?е корисници често изговара?у, а ко?и нису од знача?а за ток апликаци?е. На Пентиум 4 конфигураци?и на 2GHz ова? аутомат може истовремено да опслужу?е 50 лини?а, што га чини неупоредиво ?ефтини?им од ?удских оператера. AlfaNumASR ве? користе ?Телебанк” систем Поштанске штедионице, Републичка управа ?авних прихода у Новом Саду, као и Генералштаб Во?ске Срби?е и Црне Горе.
- AlfaNumTTS ?е систем задужен за синтезу говора. У односу на друге ?езике, синтезу говора на српском ?езику донекле олакшава то што се речи изговара?у онако како се и пишу, али се, нажалост, на основу записа не може предвидети како се ко?а реч акценту?е, а без акцената би синтетизован говор био неприродан и непри?атан за слуша?е. Додатно, ве?ина речи у нашем ?езику ?е промен?ива, тако да ?е у оквиру про?екта АлфаНум морао бити разви?ен комплетан електронски акценатско-морфолошки речник српског ?езика у ко?ем ?е све то евидентирано. Сама синтеза говора се врши повезива?ем згодно одабраних сегмената из ве? посто?е?ег сним?еног матери?ала, применом разних техника чи?и ?е ци? да се прелази изме?у сегмената учине што неприметни?им. Систем може да чита и ?ириличне и латиничне текстове, исправно чита бро?еве (не цифру по цифру, ве? као речи), чак и редне. Поред тога, сналази се и са латиничним текстовима у ко?има нема наших слова, што ?е честа по?ава нпр. код е-маилова. Систем ?е разви?ен до те мере да чита потпуно течно, тако да ?е потпуно употреб?ив за слепе и слабовиде особе, али, наравно, ни?е непогрешив. Примена у телефони?и му ?е за сада ограничена на естетски ма?е захтевне потребе, као што су поменути говорни аутомати. Наравно, ASR се може, али и не мора, спрегнути са TTS-ом, тако да може радити и са претходно сним?еним и са синтетизованим и са обе врсте порука. Тренутно се ради на сма?е?у хардверске захтевности ових програма.
Додатна литература
[уреди | уреди извор]Популарне конференци?е о препознава?у говора одржавале су се сваке или сваке друге године ук?учу?у?и и ICASSP, Eurospeech/ICSLP и IEEE ASRU. Конференци?е на по?у Обраде природног ?езика, као што су ACL, NAACL, EMNLP, и HLT почи?у да ук?учу?у реферате о обради говора. Важни новинари ук?учу?у IEEE трансакци?е у говорну и аудио обраду, Комп?утерски говор и ?език, и Говорну комуникаци?у. К?иге као што ?е "Fundamentals of Speech Recognition" Лоренса Рабинера (Lawrence Rabiner) могу бити корисне да би се стекло основно зна?е, али можда нису у потпуности актуелне, односно у току (1993). Други добар извор може бити "Statistical Methods for Speech Recognition" Фредерика ?елинека (Frederick Jelinek) ко?а ?е модерни?а к?ига (1998).
Када говоримо о слободно доступним изворима, HTK к?ига (и прате?и HTK алат) ?е ?едно место за почетак обе ствари, уче?а о препознава?у говора и експериментиса?а. Тако?е можете потражити SPHINX алат Карнеги Мелон универзитета.
Примена препознава?а говора
[уреди | уреди извор]- Командно препознава?е
- Диктат
- Интерактивни гласовни одговор
- Самосходно препознава?е говора
- Медицинско, односно лекарско снима?е
- Компараци?а система за уче?е ?езика кориш?е?ем препознава?а говора [1]
- Аутоматски превод
- "Hands-free" рачуна?е
Види ?ош
[уреди | уреди извор]Референце
[уреди | уреди извор]- ^ Tanja Schultz and Katrin Kirchhoff, ур. (април 2006). Multilingual Speech Processing. Архивирано из оригинала 3. 3. 2007. г. Приступ?ено 20. 5. 2007.
- ^ ?Alfanum”.
Литература
[уреди | уреди извор]- Tanja Schultz and Katrin Kirchhoff, ур. (април 2006). Multilingual Speech Processing. Архивирано из оригинала 3. 3. 2007. г. Приступ?ено 20. 5. 2007.
Спо?аш?е везе
[уреди | уреди извор]- Како инсталирати и конфигурисати препознава?е говора у Windows-у.
- Препознава?е говора,Диктира?еMicrophone To Text,Српски Демо.
- VoxForge - Бесплатан GPL говорни корпус и Складиште акустичких модела
- Ентропички/Кембри?ки алат скривеног Марков?евог модела
- Xvoice: Говорна контрола X примена
- LT-world: Портал за информаци?е и изворе не интернету
- LDCКонзорци?ум ?езичких података
- Процене и Агенци?а за дистрибуци?у ?езичких извора
- OLAC За?едница отворених ?езичких архива
- Баварски архив за говорне сигнале
- AlfaNum
- IBM про?екат ?МASTOR“ за препознава?е говора