> Кто-нибудь когда-нибудь занимался данной проблемой: > софт по этому делу писали???
да уж приходилось .
за 5 месяцев вдвоем сделать в принципе реально , но все зависит от того что вы
хотите получить и какими знаниями обладаете.
если берете готовый движок например от IBM (я его юзал под Linux) то проблемы упираются чисто в написание интерфейса и составление схем диалогов.
тогда за 5 месцев вдвоем - нет проблем.
если будете писать СВОЕ с нуля т.е.:
1)извлечение первичных параметров из сигнала (частота основного тона, спектр, кепстральные коэффициенты и т.д) и его предобработка.
2)получение обучающих выборок и выбор методов первичной классификации сегментов (КДП анализ, нейро-нечеткие модели.СММ)
3)выбор речевой модели и архитектуры системы в целом с распознавателем "верхнего " уровня
тогда может затянуться надолго, но будет интереснее :-)
вообще тема эта очень сложная и объемная.
в самом упрощенном варианте можно сделать прогу типа той которую я забабахал
где - то полгода назад.
1 - оцифровывается сигнал mono 16 bit 22 kHz
2 - на каждом 10 мс фрейме считаются коэффициенты линейного предсказания и
на их основе вычисляются кепстральные коэффициенты 12 штук (либо сначала БПФ - разложение по Mel-шкале - логарифмирование - обратное БПФ получается примерно тоже самое)
3 - три последовательных фрейма (36 коэфф-в) подается на обучение нейросети
(входной слой 36 , скрытый слой 12, один нейрон в выходном слое) обучение по стандартному алгоритму обратного распространения. для обучения следует выделить классы звуков в словах например ВОСЕМЬ - ВО-С-М берете 30-40 вариантов каждаго класса и обучаете нейросеть к примеру вы выбрали 20 классов
(в принципе можно обучить на фонемы но у меня не было базы с русскими фонемами
да и с укрупнеными классами говорят более дикторо независимо получается)
тогда у вас будет 20 нейросетей затем только остается прогонять каждый фрейм поступающего сигнала через все нейросети и выбирать те которые дали значение
наиболее близкое к полученным при обучении этих классов.все это хорошо работает для маленького словаря . у меня было десять цифр все отлично распознается .
ну и соответственно делаете табличку соответствия ВО-С-М = ВОСЕМЬ и т.д.
конечно метод туповат но у меня все работвло.
для чтения рекомендую журнальчик "SPEECH COMMUNICATION"
Надо курсовую писать,
а хочу сделать софт по голосовому управлению системой.
Хочу знать на сколько это реально сделать одному-двум людям за 5 месяцев.
И ещё, что по этому поводу читать можно(теория и практика).
> Надо курсовую писать, > а хочу сделать софт по голосовому управлению системой. > Хочу знать на сколько это реально сделать одному-двум людям > за 5 месяцев.
Realno. Ni chego tam zaumnogo net .
> И ещё, что по этому поводу читать можно(теория и практика).
> > откуда такие слова > > Занимался этой проблемой? > > Прикольно.. Выглядит так, как будто ты наезжаешь.. нет вовсе не наезжаю, совет нужен от знающего
> Еси че, кого-то обидел - сорри заранее :) прощаю :))