BugTraq.Ru: форум / programming / Распознование голоса

информационная безопасность
без паники и всерьез

подробно о проекте

Анализ криптографических сетевых...

Модель надежности двухузлового...

Специальные марковские модели надежности...

700 с лишним git-серверов пострадало...

От повторного пришествия Шаи-Хулуда...

Крупный сбой Azure и других сервисов...

bugtraq.ru / форум / programming

Имя

Пароль

если вы видите этот текст, отключите в настройках форума использование JavaScript


ФОРУМ


регистрация

Легенда:

новое сообщение

закрытая нитка

новое сообщение

в закрытой нитке

старое сообщение

Напоминаю, что масса вопросов по функционированию форума снимается после прочтения его описания.
Новичкам также крайне полезно ознакомиться с данным документом.

Распознование голоса 29.11.01 02:17
Автор: Korsh <Мельников Михаил> Статус: Elderman

<"чистая" ссылка>

<обсуждение закрыто>

Кто-нибудь когда-нибудь занимался данной проблемой:
софт по этому делу писали???

Распознование голоса 29.11.01 11:05
Автор: _CYBER_AGE_ Статус: Незарегистрированный пользователь

<"чистая" ссылка>

<обсуждение закрыто>

> Кто-нибудь когда-нибудь занимался данной проблемой:
> софт по этому делу писали???

да уж приходилось .

за 5 месяцев вдвоем сделать в принципе реально , но все зависит от того что вы
хотите получить и какими знаниями обладаете.

если берете готовый движок например от IBM (я его юзал под Linux) то проблемы упираются чисто в написание интерфейса и составление схем диалогов.

тогда за 5 месцев вдвоем - нет проблем.

если будете писать СВОЕ с нуля т.е.:

1)извлечение первичных параметров из сигнала (частота основного тона, спектр, кепстральные коэффициенты и т.д) и его предобработка.
2)получение обучающих выборок и выбор методов первичной классификации сегментов (КДП анализ, нейро-нечеткие модели.СММ)
3)выбор речевой модели и архитектуры системы в целом с распознавателем "верхнего " уровня

тогда может затянуться надолго, но будет интереснее :-)

вообще тема эта очень сложная и объемная.

в самом упрощенном варианте можно сделать прогу типа той которую я забабахал
где - то полгода назад.

1 - оцифровывается сигнал mono 16 bit 22 kHz
2 - на каждом 10 мс фрейме считаются коэффициенты линейного предсказания и
на их основе вычисляются кепстральные коэффициенты 12 штук (либо сначала БПФ - разложение по Mel-шкале - логарифмирование - обратное БПФ получается примерно тоже самое)
3 - три последовательных фрейма (36 коэфф-в) подается на обучение нейросети
(входной слой 36 , скрытый слой 12, один нейрон в выходном слое) обучение по стандартному алгоритму обратного распространения. для обучения следует выделить классы звуков в словах например ВОСЕМЬ - ВО-С-М берете 30-40 вариантов каждаго класса и обучаете нейросеть к примеру вы выбрали 20 классов
(в принципе можно обучить на фонемы но у меня не было базы с русскими фонемами
да и с укрупнеными классами говорят более дикторо независимо получается)
тогда у вас будет 20 нейросетей затем только остается прогонять каждый фрейм поступающего сигнала через все нейросети и выбирать те которые дали значение
наиболее близкое к полученным при обучении этих классов.все это хорошо работает для маленького словаря . у меня было десять цифр все отлично распознается .
ну и соответственно делаете табличку соответствия ВО-С-М = ВОСЕМЬ и т.д.

конечно метод туповат но у меня все работвло.

для чтения рекомендую журнальчик "SPEECH COMMUNICATION"

Распознование голоса 30.11.01 01:09
Автор: Korsh <Мельников Михаил> Статус: Elderman

<"чистая" ссылка>

<обсуждение закрыто>

Спасибо, будут ещё вопросы-- задам.

Konkretno chto interesuet? 29.11.01 02:20
Автор: + <Mikhail> Статус: Elderman

<"чистая" ссылка>

<обсуждение закрыто>

Konkretno chto interesuet? 29.11.01 04:28
Автор: Korsh <Мельников Михаил> Статус: Elderman

<"чистая" ссылка>

<обсуждение закрыто>

Надо курсовую писать,
а хочу сделать софт по голосовому управлению системой.
Хочу знать на сколько это реально сделать одному-двум людям за 5 месяцев.
И ещё, что по этому поводу читать можно(теория и практика).

Konkretno chto interesuet? 29.11.01 04:46
Автор: + <Mikhail> Статус: Elderman

<"чистая" ссылка>

<обсуждение закрыто>

> Надо курсовую писать,
> а хочу сделать софт по голосовому управлению системой.
> Хочу знать на сколько это реально сделать одному-двум людям
> за 5 месяцев.

Realno. Ni chego tam zaumnogo net .

> И ещё, что по этому поводу читать можно(теория и практика).

1. Microsoft speech SDK.
2. SpeechWorks
....

Konkretno chto interesuet? 29.11.01 07:40
Автор: Korsh <Мельников Михаил> Статус: Elderman

<"чистая" ссылка>

<обсуждение закрыто>

откуда такие слова
Занимался этой проблемой?

Konkretno chto interesuet? 29.11.01 21:21
Автор: + <Mikhail> Статус: Elderman

<"чистая" ссылка>

<обсуждение закрыто>

> откуда такие слова
> Занимался этой проблемой?

Da my etim zanimaemsia.

P.S. poka my tut obsuzdaem etu baidu, ty davno by uzhe napisal svoi kursovoi.

Konkretno chto interesuet? 30.11.01 01:05
Автор: Korsh <Мельников Михаил> Статус: Elderman

<"чистая" ссылка>

<обсуждение закрыто>

> Da my etim zanimaemsia.
Если так, то где можно посмотреть теоретические выкладки по этому вопросу???

2 Korsh 29.11.01 08:02
Автор: !mm <Ivan Ch.> Статус: Elderman

<"чистая" ссылка>

<обсуждение закрыто>

> откуда такие слова
> Занимался этой проблемой?

Прикольно.. Выглядит так, как будто ты наезжаешь..

Или как в анекдоте про русскую и американскую подлодки "ты пальцем покажи" :))

Или нет, по-другому можно:
"Ты, мля, йопта, за базаром - то следи, слова-то какие нашел" :))

Еси че, кого-то обидел - сорри заранее :)

2 Korsh 29.11.01 08:30
Автор: Korsh <Мельников Михаил> Статус: Elderman

<"чистая" ссылка>

<обсуждение закрыто>

> > откуда такие слова
> > Занимался этой проблемой?
>
> Прикольно.. Выглядит так, как будто ты наезжаешь..
нет вовсе не наезжаю, совет нужен от знающего
> Еси че, кого-то обидел - сорри заранее :)
прощаю :))

Page build time: 0 s

Design: Vadim Derkach