информационная безопасность
без паники и всерьез
 подробно о проектеRambler's Top100
За кого нас держат?Spanning Tree Protocol: недокументированное применениеСетевые кракеры и правда о деле Левина
BugTraq.Ru
Русский BugTraq
 Анализ криптографических сетевых... 
 Модель надежности двухузлового... 
 Специальные марковские модели надежности... 
 С наступающим 
 Microsoft обещает радикально усилить... 
 Ядро Linux избавляется от российских... 
главная обзор RSN блог библиотека закон бред форум dnet о проекте
bugtraq.ru / форум / programming
Имя Пароль
ФОРУМ
если вы видите этот текст, отключите в настройках форума использование JavaScript
регистрация





Легенда:
  новое сообщение
  закрытая нитка
  новое сообщение
  в закрытой нитке
  старое сообщение
  • Напоминаю, что масса вопросов по функционированию форума снимается после прочтения его описания.
  • Новичкам также крайне полезно ознакомиться с данным документом.
Распознование голоса 29.11.01 02:17  
Автор: Korsh <Мельников Михаил> Статус: Elderman
<"чистая" ссылка> <обсуждение закрыто>
Кто-нибудь когда-нибудь занимался данной проблемой:
софт по этому делу писали???
Распознование голоса 29.11.01 11:05  
Автор: _CYBER_AGE_ Статус: Незарегистрированный пользователь
<"чистая" ссылка> <обсуждение закрыто>
> Кто-нибудь когда-нибудь занимался данной проблемой:
> софт по этому делу писали???


да уж приходилось .

за 5 месяцев вдвоем сделать в принципе реально , но все зависит от того что вы
хотите получить и какими знаниями обладаете.

если берете готовый движок например от IBM (я его юзал под Linux) то проблемы упираются чисто в написание интерфейса и составление схем диалогов.

тогда за 5 месцев вдвоем - нет проблем.


если будете писать СВОЕ с нуля т.е.:

1)извлечение первичных параметров из сигнала (частота основного тона, спектр, кепстральные коэффициенты и т.д) и его предобработка.
2)получение обучающих выборок и выбор методов первичной классификации сегментов (КДП анализ, нейро-нечеткие модели.СММ)
3)выбор речевой модели и архитектуры системы в целом с распознавателем "верхнего " уровня

тогда может затянуться надолго, но будет интереснее :-)

вообще тема эта очень сложная и объемная.


в самом упрощенном варианте можно сделать прогу типа той которую я забабахал
где - то полгода назад.

1 - оцифровывается сигнал mono 16 bit 22 kHz
2 - на каждом 10 мс фрейме считаются коэффициенты линейного предсказания и
на их основе вычисляются кепстральные коэффициенты 12 штук (либо сначала БПФ - разложение по Mel-шкале - логарифмирование - обратное БПФ получается примерно тоже самое)
3 - три последовательных фрейма (36 коэфф-в) подается на обучение нейросети
(входной слой 36 , скрытый слой 12, один нейрон в выходном слое) обучение по стандартному алгоритму обратного распространения. для обучения следует выделить классы звуков в словах например ВОСЕМЬ - ВО-С-М берете 30-40 вариантов каждаго класса и обучаете нейросеть к примеру вы выбрали 20 классов
(в принципе можно обучить на фонемы но у меня не было базы с русскими фонемами
да и с укрупнеными классами говорят более дикторо независимо получается)
тогда у вас будет 20 нейросетей затем только остается прогонять каждый фрейм поступающего сигнала через все нейросети и выбирать те которые дали значение
наиболее близкое к полученным при обучении этих классов.все это хорошо работает для маленького словаря . у меня было десять цифр все отлично распознается .
ну и соответственно делаете табличку соответствия ВО-С-М = ВОСЕМЬ и т.д.

конечно метод туповат но у меня все работвло.

для чтения рекомендую журнальчик "SPEECH COMMUNICATION"







Распознование голоса 30.11.01 01:09  
Автор: Korsh <Мельников Михаил> Статус: Elderman
<"чистая" ссылка> <обсуждение закрыто>
Спасибо, будут ещё вопросы-- задам.
Konkretno chto interesuet? 29.11.01 02:20  
Автор: + <Mikhail> Статус: Elderman
<"чистая" ссылка> <обсуждение закрыто>
Konkretno chto interesuet? 29.11.01 04:28  
Автор: Korsh <Мельников Михаил> Статус: Elderman
<"чистая" ссылка> <обсуждение закрыто>
Надо курсовую писать,
а хочу сделать софт по голосовому управлению системой.
Хочу знать на сколько это реально сделать одному-двум людям за 5 месяцев.
И ещё, что по этому поводу читать можно(теория и практика).
Konkretno chto interesuet? 29.11.01 04:46  
Автор: + <Mikhail> Статус: Elderman
<"чистая" ссылка> <обсуждение закрыто>
> Надо курсовую писать,
> а хочу сделать софт по голосовому управлению системой.
> Хочу знать на сколько это реально сделать одному-двум людям
> за 5 месяцев.

Realno. Ni chego tam zaumnogo net .

> И ещё, что по этому поводу читать можно(теория и практика).

1. Microsoft speech SDK.
2. SpeechWorks
....
Konkretno chto interesuet? 29.11.01 07:40  
Автор: Korsh <Мельников Михаил> Статус: Elderman
<"чистая" ссылка> <обсуждение закрыто>
откуда такие слова
Занимался этой проблемой?
Konkretno chto interesuet? 29.11.01 21:21  
Автор: + <Mikhail> Статус: Elderman
<"чистая" ссылка> <обсуждение закрыто>
> откуда такие слова
> Занимался этой проблемой?

Da my etim zanimaemsia.

P.S. poka my tut obsuzdaem etu baidu, ty davno by uzhe napisal svoi kursovoi.
Konkretno chto interesuet? 30.11.01 01:05  
Автор: Korsh <Мельников Михаил> Статус: Elderman
<"чистая" ссылка> <обсуждение закрыто>
> Da my etim zanimaemsia.
Если так, то где можно посмотреть теоретические выкладки по этому вопросу???
2 Korsh 29.11.01 08:02  
Автор: !mm <Ivan Ch.> Статус: Elderman
<"чистая" ссылка> <обсуждение закрыто>
> откуда такие слова
> Занимался этой проблемой?

Прикольно.. Выглядит так, как будто ты наезжаешь..

Или как в анекдоте про русскую и американскую подлодки "ты пальцем покажи" :))

Или нет, по-другому можно:
"Ты, мля, йопта, за базаром - то следи, слова-то какие нашел" :))


Еси че, кого-то обидел - сорри заранее :)
2 Korsh 29.11.01 08:30  
Автор: Korsh <Мельников Михаил> Статус: Elderman
<"чистая" ссылка> <обсуждение закрыто>
> > откуда такие слова
> > Занимался этой проблемой?
>
> Прикольно.. Выглядит так, как будто ты наезжаешь..
нет вовсе не наезжаю, совет нужен от знающего
> Еси че, кого-то обидел - сорри заранее :)
прощаю :))
1




Rambler's Top100
Рейтинг@Mail.ru


  Copyright © 2001-2025 Dmitry Leonov   Page build time: 0 s   Design: Vadim Derkach