информационная безопасность
без паники и всерьез
 подробно о проектеRambler's Top100
Где водятся OGRыВсе любят мед
BugTraq.Ru
Русский BugTraq
 Анализ криптографических сетевых... 
 Модель надежности двухузлового... 
 Специальные марковские модели надежности... 
 Очередное исследование 19 миллиардов... 
 Оптимизация ввода-вывода как инструмент... 
 Зловреды выбирают Lisp и Delphi 
главная обзор RSN блог библиотека закон бред форум dnet о проекте
bugtraq.ru / форум / programming
Имя Пароль
если вы видите этот текст, отключите в настройках форума использование JavaScript
ФОРУМ
все доски
FAQ
IRC
новые сообщения
site updates
guestbook
beginners
sysadmin
programming
operating systems
theory
web building
software
hardware
networking
law
hacking
gadgets
job
dnet
humor
miscellaneous
scrap
регистрация





Легенда:
  новое сообщение
  закрытая нитка
  новое сообщение
  в закрытой нитке
  старое сообщение
Распознование голоса 29.11.01 02:17  
Автор: Korsh <Мельников Михаил> Статус: Elderman
<"чистая" ссылка> <обсуждение закрыто>
Кто-нибудь когда-нибудь занимался данной проблемой:
софт по этому делу писали???
Распознование голоса 29.11.01 11:05  
Автор: _CYBER_AGE_ Статус: Незарегистрированный пользователь
<"чистая" ссылка> <обсуждение закрыто>
> Кто-нибудь когда-нибудь занимался данной проблемой:
> софт по этому делу писали???


да уж приходилось .

за 5 месяцев вдвоем сделать в принципе реально , но все зависит от того что вы
хотите получить и какими знаниями обладаете.

если берете готовый движок например от IBM (я его юзал под Linux) то проблемы упираются чисто в написание интерфейса и составление схем диалогов.

тогда за 5 месцев вдвоем - нет проблем.


если будете писать СВОЕ с нуля т.е.:

1)извлечение первичных параметров из сигнала (частота основного тона, спектр, кепстральные коэффициенты и т.д) и его предобработка.
2)получение обучающих выборок и выбор методов первичной классификации сегментов (КДП анализ, нейро-нечеткие модели.СММ)
3)выбор речевой модели и архитектуры системы в целом с распознавателем "верхнего " уровня

тогда может затянуться надолго, но будет интереснее :-)

вообще тема эта очень сложная и объемная.


в самом упрощенном варианте можно сделать прогу типа той которую я забабахал
где - то полгода назад.

1 - оцифровывается сигнал mono 16 bit 22 kHz
2 - на каждом 10 мс фрейме считаются коэффициенты линейного предсказания и
на их основе вычисляются кепстральные коэффициенты 12 штук (либо сначала БПФ - разложение по Mel-шкале - логарифмирование - обратное БПФ получается примерно тоже самое)
3 - три последовательных фрейма (36 коэфф-в) подается на обучение нейросети
(входной слой 36 , скрытый слой 12, один нейрон в выходном слое) обучение по стандартному алгоритму обратного распространения. для обучения следует выделить классы звуков в словах например ВОСЕМЬ - ВО-С-М берете 30-40 вариантов каждаго класса и обучаете нейросеть к примеру вы выбрали 20 классов
(в принципе можно обучить на фонемы но у меня не было базы с русскими фонемами
да и с укрупнеными классами говорят более дикторо независимо получается)
тогда у вас будет 20 нейросетей затем только остается прогонять каждый фрейм поступающего сигнала через все нейросети и выбирать те которые дали значение
наиболее близкое к полученным при обучении этих классов.все это хорошо работает для маленького словаря . у меня было десять цифр все отлично распознается .
ну и соответственно делаете табличку соответствия ВО-С-М = ВОСЕМЬ и т.д.

конечно метод туповат но у меня все работвло.

для чтения рекомендую журнальчик "SPEECH COMMUNICATION"







Распознование голоса 30.11.01 01:09  
Автор: Korsh <Мельников Михаил> Статус: Elderman
<"чистая" ссылка> <обсуждение закрыто>
Спасибо, будут ещё вопросы-- задам.
Konkretno chto interesuet? 29.11.01 02:20  
Автор: + <Mikhail> Статус: Elderman
<"чистая" ссылка> <обсуждение закрыто>
Konkretno chto interesuet? 29.11.01 04:28  
Автор: Korsh <Мельников Михаил> Статус: Elderman
<"чистая" ссылка> <обсуждение закрыто>
Надо курсовую писать,
а хочу сделать софт по голосовому управлению системой.
Хочу знать на сколько это реально сделать одному-двум людям за 5 месяцев.
И ещё, что по этому поводу читать можно(теория и практика).
Konkretno chto interesuet? 29.11.01 04:46  
Автор: + <Mikhail> Статус: Elderman
<"чистая" ссылка> <обсуждение закрыто>
> Надо курсовую писать,
> а хочу сделать софт по голосовому управлению системой.
> Хочу знать на сколько это реально сделать одному-двум людям
> за 5 месяцев.

Realno. Ni chego tam zaumnogo net .

> И ещё, что по этому поводу читать можно(теория и практика).

1. Microsoft speech SDK.
2. SpeechWorks
....
Konkretno chto interesuet? 29.11.01 07:40  
Автор: Korsh <Мельников Михаил> Статус: Elderman
<"чистая" ссылка> <обсуждение закрыто>
откуда такие слова
Занимался этой проблемой?
Konkretno chto interesuet? 29.11.01 21:21  
Автор: + <Mikhail> Статус: Elderman
<"чистая" ссылка> <обсуждение закрыто>
> откуда такие слова
> Занимался этой проблемой?

Da my etim zanimaemsia.

P.S. poka my tut obsuzdaem etu baidu, ty davno by uzhe napisal svoi kursovoi.
Konkretno chto interesuet? 30.11.01 01:05  
Автор: Korsh <Мельников Михаил> Статус: Elderman
<"чистая" ссылка> <обсуждение закрыто>
> Da my etim zanimaemsia.
Если так, то где можно посмотреть теоретические выкладки по этому вопросу???
2 Korsh 29.11.01 08:02  
Автор: !mm <Ivan Ch.> Статус: Elderman
<"чистая" ссылка> <обсуждение закрыто>
> откуда такие слова
> Занимался этой проблемой?

Прикольно.. Выглядит так, как будто ты наезжаешь..

Или как в анекдоте про русскую и американскую подлодки "ты пальцем покажи" :))

Или нет, по-другому можно:
"Ты, мля, йопта, за базаром - то следи, слова-то какие нашел" :))


Еси че, кого-то обидел - сорри заранее :)
2 Korsh 29.11.01 08:30  
Автор: Korsh <Мельников Михаил> Статус: Elderman
<"чистая" ссылка> <обсуждение закрыто>
> > откуда такие слова
> > Занимался этой проблемой?
>
> Прикольно.. Выглядит так, как будто ты наезжаешь..
нет вовсе не наезжаю, совет нужен от знающего
> Еси че, кого-то обидел - сорри заранее :)
прощаю :))
1




Rambler's Top100
Рейтинг@Mail.ru


  Copyright © 2001-2025 Dmitry Leonov   Page build time: 0 s   Design: Vadim Derkach