Ученые говорят, что человеческий мозг — это уникальный когнитивно-аналитический инструмент. Его возможности в познании, оценке и анализе окружающей информации еще очень долго не будут доступны для компьютеров в том же объеме и с тем же качеством. Больше других ученых интересую когнитивные возможности нашего мозга — исследователи хотят понять как наш мозг способен отличать речь от других звуков, классифицировать источник и направление звука.
Физики из Института им Макса Планка в немецком Лейпциге давно работают над системами, позволяющими компьютерам распознавать человеческую речь и транслировать ее в текст, однако успехи исследователей на этой почве были невелики. Сейчас здесь разработана новая математическая модель, способная улучшить автоматические процесс разпознавания и обработки человеческой речи. Авторы методики говорят, что в недалеком будущем такие алгоритмы приблизят машины к человеческому мозгу.
Немецкие инженеры говорят, что многие люди знают, что сложно компьютерам иметь дело с человеческой речью. «Человек, которому приходится общаться с автоматической телефонной системой, должен запастись терпением. Если вы говорите слишком быстро или слишком медленно, если ваше произношение не идеально четкое или если рядом с вами находится источник шума, то система вас не поймет», — говорит Стефан Кибель из Института Макса Планка.
Проблема современных систем распознавания голоса заключается в том, что они очень чувствительны к изменениям. Когда нынешние системы пытаются понять, что говорит человек, то они анализируют свою базу знаний, сравнивают частоты и звуковые комбинации, таким образом пытаясь найти совпадения.
«Очевидно, что наш мозг работает иначе. Мы полагаем, что мозг опирается на временные последовательности. Многие наши мозговые стимулы состоят из временных последовательностей. Музыка и речь являются упорядоченными последовательностями с разной длиной, но иерархически упорядоченные. Полагаем, что наш мозг классифицирует разные сигналы от маленьких и быстро меняющихся компонентов (букв) до больших и медленно меняющихся (тем)», — говорит ученый.
Немецкие ученые говорят, что их исследования доказывают значение информации, разбитой на разные временные уровни восприятия. «Мозг постоянно ищет временные структуры в окружающей среде, чтобы можно было сделать логический вывод о том, что последует дальше. Таким образом, мозг может часто предсказывать следующий звук на основе медленно меняющейся информации», — говорит он.
Иными словами, наш мозг на подсознательном уровне способен как-бы предугадывать слова в зависимости от контекста разговора.
Чтобы проверить эту гипотезу, исследователи создали математическую модель, которая в упрощенном виде имитирует нервные процессы, происходящие для осмысления речи. Нервные процессы были описаны алгоритмами, которые обрабатываются на различных временных уровнях. Модель могла обрабатывать как отдельные звуки речи, так и слоги или слова. Если система делала неверный прогноз о слове или контексте, то модель обнаруживала ошибку.
В качестве языка ученые использовали упрощенную модель из четырех гласных букв а, е, я, о, которые объединялись в слоги. «В первую очередь мы хотели проверить верность самой концепции, в дальнейшем на этой базе можно строить более сложные системы, приближенные к естественному языку», — говорит Кибель.
«С неврологической точки зрения самым важным для нас были реакции, похожие на те, что происходят в головном мозге», — рассказывает ученый.
Источник: CyberSecurity.ru