Блог

Скоро в вашем телефоне — распознавание речи без подключения к Интернет

Когда-то традиционное речевое общение с компьютером было чем-то из области научной фантастики. В наши дни говорить: “Привет, Сири (Alexa, Google)”, или другому цифровому помощнику в смартфоне, как и в каком-либо другом интерактивном устройстве, стало обычным делом. Однако, в будущем технологии распознавания речи могут стать еще более востребованными.

Хотя исследования показывают, что этими технологиями уже регулярно пользуется каждый четвертый человек в случае, если прогнозы оправдаются, к 2025 году количество устройств, оснащенных функцией распознавания речи, превысит население планеты. И технология продолжает развиваться.

До сих пор распознавание речи осуществлялось с помощью устройства, подключенного к Интернету. Это связано с тем, что алгоритмы, обычно используемые для этого процесса, требуют значительных объемов временной оперативной памяти (ОЗУ), которая обычно предоставляется мощными серверами центров обработки данных. Действительно, попробуйте переключить свой смартфон в режим полета и посмотрите, как далеко вы продвинетесь с помощью голосовых команд. Но перемены уже назревают.

Новый алгоритм, разработанный профессором Панайотисом Каррасом из факультета компьютерных наук Копенгагенского университета совместно с лингвистом Нассосом Кацаманисом из Исследовательского центра Афин в Греции, исследователями из Университета Аалто в Финляндии и KTH в Швеции, позволяет даже небольшим устройствам, таким как смартфоны, декодировать речь, не требуя значительного объема памяти или обязательного доступа к Интернет.

В новом разработанном коде, недавно представленном на конференции Interspeech 2024, используется умная стратегия: он “забывает” то, что ему не требуется использовать в текущий момент времени.

“Распознавание речи в основном работает путем сопоставления звуков речи, которые мы используем для формирования слов и предложений, известных как фонемы, с библиотекой соответствующих звуков”, — объясняет Панайотис Каррас. “Вычисляются вероятности совпадений и последующих комбинаций, которые в дальнейшем образуют слова и предложения. Вычисляются наиболее вероятные последовательности, и программное обеспечение переводит эти звуки в текст”.

Современные алгоритмы требуют увеличения объема памяти по мере того, как человек произносит больше слов, поскольку все альтернативные комбинации должны оставаться открытыми до тех пор, пока не будет проанализирован окончательный звук. Новый алгоритм устраняет эту проблему.

“Алгоритм, задуманный Паносом и доработанный нашей командой, делает нечто совершенно новое”, – говорит один из разработчиков и соавтор Кацаманис. “В отличие от существующего алгоритма «золотого стандарта», используемого с первых дней распознавания речи, наш алгоритм сохраняет только часть обрабатываемых данных, выступая в качестве набора “координат”. С их помощью можно восстановить всю последовательность, что делает возможным распознавание речи при значительно меньшем объеме оперативной памяти”.

От ключевых слов до целых предложений

Подобный «манёвр» может показаться простым, но он включает в себя совершенно новый и уникальный код, на который исследователи запросили патент. Предложенный алгоритм уменьшает потребность в критически важном объёме памяти без ущерба для качества процесса распознавания. И хотя для этого требуется немного больше времени и вычислительных мощностей, исследователи говорят, что разница незначительна по сравнению с возросшими возможностями современных устройств.

Более того, разработанная технология не требует обязательного подключения к Интернету, что позволяет распознавать речь и, как надеются исследователи, в будущем осуществлять языковой перевод в режиме реального времени в любом месте, даже в глубине джунглей Амазонки.

Повышенная доступность, безопасность и экономия энергии

По мнению исследователей, изобретение открывает целый ряд возможностей: от практических, связанных с безопасностью и общественными благами, до экологических и экономических, связанных с энергосбережением и энергоэффективностью.

Например, многие люди могли бы воспользоваться возможностью перевода с иностранных языков во время путешествий, независимо от наличия доступа в Интернет. Это одна из возможностей, которую предполагают реализовать исследователи.

При этом расширение языковой доступности, как сейчас, так и в будущем, может оказать гораздо большее влияние на общество. Например, предложенный алгоритм способен помочь демократизировать языковые технологии, сделав информацию более доступной. Предоставление средств перевода и речевых помощников, доступных независимо от доступа в Интернет, позволит большему числу людей участвовать в жизни общества.

Другим ключевым преимуществом этого изобретения в области распознавания речи является безопасность. Когда безопасность имеет первостепенное значение, новый алгоритм решает важную проблему: потенциально интернет-соединения могут быть взломаны злоумышленником, а устраняя необходимость выхода в Интернет, алгоритм тем самым повышает безопасность устройства.

Кроме того, хотя задача уменьшения энергопотребления центрами обработки данных для поддержки существующих технологий распознавания речи, обычно незаметна для рядовых потребителей услуг, она по-прежнему чрезвычайно актуальна в мире, столкнувшимся с глобальными изменениями климата. Использование этого изобретения может привести к значительной экономии энергии за счет значительного сокращения потребности в огромном объёме временной памяти.

Источник: TechXplore