По словам исследователей, эта технология может пригодиться в шумных местах или в местах, где громкая речь неуместна.
Исследователи Корнельского университета разработали очки-интерфейс распознавания тихой речи, который использует акустическое восприятие и искусственный интеллект для непрерывного распознавания до 31 беззвучной команды на основе движений губ и рта.
Интерфейс под названием EchoSpeech требует всего несколько минут обучающих данных пользователя, прежде чем он распознает команды и сможет запускаться на смартфоне. С помощью него можно как распознавать речь другого человека (с его согласия, потому что обоим придется пользоваться смартфоном) или самому отдавать смартфону беззвучные команды.
Оснащенные парой микрофонов и динамиков меньшего размера, чем ластик для карандашей, очки EchoSpeech превращаются в носимую гидролокационную систему с искусственным интеллектом, отправляющую и принимающую звуковые волны по лицу и воспринимающую движения рта. Затем алгоритм глубокого обучения анализирует эти эхо-профили в режиме реального времени с точностью около 95%.
В своем нынешнем виде EchoSpeech можно использовать для общения с другими людьми через смартфон в местах, где речь сложно разобрать или вообще нельзя разговаривать вслух, например, в шумном ресторане или тихой библиотеке.
По словам Чжана, большинство технологий распознавания немой речи ограничены набором предопределенных команд и требуют, чтобы пользователь смотрел в камеру или носил ее, что нецелесообразно и невыполнимо. По его словам, также существуют серьезные проблемы с конфиденциальностью, связанные с носимыми камерами – как для пользователя, так и для тех, с кем он взаимодействует.
Технология акустического восприятия, такая как EchoSpeech, устраняет необходимость в носимых видеокамерах. А поскольку аудиоданные намного меньше, чем изображения или видеоданные, для их обработки требуется меньшая полоса пропускания, и их можно передавать на смартфон через Bluetooth в режиме реального времени.