стань автором. присоединяйся к сообществу!
Лого Сделано у нас
95

Российская технология распознавания речи группы компаний ЦРТ признана лучшей в мире

Следи за успехами России в Телеграм @sdelanounas_ru

 © www.speechpro.ru

Технология диаризации и распознавания речи, созданная группой компаний ЦРТ (входит в экосистему Сбербанка), признана лучшей на международном конкурсе CHiME Speech Separation and Recognition Challenge (CHiME-6). Высокое признание технология получила за распознавание английской речи с нескольких микрофонов в условиях естественной обстановки. Группа ЦРТ показала наилучшие результаты тестов в самой сложной задаче конкурса, значительно превзойдя конкурентов.

Организаторы CHiME предлагают сильнейшим командам со всего мира различные задачи, которые с каждым новым конкурсом усложняются. На CHiME-5, конкурсанты решали так называемую cocktail party problem — распознавание спонтанной речи нескольких дикторов в условиях частичного наложения речи и шума, то есть в типичной ситуации общения на вечеринке. Этот блок требовал работы с сегментированной (уже выделенной) речью. Новизна и особенность CHiME-6 заключалась в том, что впервые в истории конкурсантам было предложено решить аналогичную проблему, но работая с несегментированной речью, при этом — с перекрытием речи до 20%. Именно на решении этой, самой сложной, задачи сфокусировалась команда ЦРТ.

Записи для конкурса были сделаны на 20 ужинах в реальных домах на вечеринках, где люди готовили, ели, мыли посуду, свободно и эмоционально общались, шутили и смеялись. Для распознавания здесь сложны одновременная речь 2-4 человек, реверберация и интенсивный шум — звон приборов, льющаяся из крана вода, гул кондиционера, шаги, смех. Цель участников — создать систему распознавания, которая «прослушает» записи и выдаст полную расшифровку с наименьшим количеством ошибок. Команда группы ЦРТ заняла первое место:

 © www.speechpro.ru

На графике: результаты конкурса, в столбцах — количество допущенных ошибок. Источник: https://chimech...e6/results.html

Для этого был разработан уникальный алгоритм выделения речевых сегментов для каждого из дикторов, а также создан комплекс из нескольких нейронных сетей разных архитектур, различающий разных дикторов, реализующий бимформинг (эффект нацеливания микрофонов на конкретного диктора) и непосредственно распознающий речь. Кроме группы ЦРТ, в конкурсе участвовали научные команды со всего мира: и известные IT-компании — Toshiba и ряд других, и крупные университеты-лидеры в области речевых технологий: Университет Джонса Хопкинса (США), Университет науки и технологии Китая, Технический университет Брно (Чехия) и др.

«Группа ЦРТ уже 30 лет создает, развивает и совершенствует речевые технологии. В этом году на CHiME-6 впервые в истории стояла самая сложная задача — работа с несегментированной речью. Качественное распознавание речи разных дикторов, при этом перебиваемой шумами, позволяет выводить сервисы из разряда инновационных в повседневное применение, совершенствуя бизнес и упрощая нашу жизнь. Так, качественная обработка несегментированной речи позволит, к примеру, вести грамотное протоколирование совещаний, где говорит сразу несколько спикеров, а интеллектуальная речевая аналитика позволит автоматизировать работу контактных центров: распознавать спонтанную речь, классифицировать голосовые обращения, выявлять соблюдения скрипта, делать выводы об удовлетворенности клиента и качестве диалога, а значит — существенно оптимизировать работу современных контакт-центров ретейла, e-commerce и телеком. Признание группы ЦРТ в этом международном конкурсе — не просто наша личная победа, но знаковое событие для всей индустрии, и мы рады выводить решение задач в области распознавания речи, над которыми работают сильнейшие команды со всего мира, на новый уровень, достойно представляя свои ключевые компетенции на глобальном рынке», — комментирует генеральный директор группы компаний ЦРТ Дмитрий Дырмовский.

«Задача CHiME — обеспечить обмен опытом сильнейших команд со всего мира и продвинуть вперед решение глобальных задач в области распознавания речи. И мы приветствуем достижения группы компаний ЦРТ в этой области», — поделился Джон Баркер, представитель Университета Шеффилд (Великобритания), участник организационного комитета CHiME Challenge.

Группа компаний ЦРТ (входит в экосистему Сбербанка) — глобальный разработчик интеллектуальных речевых технологий, распознавания лиц, технологический эксперт в области искусственного интеллекта и машинного обучения. Одна из немногих компаний в мире, которая создает и развивает обе биометрические модальности: лицо и голос. Технологии выявления подделок голоса и распознавание речи от группы ЦРТ занимают лидирующие позиции в мировых рейтингах NIST, ASVspoof Challenge, VOiCES, CHiME Challenge. Решения ЦРТ востребованы в 70 странах мира.

Кстати, а вы знали, что на «Сделано у нас» статьи публикуют посетители, такие же как и вы? И никакой премодерации, согласований и разрешений! Любой может добавить новость. А лучшие попадут в телеграмм @sdelanounas_ru. Подробнее о том как работает наш сайт здесь👈

  • 4
    Нет аватара Zappa
    12.05.2011:18:32

    известные IT-компании — Toshiba и ряд других, и крупные университеты-лидеры в области речевых технологий: Университет Джонса Хопкинса (США), Университет науки и технологии Китая, Технический университет Брно (Чехия) и др.

    Смотрю на график. Подпись первого места STC-innovations Ltd. ITMO University. Почему в статье не упомянули наш университет ИТМО? Или он ни при чем? Зато неоднократно упомянут Сбербанк. Так кто стоит за первым местои ИТМО или Сбер?

    Новости однозначно плюс.

    Отредактировано: Zappa~11:20 12.05.20
  • 1
    kolop kolop
    12.05.2012:22:00

    Только главного пользователя этой технологии не указали — это работники «невидимого фронта», работники которые защищают нас от внешних и внутренних врагов, кладя на кон свою личную жизнь.

    • -8
      berkut berkut
      12.05.2018:47:35

      Какой вы наивный: главный пользователь (подопытный) будете — ВЫ!

      Распознают у всех лицо, речь, сетчатку глаза, ДНК и т. д. и будут создавать электронный концлагерь

      Отредактировано: berkut~18:50 12.05.20
      • Комментарий удален
        • 0
          Нет аватара nik.f
          15.05.2002:40:23

          Сергей К., спорный вопрос. Это пока всё «хорошо». Смотрите на соседнюю Украину, скандал недели, где от организаций требуют списки евреев (sic!). Или давайте вспомним маккартизм и гонения на коммунистов. Сегодня не интересует, а завтра во власть придет неизвестно кто и вполне себе может заинтересовать.

          • -1
            berkut berkut
            16.05.2009:02:50

            Верно: пока ты никому не нужен — спокойно! Но если ты решил что-то вякнуть против, кому-то стал неугоден, конкурент — подняли все данные и ввели тебя в каменный век (в лучшем случае). Владение жильём — в электронном виде (изменили в компьютере фамилию и ты БОМЖ), деньги (т.е еда) — в электронном виде, транспорт, трудовая книжка — тоже! ВСЁ в электронном виде и ты этим не управляешь, а управляет в лучшем случае государство (чиновники, может и продажные)

            Отредактировано: berkut~09:08 16.05.20
        • -1
          berkut berkut
          16.05.2019:44:02

          Преступники будут с удовольствием пользоваться тотальным контролем над жертвой, а от другого они откупятся

  • 4
    Нет аватара хочу_техники
    12.05.2012:43:05

    Распознавание речи, распознавание почерка с чтением рукописных документов, распознавание места выстрела, распознавание лиц. Вот еще бы сделать автоматическую экспертизу текста на соответствие законам формальной логики, чтобы применять в судебной практике, или для формальной проверки законов и подзаконов на непротиворечивость. ИИ в жизнь!

    • 0
      slav262 slav262
      12.05.2013:29:34

      Это дело ближайшего будущего.

  • Комментарий скрыт по причине низкого рейтинга. показать
Написать комментарий
Отмена
Для комментирования вам необходимо зарегистрироваться и войти на сайт,