Создан звонок, способный распознавать лица и разговаривать

Создан звонок, способный распознавать лица и разговаривать

6 «умных» дверных звонков, которые сообщат хозяевам всё о нежелательных визитёрах

Получайте на почту один раз в сутки одну самую читаемую статью. Присоединяйтесь к нам в Facebook и ВКонтакте.

Современные дверные звонки – устройства, которые точно пригодятся в каждом доме. Они позволяют узнать, кто пришёл, даже не подходя к двери. Можно не сомневаться – умный звонок сообщит абсолютно обо всех визитёрах, прислав сообщение на смартфон. И даже в том случае, если владелец недвижимости не дома, он сможет поговорит с посетителем по домофону, создавая иллюзию присутствия.

Помимо обеспечения видеопотока в режиме реального времени, доступ к которому можно получить в любое время, интеллектуальные дверные звонки могут быть настроены для начала записи видео в момент, когда они обнаруживают движение, а в некоторых случаях даже когда «слышат» необычные звуки, например, сигнализацию или звук разбитого стекла. Для большинства интеллектуальных дверных звонков необходимо проводное подключение, некоторые же работают на батареях и используют Wi-Fi. Итак, лучшие на сегодня из этого класса устройств.

1. August Doorbell Cam Pro

Второе поколение смарт-звонка Doorbell Cam Pro получило улучшенный ночной режим, и гаджет способен снимать цветное видео ночью в HD-качестве. Устройство также умеет обнаруживать движения и отправлять предупреждения об этом на смартфон.

Новой в этой модели является встроенная флуоресцентная подсветка, которая включается при обнаружении движения. Это улучшает качество записанного видео и полезно для борьбы с взломом.

Особо впечатляет очень простой процесс установки Doorbell Cam Pro, но при этом удивляет, что не был увеличен радиус обзора по сравнению с предыдущей моделью. Тем не менее, способ общения друг с другом всех продуктов для умного дома от August весьма радует. Например, если дома есть смарт-замок August, то можно удаленно разблокировать дверь, чтобы позволить войти, к примеру, уборщику.

Видео можно просматривать в прямом эфире в любое время, а последние 24 часа записи также доступны для просмотра в Интернете. Поэтому, если камера обнаружила движение поздно вечером, и хочется проверить, что это было, можно просмотреть запись утром, загрузив ее бесплатно из Сети. Если захочется продлить этот период до 30 дней, нужно будет оплатить подписку в размере $ 4,99 в месяц или $ 49,99 в год.

2. Ring Video Doorbell Pro

$ 249
Этот проводной видеодомофон снимает видео в качестве Full HD с разрешением 1080p, имеет микрофон и динамик для двустороннего аудио, может видеть в темноте в инфракрасном диапазоне, а также может быть сконфигурирован так, чтобы игнорировать движение в определенных частях кадра.

Как и звонок от August, Ring Video Doorbell Pro присылает уведомление на смартфон, когда он видит движение, а также можно подключиться к камере звонка, чтобы увидеть изображение в режиме реального времени.

Утонченной особенностью этого дверного звонка является то, что можно запрограммировать игнорирование движения в любом секторе его обзора. Это очень полезно, если поле зрения камеры смарт-звонка частично захватывает улицу, и проезжающие по дороге автомобили приводят к постоянным уведомлениям на смартфон о движении. Стоит уточнить, что даже если запрограммировать звонок на игнорирование проезжей части перед домом, он все равно вышлет предупреждение на телефон и начнет запись, если кто-то появится прямо перед камерой, придя от проезжей части.

Ring Video Doorbell Pro поставляется с четырьмя лицевыми панелями, чтобы гаджет идеально подошел к дизайну любой двери.

Несколько покупателей этой модели столкнулись с проблемами подключении гаджета к очень старому механизму звонка у себя в квартире. Поэтому рекомендуется проверить совместимость перед покупкой, особенно если дома механизм дверного звонка устарел.

Просмотр видео в реальном времени бесплатный, но просмотр и загрузка записанного видео (на срок от 60 дней) требует приобретения Ring Protect, который обойдется в $ 3 в месяц или $ 30 в год.

3. Skybell HD

$ 199
Как и его конкуренты, дверной видеозвонок Skybell умеет записывать HD-видео, имеет микрофон и динамик для общения с кем бы то ни было, датчик движения для начала записи видео в случае его обнаружения и функцию цветного ночного видения.

Skybell HD очень легко установить, а также в нем нет ежемесячной платы за хранение видео в Интернете. Вместо этого видеозапись хранится семь дней на сервере Skybell, после чего удаляется. Если понадобится копия видеозаписи, можно загрузить видео на свой смартфон через приложение Skybell, доступное для iOS и Android.

Видео можно записывать в формате Full HD 1080p, но доступны и более низкие разрешения, если связь с Интернетом плохая. Также есть возможность выключить звонок, чтобы он не мешал поздно вечером или когда ребенок спит.

Интеграция с Alexa означает, что покупатель может контролировать дверной звонок, разговаривая со своим умным динамиком Amazon Echo. Также есть поддержка устройств Z-Wave и Zigbee. Skybell умеет работать с интеллектуальными замками Kevo Kevo, так что можно дистанционно разблокировать дверь, чтобы впустить кого-то.

4. Netvue Belle

$ 249
Обычно умные дверные звонки подразумевают, что владелец будет сам говорить с посетителем. Netvue Belle утверждает, что является первым смарт-звонком с искусственным интеллектом. Таким образом, устройство само приветствует посетителей своим голосом и просит их идентифицировать себя, прежде чем передать эту информацию владельцу.

Как и у других дверных звонков, у Belle есть камера HD и он обеспечивает двусторонний звук, чтобы можно было говорить с кем бы то ни было, прежде чем открывать дверь. Также можно разговаривать с посетителем удаленно.

Netvue – это проект Indiegogo, который в марте 2018 года собрал 234 процента целевого финансирования. В ближайшее время планируется начать поставки.

5. Wisenet SmartCam D1

$ 230
В отличие от большинства дверных звонков, SmartCam D1 от Wisenet использует функцию распознавания лица, чтобы помочь определить, кто находится у двери. В первый раз смарт-звонок не может сделать этого, но он сделает снимок лица звонящего и попросит владельца идентифицировать его. В следующий раз, когда этот человек позвонит в дверь, приложение уведомит о том, кто пришел.

Это может быть удобным способом узнать, когда у двери находится друг, а не продавец, с которым, возможно, не захочется говорить. Помимо распознавания лица, камера звонка также умеет определять разницу между людьми и другими движущимися объектами, такими как проходящая мимо кошка, поэтому SmartCam D1 не будет предупреждать владельца и записывать видео без необходимости.

Функция, называемая «интеллектуальное обнаружение аномального звука», уведомит человека, когда устройство «услышит» сигнализацию, звук разбитого стекла или чей-то крик. Прямую трансляцию видео можно просматривать бесплатно в любое время, но запись за последние 30 дней можно увидеть только с подпиской SmartCloud, которая стоит $ 4,99 в месяц или $ 49,99 в год.

6. Yale Look Door Viewer

$ 179
Еще один умный дверной звонок Yale Look Door Viewer представляет собой камеру, которая помещается внутрь входной вашей двери и «смотрит наружу» через глазок. Это означает, что устройство с меньшей вероятностью будет видно снаружи, а также не понадобится связь с существующей проводкой домофона.

Читать еще:  Варианты крепления для экшн-камеры на голове, груди, шлеме, транспортном средстве

Система Yale Look Door Viewer, которая имеет простую установку, также обнаруживает движение и предлагает двустороннюю связь, хотя это происходит с задержкой.

Качество видеоизображения камеры 720p могло бы быть и лучше, поскольку оно немного нечеткое по ночам, а также функция обнаружения движения слишком чувствительная. Кроме того, картинка ночью через дверной глазок при ненастной погоде откровенно плохая.

Понравилась статья? Тогда поддержи нас, жми:

Сергей Воронин: «Иногда судьи требуют, чтобы в представленной как доказательство аудиозаписи телефонного разговора звучали фамилии, имена и отчества собеседников»

В ноябре 2016 года состоялась презентация очередного аудиоредактора, который способен создать имитацию голоса человека после 20-минутного обучения. Планируется, что программа сможет обрабатывать голоса людей и аудиозаписи по аналогии с тем, как сегодня это делают сервисы по работе с изображениями. Часто подобные технологии используют злоумышленники для подделок материалов, в том числе для последующего использования в суде в качестве доказательства.

Мы побеседовали с заместителем генерального директора по юридическим вопросам АНО Экспертный центр «Консультант» Сергеем Ворониным об особенностях экспертизы аудиозаписей и специфике распознавания подделок, изготовленных с помощью компьютерных программ.

Сергей Анатольевич, исходя из Вашего опыта, действительно ли современным компьютерным программам достаточно 20 минут, чтобы распознать человеческую речь и уловить для совершенной имитации тонкости интонаций и тембра голоса, или все равно в обработанной речи будет проскальзывать нечто механическое?

В принципе, программа может создать себе базу для имитации голоса и за 20 минут. Воспроизводить и распознавать человеческую речь она тоже сможет, но ошибки будут встречаться часто. При этом в тембре голоса, созданного такой программой, будет узнаваться механическая речь, а не человеческая. Современные программные продукты, которые способны воспроизводить качественные голоса, требуют длительного обучения. В частности, речь идет о широко используемых сегодня голосовых помощниках в смартфонах. Такие программы исполнены качественно – в 90% случаев нельзя сказать, что конкретный голос является компьютерным. Изначально в них внедрен стандартный набор фраз. Но при этом обучение программы происходит постоянно: модели обновляют, для этого могут также использоваться крупные дата-центры. И в целом для улучшения такого рода программ существует много разработок, в том числе стартапов.

Важным вопросом является использование языков в данных программах. У каждого языка есть определенный тембр. Загрузить тембры всех языков мира в программу не получится, и единого алгоритма не существует.

На одном языке можно говорить по-разному, например, русский язык может звучать иначе в северных и южных регионах. Учитывается ли многообразие диалектов одного языка при обучении таких программ?

Диалекты языка в данном контексте представляют собой совершенно разные языки. Однако в случае с русским языком соседние диалекты отличаются друг от друга не слишком сильно, а вот в других языках отличия существенные.

По каким признакам гражданин может самостоятельно определить, что он услышал не настоящую запись, а подделку, то есть существуют ли очевидные особенности звучания фальшивой записи?

В любом разговоре используется определенный тембр голоса. Тембр поддельной речи существенно отличается от того, который принадлежит реальному человеку. Разница и будет свидетельствовать о том, что используется какая-то электронная программа и человека, например, разыгрывают телефонные хулиганы.

Кстати, еще лучше по тембру слышно изменение голоса в поддельной аудиозаписи с мужского на женский и наоборот. Тембры разительно отличаются, и человек отчетливо слышит разницу.

Как правило, «хорошая» подделка требует навыков. И наоборот, неумелая работа в любом редакторе, в том числе аудио-, порой видна невооруженным глазом. Часто ли встречаются действительно сложно различимые подделки, учитывая, что для этого злоумышленникам или хулиганам требуются специфические знания компьютерных программ?

Специфические знания потребуются в любом случае. Это связано с тем, что телефонные хулиганы или мошенники, подделывая голос, пользуются двумя методами. Первый способ – это изменение или искажение тембра голоса, а второй – нарезка. В последнем случае речь составляется из кусочков, а потом воспроизводится для ответов на те или иные вопросы. Оба способа можно выявить с помощью специального оборудования фоноскописта.

Определить искажение возможно, сопоставив измененную речь и тембр голоса реального человека, если есть образец записи такого голоса. А между нарезками будут характерные промежутки времени, по которым определяется, что это именно нарезка, а не единый и целостный текст.

Стоит отметить, злоумышленник может использовать и профессиональное оборудование. Например, для воспроизведения записанного голоса или изменения своего тембра прямо в процессе разговора.

Существует такая мера защиты записи от обработки, как цифровой водяной знак (специальные закодированные метки внутри аудиофайла). В том числе он позволяет выявить, была ли аудиозапись изменена. Насколько эффективен этот инструмент борьбы с преобразованием записей?

Данная мера эффективна, водяные знаки уже сейчас используются в лицензионных музыкальных произведениях, например, в фонограммах. Их необходимо использовать для того, чтобы определить, является музыкальное произведение лицензионным или нет. Иными словами, такая мера защиты затрагивает скорее правообладателей. Цифровые водяные знаки не на 100% ограждают запись от злоумышленников, но создают им преграды.

Есть ли возможность вырезать такой знак?

Лицензионное ПО предполагает частое использование водяных знаков. Злоумышленнику придется видоизменять аудиозапись таким образом, чтобы обрезать все внедренные в нее знаки. К тому же существует вероятность, что при вырезке будут слышны остаточные элементы цифровых водяных знаков, следовательно, у мошенника в этом случае ничего не получится.

Цифровой водяной знак можно услышать после обработки аудиозаписи – он выдает определенные шумы.

Если гражданин подозревает, что какая-либо запись является подделкой, как именно ему лучше сформулировать вопросы, которые ставятся перед экспертом, проводящим фоноскопическую экспертизу?

Перед экспертом необходимо ставить вопрос о том, принадлежит ли голос на протяжении всей записи конкретному человеку или нет. Для проведения экспертизы в этом случае потребуются образцы голоса на нескольких различных записях.

Кстати, на современные смартфоны можно установить программы, которые записывают все телефонные разговоры подряд. Обычно они издают звуковое предупреждение о том, что разговор будет записан. Но это касается не всех приложений – я сталкивался с ситуацией, когда аудиозапись разговора производилась автоматически, однако без какого-либо предупреждения.

Также можно поставить перед экспертом вопрос о том, является запись полной или частичной (то есть были ли вырезаны из нее или добавлены какие-либо фрагменты). Возможна и прямая формулировка: является ли запись поддельной.

Случается, что суды не принимают аудиозапись, сделанную без предупреждения, поскольку в принципе не рассматривают такую запись как доказательство по делу.

Какие ошибки часто допускают граждане, обращаясь за фоноскопической экспертизой?

Они в основном ставят вопрос, использовался ли монтаж в представленной ими записи. Но монтаж точно не использовался, если они сами эту запись и вели. Поэтому вопрос надо ставить не о записи, а о воспроизводимом звуке, который зафиксирован на ней.

Что бы Вы посоветовали гражданам, которые хотят использовать аудиозапись как доказательство в суде?

В первую очередь, для того, чтобы использовать доказательство в суде, всегда нужно

ФОРМЫ

Ходатайство о приобщении к делу доказательств
Ходатайство о приобщении к делу аудиозаписи в качестве доказательства (гражданский процесс)

ходатайствовать о приобщении данной аудиозаписи к материалам дела (ст. 119 Уголовно-процессуального кодекса, ч. 1 ст. 41 Арбитражного процессуального кодекса, ч. 1 ст. 35 Гражданского процессуального кодекса). Иногда судьи предъявляют требование о том, чтобы в ходе разговора были заранее известны фамилии, имена и отчества того, кто звонит, и того, кому звонят. То есть если вы делаете диктофонную запись или аудиозапись разговора по телефону, нужно, чтобы оба участника беседы озвучивали свои данные. Условно говоря: «Я, Иванов Иван Иванович, звоню Петрову Ивану Ивановичу». Второй участник также должен подтвердить, что это он. Тогда это будет иметь большое значение для вынесения решения по делу – уже в ходе фоноскопической экспертизы записи можно установить, принадлежит данный голос конкретному лицу или нет.

Читать еще:  Кто изобрел микроволновую печь?

Может ли эксперт распознать подделку, если качество предоставленной для экспертизы аудиозаписи изначально плохое?

В любой методике проведения как судебных, так и внесудебных экспертиз есть этап установления качества представленных объектов исследования. Если по мнению эксперта качество удовлетворительное, то ее использовать можно. Когда имеются шумы, которые невозможно убрать, и при этом они мешают разобрать записанное, такую запись не признают действительной для проведения экспертизы.

Тем не менее, есть набор шумов, которые можно приглушить, используя профессиональное оборудование фоноскописта. Возможность убрать шум зависит от его звучания и громкости. Шумы низкого и среднего характера можно приглушить полностью. Но если шум настолько высокий, что голос на записи невозможно разобрать, даже фоноскопист ничего не сможет сделать.

Низкими шумами являются все известные нам шумы промышленных предприятий и транспорта, а также шумной толпы. Высокие шумы – это одиночные крики, плач, музыка (но не оглушающая) на заднем фоне или иное акустическое воздействие.

Какой из способов подделки аудиозаписи на Вашей практике встречался чаще всего (например, искажение голоса или синтез речи человека с нуля)?

Обычно используются имитаторы голоса, то есть искажение. Очень часто применяют монтаж аудиозаписи, склеивание и перестановку слов. Бывает так: одна из сторон утверждает, что не говорила ничего из представленного на записи, и экспертиза подтверждает наличие признаков монтажа в аудиозаписи.

Синтезация голоса обычно используется для провокации. Это так называемый «технопранк», когда публичную персону доводят до истерического состояния, записывая на носитель ее отдельные фразы. Потом их используют для отдельных звонков другим лицам.

Исходя из вашей практики, что пользуется предпочтением в суде: показания стороны или материалы фоноскопической экспертизы? Например, если по итогам экспертизы не было выявлено монтажа или искажения, а сторона утверждает обратное.

Любая экспертиза оценивается в совокупности с другими доказательствами по гражданскому или уголовному делу. Если одна из сторон по делу не оспаривает результаты экспертизы, то суд может принять во внимание заключение эксперта и положить его в основу решения. В том случае, когда сторона оспаривает экспертизу, то может быть назначена повторная или дополнительная экспертиза для подтверждения или опровержения выводов эксперта. И таким образом в основу дела может лечь повторная экспертиза, подтверждающая выводы первоначальной.

Но истец и ответчик – заинтересованные в исходе дела лица, а эксперт предупреждается об уголовной ответственности за заведомо ложное заключение (ст. 171 ГПК РФ, ч. 5 ст. 55 АПК РФ, ч. 5 ст. 57 УПК РФ). Поэтому суды чаще обращают больше внимания на выводы эксперта-фоноскописта.

Хотел бы также отметить, что сегодня существует проблема восприятия судами аудиозаписей как доказательств. А учитывая степень развития современных технологий, подделки будут встречаться все чаще. Судам необходимо учесть подобные угрозы.

© ООО «НПП «ГАРАНТ-СЕРВИС», 2020. Система ГАРАНТ выпускается с 1990 года. Компания «Гарант» и ее партнеры являются участниками Российской ассоциации правовой информации ГАРАНТ.

Рассказываем, как работает нейросеть Speech2Face. Она создаёт лица по голосу

Пытались ли вы когда-либо представить, как выглядит незнакомый человек, с которым вы разговариваете по телефону? Особенно, если это очередной раздражающий звонок из банка с предложением кредита.

Скоро послать «занудную брюнетку 25 лет с зелеными глазами и мягким голосом» поможет специальная нейронная сеть.

Идея «восстановить» внешность человека по короткой аудиозаписи говорящего человека родилась появилась у основателей проекта Speech2Face. Рассказываем какие технологии помогают им в этом.

Speech2Face анализирует лица в роликах на YouTube

В проекте Speech2Face в качестве источников вводных данных используются миллионы видеороликов в Интернете и, в частности, на Youtube. Во время обучения сеть анализирует аудиовизуальные, голосовые корреляции. Они позволяют создавать изображения, отражающие различные физические характеристики говорящих, такие как возраст, пол и этническая принадлежность.

Любопытно, что некоторые особенности предсказанных сетью лиц могут не быть физически связаны с речью, например, цвет волос. Однако, многие люди, говорящие определенным образом, (например, на одном языке) также имеют некоторые общие визуальные черты.

Демонстрация работы датасета AVSpeech, на котором работает Speech2Face:

Метод не сможет восстановить точную внешность человека по его голосу. Это связано с тем, что модель обучена лишь отмечать визуальные особенности и фиксировать связь визуальных функций с вокальными и речевыми атрибутами.

Другими словами, модель не будет воспроизводить изображения конкретных людей.

Вы сможете знать, что вам позвонила блондинка, но точную ее внешность все равно не узнаете. Увы.

Speech2Face состоит из спектограмм и векторых данных

В качестве основы используется датасет AVSpeech и предобученная сеть VGG-Face, которая способна сопоставлять особенности речи с рядом биометрических характеристик человека.

Модель принимает спектограмму* аудиозаписи голоса, после чего выдает векторные данные с характеристиками лица, которые в свою очередь уже декодируются в финальное изображение лица.

* cпектограмма — визуальное представление аудиоволн

Используемые данные – это коллекция видеороликов с YouTube, а значит входные данные не в равной степени представляют все население мира. Другими словами, модель неточна и данные распределены неравномерно. Очевидно, что определенные национальности (например, африканские) система знает хуже других.

Например, если определенный язык не отображается в данных обучения, реконструкция внешности не будет хорошо отражать черты лица, которые могут коррелировать с этим языком.

Поэтому сейчас технология активно тестируется и проверяется, чтобы гарантировать максимально точный результат. В случае нахождения серьезных разночтений голоса и внешности создатели собирают более репрезентативные данные.

Speech2Face пока ошибается, но результаты все равно удивляют

Нельзя сказать, что на данный момент система работает точно. Так, в примере приводятся несколько лиц (в том числе известных личностей), но выдаваемый результат далеко не всегда совпадает с оригиналом.

Например, система сильно состарила внешность Дэниела Крейга и ошиблась с цветом волос Марии Шараповой.

Любопытно, что чем длиннее входная аудиозапись, тем и ближе сгенерированное изображение к истинному.

Повторюсь, что на данный момент цель проекта состоит не в том, чтобы восстановить точное изображение человека, а скорее в том, чтобы восстановить характерные физические особенности, которые коррелируют с его речью. Но авторы Speech2Face планируют продолжить исследования.

Возможно, в недалеком будущем мы сможем скачать приложение, способное предугадывать внешность неизвестного телефонного собеседника. Звучит фантастически, но в нынешнее время высоких технологий и нейросетей все возможно. Ждем. [Arxiv]

(4.77 из 5, оценили: 13)

Создан звонок, способный распознавать лица и разговаривать

ГлавнаяНовости Робот слышит и отвечает: технологии распознавания и синтеза речи

Робот слышит и отвечает: технологии распознавания и синтеза речи

Скучные профессии со временем исчезнут — их в первую очередь поручат роботам. Такое мнение недавно высказал на лекции в рамках проекта «Тактики и практики» директор по стратегическому маркетингу Яндекса Андрей Себрант.

Оператор контакт-центра — яркий пример такой профессии. И не только потому, что работа тяжелая и монотонная, но и потому, что в этой сфере уже активно внедряется искусственный интеллект.

Роботы в городах

Согласно представленному год назад анализу применения передовых технологий в работе контакт-центров мировых мегаполисов, из 20 изученных городов робот-оператор применялся в трех — в Москве, Нью-Йорке и Санкт-Петербурге. В российской столице применяется решение на базе ЦРТ, в американском мегаполисе — IBM Watson.

Статистика работы единой справочной Москвы показывает, что горожане привыкли взаимодействовать с роботом (доля тех, кто готов разговаривать с машиной, увеличилась за год с 73% до 91%). Сейчас все входящие звонки случайным образом разделяются на два потока — половина сразу попадает к человеку-оператору (который при необходимости может затем перенаправить звонок роботу), вторая половина идет на робота (в сложных случаях затем происходит умная переадресация на нужного специалиста). В столичном Департаменте информационных технологий ожидают, что уже осенью машина сможет полностью обрабатывать около 50% всех звонков.

Читать еще:  Какой лучше выбрать блендер для дома: погружной или стационарный

Нам как разработчикам очень приятно наблюдать, как исчезает страх перед роботами и компании меняются. Рутина отдается машине.

Евгения Дворскаяосновательница HR-робота Sever.AI

Помимо ЦРТ («Центр речевых технологий») готовое решение для распознавания и синтеза речи предоставляет Яндекс. Сервис называется SpeechKit и он доступен на базе платформы Яндекс.Облако.

ICT.Moscow предлагает познакомиться с несколькими сервисами и разработками из Москвы в сфере речевых технологий.

Универсальные решения

Yandex SpeechKit

Сервис распознавания и синтеза речи

Сервис работает с аудио и текстами на четырех языках: русском, английском, украинском и турецком. Yandex SpeechKit складывает речь более чем из миллиона отдельных фонем, а интонация задается нейросетью, обученной на множестве примеров из реальной жизни. Для обмена данными с сервисом предусмотрен HTTP API.

Инфраструктура сервиса спроектирована с учетом высоких нагрузок, чтобы обеспечивать доступность и безотказную работу системы даже при большом количестве одновременных обращений. На основе SpeechKit работает Алиса — голосовой помощник Яндекса.

VoiceNavigator

IVR-система c голосовым управлением (ЦРТ)

Решение от ЦРТ автоматизирует предоставление услуг и справочной информации, увеличивает производительность контакт-центров и сокращает время перевода вызова на целевого оператора.

Применяется многими компаниями и организацями, включая РЖД, «МегаФон», МТС, МЧС России и др.

Платформа MIR

Платформа распознавания речи

В продукте применяются разработки «Ситроникс» в области преобразования речевого сигнала в цифровую информацию и технология понимания естественного языка, которая позволяет выделять смысловые объекты, анализировать эмоциональное состояние говорящего

Платформа распознавания речи MIR представлена в нескольких вариантах: облачный сервис и On-premise решение для установки на серверах экосистемы заказчика. Точность распознавания общей модели составляет 84%.

VoiceFabric

Сервис для озвучивания синтезированным голосом текстовой информации (ЦРТ)

Еще один сервис от ЦРТ. Он позволяет отказаться от услуг диктора и предзаписи звуковых роликов в IVR-меню, написанный текст преобразуется в звукозапись и озвучивается клиенту в телефонном разговоре. Используя синтезированные голоса, можно озвучивать книги, видеоролики, записывать голосовые открытки без потери «естественной» интонации. Voicefabric гарантирует грамотную расстановку ударений, правильное чтение сокращений, чисел, аббревиатур. Доступно 8 голосов (женских и мужских), которые умеют говорить на трех языках (русский, английский, казахский).

Приложение для преобразования речи в текст (ЦРТ)

По команде программа устанавливает нужный знак препинания, переводит курсор на новую строчку или вставляет любой текст с помощью автозамены распознанной команды. При распознавании аудиофайлов знаки препинания расставляются автоматически. Расширенные версии программы включают тематические словари, количество которых постоянно пополняется.

Распознавание осуществляется локально на компьютере пользователя. Voco.Professional и Voco.Enterprise позволяют осуществлять распознавание речи из аудиозаписей. Конвертация осуществляется в специальном плагине для редактора MS Word с отображением аудиозаписи в плеере и связью звука с распознанным текстом.

Продажи и HR

Программный оператор

Робот для приема и обработки телефонных и интернет-заказов

Программный оператор принимает звонки, распознает и понимает речь, в случае необходимости задает уточняющие вопросы. Робот в автоматическом режиме обрабатывает заказы, оформленные через сайт, и перезванивает по указанному телефону, уточняя и подтверждая информацию.

В системе используются нейросети и машинное обучение, модуль синтеза речи. Блок распознавания речи построен на базе облачного сервиса 3i Speech Recognition, разработанного Консорциумом 3i Technologies.

SmartCalls

Сервис автообзвона с искусственным интеллектом

Система умных звонков с распознаванием и синтезом речи, а также с интерактивными сценариями разговора. Сценарии можно создавать в визуальном редакторе, передвигая блоки и настраивая необходимую последовательность действий: звонок, анкетирование по заданным вопросам, повторные звонки в случае пропущенного звонка, распознавание и запись голосового ответа.

В компании заверяют, что звонок такого робота не отличается от звонка оператора колл-центра, при этом в три раза дешевле.

Сервис подбора кандидатов на базе искусственного интеллекта

Решение для рекрутинга находит и оценивает резюме, может самостоятельно обзванивать и общаться с кандидатами (имитируя голоса разных сотрудников), проводить видеоинтервью с соискателями. Помимо речевого взаимодействие сервис может вести переписку, осуществлять рассылки и ставить встречи с успешными кандидатами в календарь HR-специалиста.

Технология позволяет проанализировать множество личностных характеристик соискателя и сопоставить их с требованиями компаниями к каждому конкретному кандидату.

Решения для массового обслуживания клиентов

Общегородской контакт-центр

Роботизированный сервис голосового информирования горожан

Общегородской контакт-центр включает в себя 34 горячие линии для граждан, юридических лиц, органов власти. Обрабатывает более трех миллионов вызовов жителей в месяц. Автоматизация самообслуживания осуществляется при помощи голосовых интерфейсов. Робот совершенствует свое произношение в режиме реального времени, анализирует ударение и интонацию абонентов. На основе полученного анализа робот предлагает администратору системы внести изменения в интонацию или ударение слов. Виртуальный оператор изучает, как человек реагирует на его речь и насколько успешно завершился диалог.

В городском контакт-центре используются следующие технологии: омниканальность (взаимная интеграция разрозненных каналов коммуникации в единую систему), робот-оператор, идентификация личности по голосу, искусственный интеллект, анализ больших данных, распознавание эмоций по голосу.

Водосчетчики

Сервис приема показаний водосчетчиков

Сервис приема показаний водосчетчиков ведется в простом и доступном диалоге жителей с роботом. При любом непонимании вопроса робота, гражданин может переспросить и получить подсказку своих дальнейших действий.

Робот понимает любые варианты и комбинации произносимых клиентами показаний. При этом, заложенный алгоритм проверки, не позволяет допустить внесения неверных значений показаний. Сервис также модифицируется под прием показаний тепловых счетчиков и электросчетчиков.

Специальные решения

VoiceDigger

Система поиска информации в аудиозаписях по ключевым словам (ЦРТ)

Решение от ЦРТ по распознаванию речи. Система обеспечивает быстрый поиск нужной информации в больших массивах аудиоданных, анализ всей записанной аудиоинформации. Сочетание технологий поиска по акустическим моделям и распознавания слитной русской речи, лежащие в основе продукта, позволяют анализировать большие объемы данных для быстрого поиска нужных фрагментов и слов.

Система может быть развернута на обычном ПК в качестве настольного приложения или на базе многопроцессорного комплекса с клиент-серверной архитектурой.

Программа для голосового заполнения медицинской документации (ЦРТ)

Специализированный сервис для распознавание речи в текст в режиме реального времени. Особенностью продукта является наличие специализированных лексических русскоязычных словарей: врача-терапевта общей практики, лор-врача, врача-диагноста МРТ, КТ, УЗИ.

Робот умеет заполнять шаблоны протоколов и любых текстовых документов, способен дообучаться и добавлять слова в словарь, расставлять пунктуацию и автозамену, есть возможность редактирования текста перед сохранением.

Оценка поведения

Формула успешного собеседования

Сервис индивидуальной подготовки к переговорам на основе ИИ

Сервис анализирует записанный кандидатом видеофайл с самопрезентацией, в котором человек рассказывает то, что планирует говорить во время собеседования. Нейронная сеть обрабатывает файл и дает оценку на основе опроса более 500 HR-специалистов из различных отраслей бизнеса. Разработчики утверждают, что нейросеть уже натренировалась на более 1000 видеофайлах с самопрезентациями и научилась рассчитывать процент вероятности прохождения собеседования.

После этого эксперт просматривает запись и выявляет смысловые ошибки презентации. При этом нейросеть и эксперт оценивают то, что соискатель говорит, его интонацию, скорость и громкость речи, а также позу, жесты и мимику. В результате пользователь получает письменный отчет, в котором указывается вероятность успешного прохождения собеседования и результаты по каждому оцениваемому фактору.

RiskControl

Платформа оценки человеческих рисков

Решение ведет автоматизированный опрос и тестирование с контролем информативных признаков стресса и лжи в параметрах голоса человека, его внешних признаках. Процедура полностью автоматизирована и не требует сопровождения специальным персоналом, что исключает субъективный фактор и снижает стоимость эксплуатации системы.

В программном комплексе используется Voice Lie Control — интеллектуальная система ведения опроса с контролем информативных признаков стресса и лжи на основе анализа параметров речи. Результат формируется сразу после завершения тестирования. Интерпретатор системы определяет уровень личностных рисков и реальных угроз на момент прохождения проверки, а также правдивость испытуемого при ответах на вопросы.

Хотите рассказать о других московских системах распознавания и синтезирования речи или сервисах, в которых они применяются? Напишите нам!

Ссылка на основную публикацию
Adblock
detector