Шоу и новости доступны в «и», «Станции Мини» и других умных колонках, где есть голосовой помощник «Алиса».
«Яндекс» научил «Алису» вести персональное утреннее шоу
Режим радионяни доступен всем пользователям, улучшен звонок без шума В апрельском обновлении «Алисы» и «Яндекс Станций» добавлено множество новых функций, которые сделают использование устройств более удобным и разнообразным. Тексты песен на «ТВ Станциях» Теперь можно выводить тексты песен на экране во время прослушивания музыки. Приложение «Яндекс Музыка» автоматически синхронизирует текст с исполняемой песней. Эта функция доступна как для российских, так и для зарубежных треков. Доступность функции, можно понять по кнопке «Т» в музыкальном плеере. Новые спортивные каналы по подписке Подписчики «Яндекс Плюса» получили доступ к новым спортивным каналам, таким как «Матч Премьер» и «Матч!
Теперь у них появилась возможность выбирать темы новостей и подкастов. На данный момент в базе ассистента 11 рубрик для новостей и 21 рубрика для подкастов. Telegram-канал создателя Трешбокса про технологии «С умной колонкой можно слушать что угодно.
Отличное решение для караоке-вечеринки. Что ещё появилось на ТВ Станциях? Управлять можно голосом: поставить на паузу, продолжить, перемотать назад, выбрать качество или включить субтитры.
Станции, Станции Мини и других умных колонках, где есть голосовой помощник Алиса. Чтобы выбрать тематику новостей и подкастов, нужно просто открыть приложение Яндекс, выбрать пункт «Устройства», далее выбрать «Аккаунт» и перейти в «Настройки шоу Алисы». А куда нажать? Это я к тому, что не плохо бы ссылочку или инструкцию какую то в конце сообщения.. Виталий Н.
Новые функции «Алисы» и «Яндекс Станций» за апрель 2024 года
В конце 2020 года утреннее шоу Алисы стало персонализированным. До публикации этой новости я мельком слышал про существование Алисы (видео, когда 2 телефона общаются между собой). Добавьте в голосовой помощник Алису от Яндекса новые навыки на тему — Новости. В умных колонках с Алисой появилось персональное утреннее шоу: теперь можно слушать полезную информацию и музыку, подобранную специально для слушателя. Мы расскажем, что такое сценарии для Алисы, чем они отличаются от команд и какие хорошие команды уже придумали пользователи. Яндекс Станция включает Шоу Алисы (погода, новости, музыка и т.п.). Об этом я рассказываю ниже. Для утреннего сценария использую автоматизацию охлаждения кухни кондиционером.
Утренняя Алиса. У голосового помощника Яндекса теперь своё шоу
«Яндекс» представил апрельское обновление «Алисы» и своих умных устройств. Чтобы выбрать источник новостей, откуда Алиса будет зачитывать информацию, воспользуйтесь одним из следующих способов: скажите голосовой помощнице в приложении Яндекс фразу «Алиса, настрой новости» — выберите источник вручную в приложении Яндекс. «Яндекс» представил апрельское обновление «Алисы» и своих умных устройств. так назвали программу, при которой Алиса будет ставить различные треки из плейлиста пользователя на , дополняя их различными комментариями во время пауз, а также сообщая новости на интересующую.
Шёпот и эмоции в Алисе: история развития голосового синтеза Яндекса
Одна из главных проблем связана с тем, что Алиса озвучивает напоминания на всех Яндекс Станциях одновременно, что очень нервирует. Только представьте, каково это, когда в доме начинают одновременно говорить сразу все умные колонки. Разработчики услышали пожелания пользователей и добавили специальную настройку. Зайдите в приложение Дом с Алисой. Нажмите «Параметры». Теперь Алиса будет озвучивать напоминания только на тех колонках, которые вы выберете Выберите «Виртуальный ассистент», затем — «Напоминания». Затем выберите, где озвучивать напоминание.
В этом пункте есть возможность слушать напоминания от Алисы на той колонке, где вы его оставили, на всех сразу или выбранных вручную. Вышла iOS 17. Теперь к ним добавились уведомления о доставке из ВкусВилл. Достаточно сказать: «Алиса, где мой заказ из ВкусВилла?
Сейчас же в умных колонках с Алисой появилось ее персональное утреннее шоу.
Люди могут слушать полезную информацию, музыку и интересные истории, подобранные специально для них. Чтобы запустить программу, достаточно сказать: "Алиса, включи утреннее шоу! И в этот же момент к слушателям придут новости, прогноз погоды, музыка и короткие подкасты - например, о том, способны ли животные обманывать или как влияет шоколад на здоровье. Еще до шоу Алиса выступала диджеем: она ставит и комментирует песни из персонального плейлиста дня на Яндекс.
Роутер переключил канал и Алиса молчит. Сказал продолжить - в момент отключения играла музыка, Алиса начала играть просто музыку. С начала слушать не интересно.
Алексей Киваков.
Буквально на 20 примерах можно выучить классификатор для нового омографа, чтобы по эмбеддингу перевода понимать, какую форму нужно произнести. Летом 2020 года допилили паузер для расстановки пауз внутри предложения. Язык — хитрая штука. Не все знаки препинания в речи выражаются паузами Например, после вводного слова «конечно» на письме мы ставим запятую, но в речи обычно не делаем паузу. А там, где знаков препинания нет, мы часто делаем паузы.
Если эту информацию не передавать в акустическую модель, то она пытается её выводить и не всегда успешно. Первая модель Алисы из-за этого могла начать вздыхать в случайных местах длинного предложения. Для этого мы взяли датасет, разметили его детектором активности голоса, сгруппировали паузы по длительности, ввели класс длины паузы, на каждое слово навесили тэг и на этом корпусе обучили ещё одну голову внимания из тех же нейросетевых эмбеддингов, что использовались для детекции омографов. Осенью 2020 года мы перевели на трансформеры нормализацию — в синтезе она нужна, чтобы решать сложные случаи, когда символы читаются не «буквально», а по неким правилам. Например, «101» нужно читать не как «один-ноль-один», а как «сто один», а в адресе yandex. Обычно нормализацию делают через комбинацию взвешенных трансдьюсеров FST — правила напоминают последовательность замен по регулярным выражениям, где выбирается замена, имеющая наибольший вес. Мы долго писали правила вручную, но это отнимало много сил, было очень сложно и не масштабируемо.
Тогда решили перейти на трансформерную сеть, «задистиллировав» знания наших FST в нейронку. Теперь новые «правила раскрытия» можно добавлять через доливание синтетики и данных, размеченных пользователями Толоки, а сеть показывает лучшее качество, чем FST, потому что учитывает глобальный контекст. Итак, мы научили Алису говорить с правильными интонациями, но это не сделало ее человеком — ведь в нашей речи есть еще стиль и эмоции. Работа продолжалась. С чувством, толком, расстановкой: стили голоса Алисы Один и тот же текст можно произнести десятком разных способов, при этом сам исходный текст, как правило, никаких подсказок не содержит. Если отправить такой текст в акустическую модель без дополнительных меток и обучить её на достаточно богатом различными стилями и интонациями корпусе, то модель сойдёт с ума — либо переусреднит всё к металлическому «голосу робота», либо начнёт генерировать случайный стиль на каждое предложение. Это и произошло с Алисой: в начале она воспроизводила рандомные стили в разговоре.
Казалось, что у неё менялось настроение в каждом предложении. Вот пример записи с явными перебоями в стилях: Чтобы решить проблему, мы добавили в акустическую модель стили: в процессе обучения нейросети специально ввели «утечку». Суть в том, что через очень lossy-пространство всего 16 чисел на всё предложение разрешаем сетке посмотреть на ответ — истинную мел-спектрограмму, которую ей и нужно предсказать на обучении. За счёт такой «шпаргалки» сеть не пытается выдумывать непредсказуемую по тексту компоненту, а для другой информации не хватит размерности шпаргалки. На инференсе мы генерируем стилевую подсказку, похожую на те, что были в обучающем сете. Это можно делать, взяв готовый стиль из обучающего примера или обучив специальную подсеть генерировать стили по тексту. Если эту подсеть обучить на особом подмножестве примеров, можно получить специальные стили для, скажем, мягкого или дружелюбного голоса.
Или резкого и холодного. Или относительно нейтрального. Чтобы определиться со стилем по умолчанию, мы устроили турнир, где судьями выступали пользователи Толоки. Там не было разметки, мы просто нашли кластеры стилей и провели между ними соревнование. Победил кластер с очень мягкой и приятной интонацией. Дальше началось самое интересное. Мы взяли образцы синтезированной «мягкой» речи Алисы и фрагменты речи актрисы Татьяны Шитовой, которые относились к более резкому стилю.
Затем эти образцы с одним и тем же текстом протестировали вслепую на толокерах. Оказалось, что люди выбирают синтезированный вариант Алисы, несмотря на более плохое качество по сравнению с реальной речью человека. В принципе, этого можно было ожидать: уверен, многие предпочтут более ласковый разговор по телефону то есть с потерей в качестве живому, но холодному общению. К примеру, так звучал резкий голос: А так — мягкий: Результаты турниров позволили нам выделить во всем обучающем датасете данные, которые относятся к стилю-победителю, и использовать для обучения только их. Благодаря этому Алиса по умолчанию стала говорить более мягким и дружелюбным голосом. Этот пример показывает, что с точки зрения восприятия важно работать не только над качеством синтеза, но и над стилем речи. После этого оставалось только обогатить Алису новыми эмоциями.
Бодрая или спокойная: управляем эмоциями Алисы Когда вы включаете утреннее шоу Алисы или запускаете автоматический перевод лекции на YouTube, то слышите разные голоса — бодрый в первом случае и более флегматичный в другом. Эту разницу сложно описать словами, но она интуитивно понятна — люди хорошо умеют распознавать эмоции и произносить один и тот же текст с разной эмоциональной окраской. Мы обучили этому навыку Алису с помощью той же разметки подсказок, которую применили для стилей. У языка есть интересное свойство — просодия , или набор элементов, которые не выражаются словами. Это особенности произношения, интенсивность, придыхание и так далее. Один текст можно произнести со множеством смыслов. Как и в случае со стилями речи, можно, например, выделить кластеры «веселая Алиса», «злая Алиса» и так далее.
Поскольку стилевой механизм отделяет просодию «как говорим» от артикуляции «что говорим» , то новую эмоцию можно получить буквально из пары часов данных. По сути, нейросети нужно только выучить стиль, а информацию о том, как читать сочетания фонем, она возьмёт из остального корпуса. Прямо сейчас доступны три эмоции. Например, часть пользователей утреннего шоу Алисы слышат бодрую эмоцию. Кроме того, её можно услышать, спросив Алису «Кем ты работаешь? Флегматичная эмоция пригодилась для перевода видео — оказалось, что голос по умолчанию слишком игривый для этой задачи. Наконец, радостная эмоция нужна для ответов Алисы на специфические запросы вроде «Давай дружить» и «Орёл или решка?
Ещё есть негативная эмоция, которую пока не знаем, как использовать — сложно представить ситуацию, когда людям понравится, что на них ругается робот. Первый корпус эмоций мы записали ещё при WaveGlow, но результат нас не устроил и выкатывать его не стали. С переходом на HiFi-GAN стало понятно, что он хорошо работает с эмоциями, это позволило запустить полноценный эмоциональный синтез.
Утреннее шоу Алисы стало персональным
Можно поставить и какую-то определенную музыку для пробуждения. Не хватает здесь настройки будильников через приложение Умный Дом Яндекса. Кажется, мы уже проснулись? Вы говорите "Алиса, доброе утро" Яндекс Станции 2. Она вас также приветствует, и под музыку начинается новый день. Зачитывает новости моего маленького города. Здесь не хватает автоматизации для открытия штор и заварки кофе - но и этого хватит. Началась ежедневная рутина. Когда Вы сказали "доброе утро" - на кухне включился кондиционер автоматизации нет, если температура за окном минус 35 градусов, придется ручками заранее отключать работу кондиционера в данном моём сценарии. Вы направились на кухню, время готовить.
На балконе в закрытом шкафу лежит спрятанный пакетик листиков для заварки чая. Как только Вы открыли дверь балкона - кондиционер автоматически выключился. Пришлось запускать голосом. Время отправляться на работу. Вы приняли душ под энергичную музыку которую включила умная станция по потоку рекомендаций. Геля для душа осталось не так много. Вы говорите «Алиса, добавь в список покупок: гель для душа и зубную пасту». Когда будете возвращаться домой после работы — не забудьте открыть список покупок на телефоне. Вытяжка работает исправна.
Закончив водные процедуры - время идти в коридор и одеваться. Как только вы подошли к шкафу — свет в коридоре включился. Вы собрались уходить, но заметили невыключенный свет в некоторых комнат. Возле входной двери нас ждала умная кнопка. Умные выключатели освещения для круглых подрозетников подключены через zigbee к УДЯ. Созданные мною сценарии в приложении УДЯ позволили связать все это между собой. Сценарий: Как Яндекс управляет самым простым кондиционером? Для этого сценария используется Умный Пульт Яндекса я его приобрел за 600 рублей - вы сделали запрос и Пульт Яндекса отправил ИК сигнал на кондиционер. Яндекс Пульт поддерживает множество производителей или можно самому обучить Яндекс Пульт.
Ранее: На улице жара и вы направляетесь домой. Вы сможете включить кондиционер только когда вы придёте домой. Сейчас: На улице такая же жара и также направляетесь домой. Заходите в приложение УДЯ и включаете кондиционер. Или, возможно, создали готовый сценарий как я ниже. Ну или просто ручное управление через приложение или голосом. Сценарий: Контролируем протечку воды в ванной и на кухне Ранее: Редко заглядываешь под кухонную раковину для проверки фильтров воды. Сейчас: Датчик протечки воды всё контролирует. Если что-то произойдет - придет пуш в телеграме и колонка в спальне скажет об этом.
Сценарий: Автоматическое включение света в ванной Ранее: Время поздняя ночь. Нужно сходить в ванную комнату, а телефон ещё на зарядке. Решили идти так, возможно получится нащупать выключатель света.
Добавлены новые спортивные каналы и афиша мероприятий на «Станции Дуо Макс».
Режим радионяни доступен всем пользователям, улучшен звонок без шума В апрельском обновлении «Алисы» и «Яндекс Станций» добавлено множество новых функций, которые сделают использование устройств более удобным и разнообразным. Тексты песен на «ТВ Станциях» Теперь можно выводить тексты песен на экране во время прослушивания музыки. Приложение «Яндекс Музыка» автоматически синхронизирует текст с исполняемой песней. Эта функция доступна как для российских, так и для зарубежных треков.
Доступность функции, можно понять по кнопке «Т» в музыкальном плеере.
На генерацию секунды речи уходило до пяти минут реального времени. Это очень долго: чтобы использовать синтез в реальном времени, нужно генерировать секунду звука быстрее, чем за секунду. Что же делать? Если нельзя синтезировать живую речь с нуля, нужно взять крошечные фрагменты речи человека и собрать из них любую произвольную фразу. Напомню, что в этом суть конкатенативного синтеза, который обычно ассоциируется с методом unit selection. Пять лет назад он уже давал наилучшее качество при достаточном количестве данных в задачах, где была нужна качественная речь в реальном времени.
И здесь мы смогли переиспользовать нейросети нашей старой параметрики. Работало это следующим образом: На первом шаге мы использовали нейросетевую параметрику, чтобы синтезировать речь с нуля — подобному тому, как делали раньше. Напомню, что по качеству звучания результат нас не устраивал, но мог использоваться как референс по содержанию. На втором шаге другая нейросеть подбирала из базы фрагментов записанной речи такие, из которых можно было собрать фразу, достаточно близкую к сгенерированной параметрикой. Вариантов комбинаций фрагментов много, поэтому модель смотрела на два ключевых показателя. Первый — target-cost, точность соответствия найденного фрагмента гипотезе, то есть сгенерированному фрагменту. Второй показатель — join-cost, насколько два найденных соседних фрагмента соответствуют друг другу.
По сути, нужно было выбрать вариант, для которого сумма target-cost и join-cost минимальна. Эти параметры можно считать разными способами — для join-cost мы использовали нейросети на базе Deep Similarity Network, а для target-cost считали расстояние до сгенерированной параметрикой гипотезы. Сумму этих параметров, как и принято в unit selection, оптимизировали динамическим программированием. Кстати, подобный подход использовался и при создании Siri 2. Схема конкатенативного синтеза У такого подхода тоже есть плюсы и минусы. Среди достоинств — более естественное звучание голоса, ведь исходный материал не синтезирован, а записан вживую. Правда, есть и обратная сторона: чем меньше данных, тем более грубо будут звучать места склейки фрагментов.
Для шаблонных фраз всё более-менее хорошо, но шаг влево или вправо — и вы замечаете склейку. Поэтому нужно очень много исходного материала, а это требует многих часов записи голоса диктора. К примеру, в первые несколько лет работы над Алисой нам пришлось записать несколько десятков часов. Это несколько месяцев непрерывной работы с актрисой Татьяной Шитовой в студии. При этом нужно не просто «прочитать текст по листочку». Чем более нейтрально будет звучать голос, тем лучше. Обычно от актёров ждут эмоциональности, проявления темперамента в своей речи.
У нас ровно обратная задача, потому что нужны универсальные «кубики» для создания произвольных фраз. Вот характерный пример работы синтеза: В этом главный недостаток метода unit selection: несмотря на все усилия, фрагменты речи не будут идеально соответствовать друг другу по эмоциям и стилю. Из-за этого сгенерированная речь Алисы постоянно «переключалась» между ними. На коротких фразах это не всегда заметно, но если хотите услышать произвольный ответ длиной хотя бы в пару предложений например, быстрый ответ из поиска , то недостатки подхода становятся очевидны. В общем, unit selection перестал нас устраивать и нужно было развиваться дальше. Иногда они возвращаются: опять параметрический синтез В результате мы вернулись к архитектуре из двух последовательных блоков: акустическая модель и вокодер. Правда, на более низком уровне обновилось примерно всё.
Акустическая модель В отличие от старой параметрики, новую модель мы построили на основе seq2seq-подхода с механизмом внимания. Помните проблему с потерей контекста в нашей ранней параметрике? Если нет нормального контекста, то нет и нормальной интонации в речи. Решение пришло из машинного перевода. Дело в том, что в машинном переводе как раз возникает проблема глобального контекста — смысл слов в разных языках может задаваться разным порядком или вообще разными структурами, поэтому порой для корректного перевода предложения нужно увидеть его целиком. Для решения этой задачи исследователи предложили механизм внимания — идея в том, чтобы рассмотреть всё предложение разом, но сфокусироваться через softmax-слой на небольшом числе «важных» токенов. При генерации каждого нового выходного токена нейросеть смотрит на обработанные токены фонемы для речевого синтеза или символы языка для перевода входа и «решает», насколько каждый из них важен на этом шаге.
Оценив важность, сеть учитывает её при агрегировании результатов и получает информацию для генерации очередного токена выхода. Таким образом нейросеть может заглянуть в любой элемент входа на любом шаге и при этом не перегружается информацией, поскольку фокусируется на небольшом количестве входных токенов. Для синтеза важна подобная глобальность, так как интонация сама по себе глобальна и нужно «видеть» всё предложение, чтобы правильно его проинтонировать. На тот момент для синтеза была хорошая seq2seq-архитектура Tacotron 2 — она и легла в основу нашей акустической модели. Мел-спектрограмма Параметрическое пространство можно сжать разными способами. Более сжатые представления лучше работают с примитивными акустическими моделями и вокодерами — там меньше возможностей для ошибок. Более полные представления позволяют лучше восстановить wav, но их генерация — сложная задача для акустической модели.
Кроме того, восстановление из таких представлений у детерминированных вокодеров не очень качественное из-за их нестабильности. С появлением нейросетевых вокодеров сложность промежуточного пространства стала расти и сейчас в индустрии одним из стандартов стала мел-спектрограмма. Она отличается от обычного распределения частоты звука по времени тем, что частоты переводятся в особую мел-частоту звука. Другими словами, мел-спектрограмма — это спектрограмма, в которой частота звука выражена в мелах , а не герцах. Мелы пришли из музыкальной акустики, а их название — это просто сокращение слова «мелодия». Строение улитки уха из Википедии Эта шкала не линейная и основана на том, что человеческое ухо по-разному воспринимает звук различной частоты. Вспомните строение улитки в ухе: это просто канал, закрученный по спирали.
Высокочастотный звук не может «повернуть» по спирали, поэтому воспринимается достаточно короткой частью слуховых рецепторов. Низкочастотный же звук проходит вглубь.
Кроме того, восстановление из таких представлений у детерминированных вокодеров не очень качественное из-за их нестабильности. С появлением нейросетевых вокодеров сложность промежуточного пространства стала расти и сейчас в индустрии одним из стандартов стала мел-спектрограмма. Она отличается от обычного распределения частоты звука по времени тем, что частоты переводятся в особую мел-частоту звука. Другими словами, мел-спектрограмма — это спектрограмма, в которой частота звука выражена в мелах , а не герцах. Мелы пришли из музыкальной акустики, а их название — это просто сокращение слова «мелодия». Строение улитки уха из Википедии Эта шкала не линейная и основана на том, что человеческое ухо по-разному воспринимает звук различной частоты. Вспомните строение улитки в ухе: это просто канал, закрученный по спирали. Высокочастотный звук не может «повернуть» по спирали, поэтому воспринимается достаточно короткой частью слуховых рецепторов.
Низкочастотный же звук проходит вглубь. Поэтому люди хорошо различают низкочастотные звуки, но высокочастотные сливаются. Мел-спектрограмма как раз позволяет представить звук, акцентируясь на той части спектра, которая значимо различается слухом. Это полезно, потому что мы генерируем звук именно для человека, а не для машины. Вот как выглядит мел-спектрограмма синтеза текста «Я — Алиса»: У мел-спектрограммы по одному измерению [X на рисунке выше] — время, по другому [Y] — частота, а значение [яркость на рисунке] — мощность сигнала на заданной частоте в определенный момент времени. Проще говоря, эта штуковина показывает, какое распределение по мощностям было у различных частот звука в конкретный момент. Мел-спектрограмма непрерывна, то есть с ней можно работать как с изображением. А так звучит результат синтеза: 3. Новый вокодер Вероятно, вы уже догадались, что мы перешли к использованию нового нейросетевого вокодера. Именно он в реальном времени превращает мел-спектрограмму в голос.
Наиболее близкий аналог нашего первого решения на основе нейросетей, которое вышло в 2018 году — модель WaveGlow. Архитектура WaveGlow основана на генеративных потоках — довольно изящном методе создания генеративных сетей, впервые предложенном в статье про генерацию лиц. Сеть обучается конвертировать случайный шум и мел-спектрограмму на входе в осмысленный wav-сэмпл. За счёт случайного шума на входе обеспечивается выбор случайной wav-ки — одной из множества соответствующих мел-спектрограмме. Как я объяснил выше, в домене речи такой случайный выбор будет лучше детерминированного среднего по всем возможным wav-кам. В отличие от WaveNet, WaveGlow не авторегрессионен, то есть не требует для генерации нового wav-сэмпла знания предыдущих. Его параллельная свёрточная архитектура хорошо ложится на вычислительную модель видеокарты, позволяя за одну секунду работы генерировать несколько сотен секунд звука. Главное отличие, за счёт которого HiFi-GAN обеспечивает гораздо лучшее качество, заключается в наборе подсетей-дискриминаторов. Они валидируют натуральность звука, смотря на сэмплы с различными периодами и на различном масштабе. Как и WaveGlow, HiFi-GAN не имеет авторегрессионной зависимости и хорошо параллелится, при этом новая сеть намного легковеснее, что позволило при реализации ещё больше повысить скорость синтеза.
Кроме того, оказалось, что HiFi-GAN лучше работает на экспрессивной речи, что в дальнейшем позволило запустить эмоциональный синтез — об этом подробно расскажу чуть позже. Схема HiFi-GAN из статьи авторов модели Комбинация этих трёх компонентов позволила вернуться к параметрическому синтезу голоса, который звучал плавно и качественно, требовал меньше данных и давал больше возможностей в кастомизации и изменении стиля голоса. Параллельно мы работали над улучшением отдельных элементов синтеза: Летом 2019 года выкатили разрешатор омографов homograph resolver — он научил Алису правильно ставить ударения в парах «зАмок» и «замОк», «белкИ» и «бЕлки» и так далее. Здесь мы нашли остроумное решение. В русском языке эти слова пишутся одинаково, но в английском написание отличается, например, castle и lock, proteins и squirrels. Из этого представления легко выделить информацию о том, как произносить омограф, ведь перевод должен различать формы для корректного подбора английского варианта. Буквально на 20 примерах можно выучить классификатор для нового омографа, чтобы по эмбеддингу перевода понимать, какую форму нужно произнести. Летом 2020 года допилили паузер для расстановки пауз внутри предложения. Язык — хитрая штука. Не все знаки препинания в речи выражаются паузами Например, после вводного слова «конечно» на письме мы ставим запятую, но в речи обычно не делаем паузу.
А там, где знаков препинания нет, мы часто делаем паузы. Если эту информацию не передавать в акустическую модель, то она пытается её выводить и не всегда успешно. Первая модель Алисы из-за этого могла начать вздыхать в случайных местах длинного предложения. Для этого мы взяли датасет, разметили его детектором активности голоса, сгруппировали паузы по длительности, ввели класс длины паузы, на каждое слово навесили тэг и на этом корпусе обучили ещё одну голову внимания из тех же нейросетевых эмбеддингов, что использовались для детекции омографов. Осенью 2020 года мы перевели на трансформеры нормализацию — в синтезе она нужна, чтобы решать сложные случаи, когда символы читаются не «буквально», а по неким правилам. Например, «101» нужно читать не как «один-ноль-один», а как «сто один», а в адресе yandex. Обычно нормализацию делают через комбинацию взвешенных трансдьюсеров FST — правила напоминают последовательность замен по регулярным выражениям, где выбирается замена, имеющая наибольший вес. Мы долго писали правила вручную, но это отнимало много сил, было очень сложно и не масштабируемо. Тогда решили перейти на трансформерную сеть, «задистиллировав» знания наших FST в нейронку. Теперь новые «правила раскрытия» можно добавлять через доливание синтетики и данных, размеченных пользователями Толоки, а сеть показывает лучшее качество, чем FST, потому что учитывает глобальный контекст.
Итак, мы научили Алису говорить с правильными интонациями, но это не сделало ее человеком — ведь в нашей речи есть еще стиль и эмоции. Работа продолжалась. С чувством, толком, расстановкой: стили голоса Алисы Один и тот же текст можно произнести десятком разных способов, при этом сам исходный текст, как правило, никаких подсказок не содержит. Если отправить такой текст в акустическую модель без дополнительных меток и обучить её на достаточно богатом различными стилями и интонациями корпусе, то модель сойдёт с ума — либо переусреднит всё к металлическому «голосу робота», либо начнёт генерировать случайный стиль на каждое предложение. Это и произошло с Алисой: в начале она воспроизводила рандомные стили в разговоре. Казалось, что у неё менялось настроение в каждом предложении. Вот пример записи с явными перебоями в стилях: Чтобы решить проблему, мы добавили в акустическую модель стили: в процессе обучения нейросети специально ввели «утечку». Суть в том, что через очень lossy-пространство всего 16 чисел на всё предложение разрешаем сетке посмотреть на ответ — истинную мел-спектрограмму, которую ей и нужно предсказать на обучении. За счёт такой «шпаргалки» сеть не пытается выдумывать непредсказуемую по тексту компоненту, а для другой информации не хватит размерности шпаргалки.
«Яндекс» научил «Алису» вести персональное утреннее шоу
Для настройки новостей на Яндекс Алисе необходимо открыть раздел «Интеграция» в настройках приложения. «Мы хотим, чтобы Алиса была не только помощником, но и другом, с которым приятно проводить время. Поэтому мы учим её следить за новостями, развлекать пользователей и создавать приятную атмосферу в доме, и утреннее шоу — первый шаг в этом направлении». К слову, Алиса теперь умеет вести "утренние шоу". Помимо чтения актуальных новостей по утрам, «Алиса» также научилась отслеживать эфиры радиостанций. Утренние шоу впервые появились в апреле этого года. «Мы хотим, чтобы Алиса была не только помощником, но и другом, с которым приятно проводить время. Поэтому мы учим её следить за новостями, развлекать пользователей и создавать приятную атмосферу в доме, и утреннее шоу — первый шаг в этом направлении». Голосовой помощник «Алиса» научили проводить утренние шоу, которые подстраиваются под определённого пользователя.
«Алиса» научилась вести утренние шоу
Управляем голосом любым видео на «ТВ Станции» Управлять перематывать, переключать, включать субтитры и т. Просто дайте Алисе нужную команду и она все сделает. Персонализация утреннего шоу Порядок контента и его жанр можете выбрать и настроить под себя. Здесь можно выбрать мероприятия, которые хотели бы видеть у себя в рекомендациях. Радионяня mode on Теперь где бы вы ни были — в соседней комнате или отошли по делам, оставив ребенка с бабушкой, няней и т. Активируйте функцию «Радионяни» на «Яндекс Станции», чтобы слушать звуки из детской прямо на своем смартфоне, где бы вы ни находились.
Поэтому мы учим её следить за новостями, развлекать пользователей и создавать приятную атмосферу в доме.
Утреннее шоу — первый шаг в этом направлении», — отметил руководитель продукта Андрей Законов. В марте 2020 года «Алиса» начала читать статьи в «Яндекс. Голосовой помощник озвучит любой связный текст на странице без учёта навигационных элементов.
Не забудьте подписаться! Краткий пересказ книги Читать полезно, но иногда жизненно необходимо быстро узнать краткое содержание Если бы Алиса существовала в мои школьные годы, то я бы сэкономил кучу времени! Вы знали, что голосовой ассистент имеет навык «Умный пересказ»? В ней доступны две категории: Лучшее и книги школьной программы. Для этого вам необходимо сказать «Алиса, запусти умный пересказ» и далее выбрать категорию. Я, например, с удовольствием ознакомился с содержанием нескольких книг из школьной программы, которые читал очень давно.
Зачем нужны две Яндекс. Кажется, я понял Как отправить сообщение на электронную почту Иногда вставать с рабочего места бывает лень — в некоторых делах мне помогает Яндекс. Точнее, навык «Говорящая почта». Это удобный способ отправить сообщение в прямом смысле без рук. Для этого скажите колонке «Алиса, запусти навык Говорящая почта»: запомните свой идентификатор и отправляйте сообщение другому пользователю. Послушать войс можно на смартфоне, компьютере или колонке. Еще вы можете познакомиться с кем-либо, отправив голосовое сообщение на специальный номер — об этом Алиса подробно рассказывает при запуске навыка. Куда жаловаться на управляющую компанию Пожаловаться на работу местных служб можно с помощью Яндекс. Станции То, что у Алисы есть навык, позволяющий пожаловаться на социально-бытовые проблемы — настоящее открытие для меня.
Можно и без умной розетки и wake on lan режима управлять. Тогда из этого моего сценария убрать телевизор. Сейчас: Возле входной двери установлена умная кнопка.
После её зажатия происходит сценарий: выключается всё освещение, которое забывал выключить, выключается кондиционер, розетки обесточиваются если установлена умная розетка или умное реле на розетку. Сценарий: Помогаем кондиционеру не работать просто так Ранее: я забывал выключить кондиционер, когда открывалась дверь на балконе. Сейчас: Я также забываю выключать кондиционер, когда выхожу на балкон.
С данным сценарием кондиционер отключается автоматически. Список покупок Ранее: На моём телефоне установлено приложение Tick-Tick, это простая гибка тудушка. Через неё создавал список покупок.
Но таким голосовым управлением добавляется по одной задаче. Сейчас: В каждой комнате установлен Яндекс со своими мини станциями и создавать списки покупок голосом стало удобно. Например, Вы принимаете душ или делая дела по дому обнаружили отсутствие зубной пасты.
Голосовой фразой "Алиса, добавь зубную пасту в список покупок" - зубная паста добавляется в общий список покупок. Не забывайте пуши использовать для других сценариев. Если влажность в доме повысилась, открылась дверь или что-то ещё.
Сценарий: После работы направляемся домой Наконец-то можно подготовить квартиру к вашему приходу светодиодной гирлянды на балконе у меня нет. Сценарий: Доброе утро Вы проснулись. Голосовым управлением "Алиса, доброе утро" или нажатием кнопки начинается утренний сценарий.
Яндекс Станция включает Шоу Алисы погода, новости, музыка и т. Об этом я рассказываю ниже. Для утреннего сценария использую автоматизацию охлаждения кухни кондиционером.
К данному сценарию можно подключить: кофеварку через навык xiaomi от Яндекса , но у меня дома рожковая кофеварка. К данному сценарию можно добавить: Рассказать список личных дел на сегодня. Я этими делами не пользуюсь.
Утреннее шоу Алисы В утреннем шоу Алиса расскажет о погоде, настраиваемая подборка новостей, короткие подкасты и треки из плейлиста дня. Дополнительно можно подключить навыки из представленной подборки. Обо всём этом Алиса рассказывает через музыкальный трек.
Ещё есть секретное шоу: ночное шоу Алисы со спокойной музыкой. А что с роботом пылесосом? Да, его тоже можно использовать для сценариев или управления голосом, но он у меня не такой умный у моего пылика нет лидара, беда.
Приходится перед каждой его уборкой все-все хорошенько прятать. Будь он с лидаром, настроил бы сценарию для утренней влажной уборки или когда с работы направляюсь домой. Но не все устройства упомянуты..
Да, Вы правы. Я только начинаю строить свой удобный умный дом. Ещё есть умная лампочка.
Я её использую, когда начинаю работать. Управляю через приложение и голосом. Лампочка имеет тонкую настройку голосом или через приложение.
Яндекс пульт - 2 шт.
Утреннее шоу Алисы стало персональным 😎
Достаточно сказать: «Алиса, где мой заказ из ВкусВилла? Голосовой помощник ответит вам, поэтому заглядывать в смартфон не придется. Ну, а чтобы не задавать лишних вопросов, можете просто включить уведомления о доставке из Лавки, чтобы узнавать ее статус в реальном времени. Уведомления от Лавки теперь можно получать прямо на умную колонку Нажмите на значок шестеренки и выберите «Контент». Выберите «Уведомления от Алисы», затем — «Уведомления из Лавки». Обратите внимание, что для начала нужно выбрать Яндекс Станцию для уведомлений, иначе включить функцию не получится. В Телеграм появится платная подписка для бизнеса.
Что она даёт и как опробовать новые функции Как запустить сценарий на Алисе Одна из лучших функций Алисы — возможность создать сценарии в Яндекс Станции, которые позволяют запустить сразу несколько действий. К примеру, включить музыку, лампочку или другие приборы по установленной ключевой фразе. Теперь запустить сценарий на колонке с Алисой можно без слов: например, отправит уведомление на телефон, а не на колонку, выключит свет, если никто не будет говорить поблизости и так далее. Фактически Алиса будет слушать вас постоянно, но использоваться это будет для дела.
Рассказываю, на что теперь способна Алиса. Караоке на «ТВ Станциях» Обожаете петь, но текст любимых песен так и не выучили?
Не беда! Просто попросите Алису показать текст и он появится на экране. Запрашивать можно текст как зарубежных, так и отечественных песен. Кстати, кнопка «Т» рядом с треком сразу подскажет, что у Алисы есть текст для этой песни.
Сейчас: Возле входной двери установлена умная кнопка. После её зажатия происходит сценарий: выключается всё освещение, которое забывал выключить, выключается кондиционер, розетки обесточиваются если установлена умная розетка или умное реле на розетку. Сценарий: Помогаем кондиционеру не работать просто так Ранее: я забывал выключить кондиционер, когда открывалась дверь на балконе. Сейчас: Я также забываю выключать кондиционер, когда выхожу на балкон. С данным сценарием кондиционер отключается автоматически. Список покупок Ранее: На моём телефоне установлено приложение Tick-Tick, это простая гибка тудушка.
Через неё создавал список покупок. Но таким голосовым управлением добавляется по одной задаче. Сейчас: В каждой комнате установлен Яндекс со своими мини станциями и создавать списки покупок голосом стало удобно. Например, Вы принимаете душ или делая дела по дому обнаружили отсутствие зубной пасты. Голосовой фразой "Алиса, добавь зубную пасту в список покупок" - зубная паста добавляется в общий список покупок. Не забывайте пуши использовать для других сценариев. Если влажность в доме повысилась, открылась дверь или что-то ещё. Сценарий: После работы направляемся домой Наконец-то можно подготовить квартиру к вашему приходу светодиодной гирлянды на балконе у меня нет. Сценарий: Доброе утро Вы проснулись. Голосовым управлением "Алиса, доброе утро" или нажатием кнопки начинается утренний сценарий.
Яндекс Станция включает Шоу Алисы погода, новости, музыка и т. Об этом я рассказываю ниже. Для утреннего сценария использую автоматизацию охлаждения кухни кондиционером. К данному сценарию можно подключить: кофеварку через навык xiaomi от Яндекса , но у меня дома рожковая кофеварка. К данному сценарию можно добавить: Рассказать список личных дел на сегодня. Я этими делами не пользуюсь. Утреннее шоу Алисы В утреннем шоу Алиса расскажет о погоде, настраиваемая подборка новостей, короткие подкасты и треки из плейлиста дня. Дополнительно можно подключить навыки из представленной подборки. Обо всём этом Алиса рассказывает через музыкальный трек. Ещё есть секретное шоу: ночное шоу Алисы со спокойной музыкой.
А что с роботом пылесосом? Да, его тоже можно использовать для сценариев или управления голосом, но он у меня не такой умный у моего пылика нет лидара, беда. Приходится перед каждой его уборкой все-все хорошенько прятать. Будь он с лидаром, настроил бы сценарию для утренней влажной уборки или когда с работы направляюсь домой. Но не все устройства упомянуты.. Да, Вы правы. Я только начинаю строить свой удобный умный дом. Ещё есть умная лампочка. Я её использую, когда начинаю работать. Управляю через приложение и голосом.
Лампочка имеет тонкую настройку голосом или через приложение. Яндекс пульт - 2 шт. Для всего-всего что умеет управляться через ИК-порт. Мои неумные устройства, подключённые к Умному Дому Яндекса Кондиционер Телевизор на кухне старенький самсунг, у которого пульт работает только по блютузу Телевизор в спальне.
Если вы хотите послушать текст статьи — скажите «Подробнее».
Хотите начать заново — скажите "Меню". Возникли проблемы? Следите за событиями Севастополя в режиме онлайн. Происшествия, новости культуры, спорта, политики и экономики Лента новостей Благовещенска Лента новостей Благовещенска — последние новости Благовещенска оперативно.