The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

Обновление голосовых данных Mozilla Common Voice 20

16.12.2024 13:16

Компания Mozilla обновила наборы голосовых данных Common Voice, включающие примеры произношения более 200 тысяч человек. Данные опубликованы как общественное достояние (CC0). Предложенные наборы можно использовать в системах машинного обучения для построения моделей распознавания и синтеза речи. По сравнению с прошлым обновлением объём речевого материала в коллекции увеличился с 32.6 до 33.1 тысячи часов речи, из которых 22.1 тысячи часов прошли процедуру проверки. Число поддерживаемых языков увеличилось со 129 до 133 - добавлены языки арагонский, исиндебеле, южный сото и тупури.

В подготовке материалов на английском языке приняли участие 94.9 тысяч человек, надиктовавших 3631 час речи (было 93.9 тысячи участников и 3587 часов). Набор для белорусского языка охватывает 8521 участника и 1860 часов речевого материала (было - 8444 участников и 1846 часов), русского языка - 3365 участников и 281 час (было 3296 участников и 278 часов), узбекского - 2211 участников и 265 часов (было 2200 участников и 265 часов), украинского языка - 1120 участника и 114 часов (было 1104 участник и 114 часов).

Проект Common Voice организует совместную работу по накоплению базы голосовых шаблонов, учитывающей всё разнообразие голосов и манер речи. Пользователям предлагается озвучить выводимые на экран фразы или оценить качество данных, добавленных другими пользователями. Накопленную базу данных c записями различного произношения типовых фраз человеческой речи без ограничений можно использовать в системах машинного обучения и в исследовательских проектах.

  1. Главная ссылка к новости (https://www.soeren-hentzschel....)
  2. OpenNews: Обновление голосовых данных Mozilla Common Voice 19.0
  3. OpenNews: Новый выпуск системы синтеза речи Silero
  4. OpenNews: Открыт код системы распознавания и перевода речи Whisper
  5. OpenNews: Опубликована AI-модель ChatTTS для синтеза речи
  6. OpenNews: Mozilla развивает инструментарий для распознавания речи Whisperfile
Лицензия: CC BY 3.0
Короткая ссылка: https://opennet.ru/62413-voice
Ключевые слова: voice, mozilla
При перепечатке указание ссылки на opennet.ru обязательно


Обсуждение (41) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, Аноним (1), 13:36, 16/12/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • +7 +/
    Браузер они там обновить не собираются?
     
     
  • 2.2, Аноним (2), 13:43, 16/12/2024 [^] [^^] [^^^] [ответить]  
  • +3 +/
    Да ну, пока Google платит, чтобы на плаву держались, и так норм.
     
     
  • 3.3, Аноним (1), 13:47, 16/12/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Справедливо.
     
  • 3.5, Bob (??), 13:52, 16/12/2024 [^] [^^] [^^^] [ответить]  
  • +2 +/
    судя по юзербейзу - плывёт браузер на дно, пробивая всё новые глубины

    November 2024:
    Chrome 67.48%
    Safari 18.22%
    Edge    4.84%
    Firefox 2.6%
    Samsung 2.18%
    Opera   2%

     
     
  • 4.6, mumu (ok), 13:58, 16/12/2024 [^] [^^] [^^^] [ответить]  
  • +4 +/
    От браузера это не зависит никак. Инертная масса просто пользуется тем, что им втюхивается.
    Мы это уже проходили с IE. Будет главная страница гугла предлагать установить FF - будет FF 67%. Проценты Сафари тоже намекают на не совсем "осознанный выбор". Это делается так, а не иначе.
     
     
  • 5.8, Аноним (8), 14:05, 16/12/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Популярный браузер Нетскейп, когда прекращал свое развитие, рекомендовал народу сваливать на ФФ. Помогло это ФФ?
     
     
  • 6.9, mumu (ok), 14:07, 16/12/2024 [^] [^^] [^^^] [ответить]  
  • +/
    > Популярный браузер Нетскейп, когда прекращал свое развитие, рекомендовал народу сваливать
    > на ФФ. Помогло это ФФ?

    Нет, потому что MS активно навязывало IE и все пользовались тем, что шло в комлекте с Windows. Каналы цифровой дистрибьюции в то время находились в зачаточном состоянии. Ваш Кэп.

     
     
  • 7.11, Аноним (8), 14:11, 16/12/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Если MS активно навязывало IE, то почему все не ленились и дружно шли скачивать недефолтный хром вместо дефолтного IE? И почему все неленившиеся шли скачивать именно хром, а не гораздо более известный и более зрелый ФФ?
     
     
  • 8.16, Аноним (16), 14:50, 16/12/2024 [^] [^^] [^^^] [ответить]  
  • +4 +/
    А вы временные интервалы не смешиваете Когда M активно навязывала IE, Хрогомог... текст свёрнут, показать
     
  • 8.18, Аноним (18), 15:06, 16/12/2024 [^] [^^] [^^^] [ответить]  
  • +1 +/
    От 0 до 70 рынка Как Google Chrome поглотил интернет https habr com ru art... текст свёрнут, показать
     
  • 6.23, Аноним (-), 15:40, 16/12/2024 [^] [^^] [^^^] [ответить]  
  • –1 +/
    >Популярный браузер Нетскейп, когда прекращал свое развитие, рекомендовал народу сваливать на ФФ. Помогло это ФФ?

    Я помню интернет начала нулевых все использовали Internet Explorer. И думали, что она часть компьютера, в том смысле, что никому и в голову не приходила мысль, что может быть и другой браузер. Просто все думали, что в интернет выходят через компьютер, и всё. О Netscape и Opera знали только в узких кругах. В России Opera всегда была популярней Netscape.

     
     
  • 7.34, нах. (?), 10:18, 17/12/2024 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Ох уж эти сказочники.

    Мысль-то приходила, те кто в начале нулевых пользовались интернетом были не совсем хлебушки.
    Скачивает он такой чудо-браузер от единственноправильной мразилы - опа, а вместо сайта - пустое белое ничто. Потому что один из стапятидесяти вложенных table забыли закрыть.
    Плахой, плахой сайт, не буду на няво хадить! (Впрочем, если все правильно позакрыть - то тоже нехорошо, браузер просто вис нахрен на пару минут, пытаясь отрендерить табличку с парой тысяч айтимов (банальная борда в линейном представлении так рисовалась). Код looking glass, позаимствованный еще мозаикой, которым оно это делало, был так себе код, свой уникальные дол...программисты нетскейпа не потянули. У ie, разумеется, и эта проблема отсутствовала, отрисовывал мгновенно.)
    Нет, дурашка. Плохой - браузер, не способный обойти тривиальную ошибку и работать в реальном интернете а не образцовом, существующем только в фантазиях разработчиков. И им пользовались к этому времени только больные фанатики и заскорузлые пенсионеры от ИТ, как поставили в 95м году, так синдром утенка и прилип. Ну и страдальцы с линуксом, у них другого не было.

    Там еще у нетскейпа4 были презабавные фокусы с отображением entities закорючками при выборе charset отличного от единственноверного iso-8850 - восимь лет т-пые нетскейповцы не могли поправить совершенно тривиальную ошибку. Безусловно, это очень хороший браузер, охрененно был кому-то нужен.

     
     
  • 8.41, Анон1110м (?), 16:26, 17/12/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Всё это было тогда Google chrome так популярен в основном из 8211 за навязыван... текст свёрнут, показать
     
  • 4.7, Аноним (7), 14:00, 16/12/2024 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Я как операст, слегка волнуюсь за оперу.
     
     
  • 5.13, Аноним (13), 14:19, 16/12/2024 [^] [^^] [^^^] [ответить]  
  • +4 +/
    А зачем волноваться? Она же уже всё. Ровно с того момента, когда она не выполнила своё обещание, что все изменения с перехода на движок пройдут под капотом.
    А потом эти лжецы вообще продали браузер)
     
  • 5.33, Аноним (33), 10:14, 17/12/2024 [^] [^^] [^^^] [ответить]  
  • +2 +/
    > Я как операст, слегка волнуюсь за оперу.

    А что тут волноваться - они почти догнала по рыночной доле фаерфокс! Ну всмысле, точнее, тот скоро "догонит" Оперу.
    Да и нет больше Оперы давно - так, полукетайская шкурка над хромиумом.

     
  • 4.17, Аноним (16), 14:51, 16/12/2024 [^] [^^] [^^^] [ответить]  
  • +1 +/
    >Samsung 2.18%

    Что за браузер такой?

     
     
  • 5.19, Аноним (18), 15:08, 16/12/2024 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Предустановленный хромоклон в смартах Samsung. Жуткая хрень, но многим тупо всё равно.
     
     
  • 6.21, Аноним (-), 15:27, 16/12/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Пытался его удалить, он оказался неудаляем. Просто его не использую, и всем того же советую.
     
  • 2.37, Анониматор (?), 12:34, 17/12/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Давайте признаемся сами себе: мы тоже когда дают непосильную работу, или объемную работу которую лень делать, всегда раздуваем другую проблему или находим другую стороннюю задачку полегче, решаем её и получаем за это палку KPI
     

  • 1.4, Аноним (8), 13:47, 16/12/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • +2 +/
    Проект неплохой. Пользы от него точно больше, чем от их странноватого браузера.
     
  • 1.10, 12yoexpert (ok), 14:09, 16/12/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    забавно, белорусы надиктовали 26% всего этого датасета... (8521/33150)
     
     
  • 2.22, Аноним (22), 15:31, 16/12/2024 [^] [^^] [^^^] [ответить]  
  • +/
    33100/1860 - 5.6%  "33.1 тысячи часов речи.... белорусского языка охватывает 8521 участника и 1860 часов речевого материала"
     
     
  • 3.25, 12yoexpert (ok), 15:58, 16/12/2024 [^] [^^] [^^^] [ответить]  
  • +/
    точно, ошибся. всё равно дофига, учитывая количество белорусов и колчество их же, говорящих по-белорусски
     
     
  • 4.30, Аноним (30), 20:53, 16/12/2024 [^] [^^] [^^^] [ответить]  
  • –2 +/
    Не приходилось пока встретить беларуса старше 25 лет, который бы не владел беларуским языком на приемлимом уровне. Нас мала, але мы захоўваем спакой і точым косы.
     
     
  • 5.38, 12yoexpert (ok), 14:40, 17/12/2024 [^] [^^] [^^^] [ответить]  
  • +/
    у меня всего двое знакомых, которые пытаются говорить по-белорусски (кто-то начал после начала войны, кто-то - после "выборов"), но звучит это нелепо, т.к. язык они слышали последний раз в школе. ах да, и все они уже за пределами совка, в совке ни одного такого не знаю

    ну и кого это "вас"? маленьких детей, которые не видели ни 1994, ни 1996, ни 2001, ни 2006, ни 2011, ни слитого 2016, ни 2020?

    или людей, которые не знают ни русского, ни белорусского?

    > Не приходилось ... встретить
    > беларуса
    > беларуским
    > приемлимом
    > захоўваем
    > точым

     
     
  • 6.42, Аноним (42), 16:28, 17/12/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Вазрадить язык предкау. Пусть и нелепо. русские наз обозвали берусами а мы литвины.
     
     
  • 7.43, Аноним (43), 17:09, 17/12/2024 [^] [^^] [^^^] [ответить]  
  • +/
    В числе коренных народов есть и пруссы.
     
  • 2.39, Аноним (42), 16:24, 17/12/2024 Скрыто ботом-модератором     [к модератору]
  • +/
     
  • 2.44, Аноним (43), 17:10, 17/12/2024 [^] [^^] [^^^] [ответить]  
  • +/
    > надиктовали 26%

    Добровольно? Сомневаюсь. Методику сбора образцов в студию!

     
     
  • 3.46, Аноним (-), 19:30, 17/12/2024 Скрыто ботом-модератором     [к модератору]
  • +/
     

     ....ответы скрыты (9)

  • 1.12, Аноним (13), 14:15, 16/12/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    А кто все эти люди? Они не боятся что с их голосом в банк позвонят или будут делать опозиционые ролики?
     
     
  • 2.24, Аноним (24), 15:53, 16/12/2024 [^] [^^] [^^^] [ответить]  
  • +1 +/
    > Они не боятся что с их голосом в банк позвонят

    А ты сдавал биометрию в банке для авторизации по ней? Ну, ты и...

     
     
  • 3.32, Сбер (?), 10:08, 17/12/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Хахаха!

    Карту зарплатную взял? Вот и сдал, заодно.

    А даже если и не сдал (когда-то давно эти карты пачкой привозили в бухгалтерии - ни кодового слова тебе, ни явного согласия не требовалось) - в офис забежал заблокировать потерянную карту - видел на стойке оператора камеру? Нет? А она тебя - уже увидела. А согласие на обработку ты неявно подписал, скачав сберонлайн. Кто ж из вас читает мелкий шрифт, действительно.

    Хахаха!

     
  • 2.26, чатжпт (?), 17:07, 16/12/2024 [^] [^^] [^^^] [ответить]  
  • +1 +/
    > А кто все эти люди?

    Анонимные доноры. Иди, попробуй позвонить

     
  • 2.27, fuggy (ok), 17:32, 16/12/2024 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Они же не подписаны кому принадлежат. Да и по паре слов вроде мало что можно восстановить. В тиктоках и то больше фраз можно записать. Да и кому нужен дженерик голос, созданный на основе тысяч голосов, для создания роликов.
     
     
  • 3.31, Аноним (30), 20:54, 16/12/2024 [^] [^^] [^^^] [ответить]  
  • +/
    > кому нужен дженерик голос

    Любому телефонному скаммеру. Вот буквально любому.

     
     
  • 4.35, Аноним (35), 10:36, 17/12/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Ещё скажи, что до госовых данных не было мошенников.
     
  • 2.36, rinat85 (ok), 11:32, 17/12/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Лезть и скачивать базу, в которой скорее всего не осталось оригинального голоса, парсить, получить что-то без привязки к конкретному человеку - да, это же самое простое

    Тупо подписаться на 100500 публичных чатов в телеграм, и забрать оттуда голосовухи, где в имени аккаунта что-то похожее на реальное имя? нет, это не наш путь :)

     
     
  • 3.40, Аноним (42), 16:26, 17/12/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Конечно не наш путь. Телеграм же ФСБ-шная помойка.
     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Партнёры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2024 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру