The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

Опубликована открытая AI-модель hertz-dev для полнодуплексного голосового общения

04.11.2024 13:01

Компания Standard Intelligence объявила о публикации hertz-dev, первой открытой AI-модели для синтеза речи в полнодуплексном режиме, которая может использоваться в качестве основы для создания систем голосового общения в реальном времени или генерации разговорной речи. Модель позволяет генерировать речь, близкую к голосовым данным, на которых она обучена, и обеспечивая взаимодействие в стиле живого человеческого общения без задержек, напоминающих прерывистый телефонный разговор. Наработки проекта распространяются под лицензией Apache 2.0.

На системе с GPU NVIDIA GeForce RTX 4090 средняя задержка перед генерацией составляет 120 мс (теоретически до 65 мс), что примерно в два раза быстрее, чем у имеющихся в открытом доступе существующих моделей. Опубликованный вариант построен с использованием архитектуры "трансформер", охватывает 8.5 миллиардов параметров и обучен c использованием 500 миллиардов токенов. Размер учитываемого моделью контекста (число токенов, которые модель может обработать и запомнить при генерации речи) составляет 2048 токенов или примерно 4 минуты речи.

  1. Главная ссылка к новости (https://si.inc/hertz-dev/...)
  2. OpenNews: Опубликована AI-модель ChatTTS для синтеза речи
  3. OpenNews: Новый выпуск системы синтеза речи Silero
  4. OpenNews: Открыт код Spleeter, системы для разделения музыки и голоса
  5. OpenNews: Выпуск синтезатора речи RHVoice 1.8.0
  6. OpenNews: Система машинного обучения Stable Diffusion адаптирована для синтеза музыки
Лицензия: CC BY 3.0
Короткая ссылка: https://opennet.ru/62170-hertz-dev
Ключевые слова: hertz-dev, ai, tts
При перепечатке указание ссылки на opennet.ru обязательно


Обсуждение (44) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, Аноним (1), 13:16, 04/11/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • –3 +/
    Странно, что в примере такое мощное оборудование. Кто-то будет покупать RTX 4090 только для того, чтобы с нейросетью общаться голосом? (А ещё нужно оборудование под нейросеть с которой происходит общение).
    Мне кажется, основное целевое оборудование подобных нейросетей это смартфоны
     
     
  • 2.2, Аноним (2), 13:21, 04/11/2024 [^] [^^] [^^^] [ответить]  
  • +10 +/
    Теперь хоть не стыдно покупать RTX 4090 - "Это для... общения с нейросетями! Какие там игори..."
     
     
  • 3.8, Аноним (8), 13:51, 04/11/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Какое у него КПД денег? Вот, поэтому и стыдно.
     
     
  • 4.15, Аноним (15), 14:20, 04/11/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Среди не специализированных ускорителей лучшее. Та же 4070 для им уже не подходит от слова ваше совсем.
     
     
  • 5.63, Аноним (63), 06:29, 11/11/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Похоже NV и этих скупила с потрохами...
     
  • 2.10, Аноним (10), 14:05, 04/11/2024 [^] [^^] [^^^] [ответить]  
  • +8 +/
    > такое мощное оборудование

    RTX 4090 -- далеко не мощное оборудование, когда речь про нейросети. Для игор -- мощное. Для нейронок -- это игрушечный набор доктора для ребенка дошкольного возраста. Посуди сам: 24 гига видеопамяти. Это совершенно ни о чем. Например, в 24 гига влезут лишь некоторые из общедоступных локально-запускаемых LLM.

     
     
  • 3.11, Аноним (11), 14:15, 04/11/2024 [^] [^^] [^^^] [ответить]  
  • +/
    https://www.youtube.com/watch?v=RjRQ1DYnuJA
     
  • 3.12, Аноним (15), 14:16, 04/11/2024 [^] [^^] [^^^] [ответить]  
  • +8 +/
    Ещё Биль Гейтс говорил две 4090 хвататит всем.
     
     
  • 4.18, Аноним (18), 15:11, 04/11/2024 [^] [^^] [^^^] [ответить]  
  • +/
    ага,
    а Муртазин говорил что самсунг не откажется от комплектной зарядки.
    ты действительно веришь всему, что пишется в интернете?
     
     
  • 5.19, Аноним (15), 15:14, 04/11/2024 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Муртазин и айпад называл разъевшейся фоторамкой. Которая никому не нужна. Муртазин это вообще аналитика уровня Первый канал.  
     
     
  • 6.58, Аноним (58), 14:18, 05/11/2024 [^] [^^] [^^^] [ответить]  
  • +/
    https://tema.livejournal.com/191519.html

     
  • 3.17, Аноним (17), 14:54, 04/11/2024 [^] [^^] [^^^] [ответить]  
  • +/
    В Ryzen APU до 96 гб оперативы можно выделить под GPU. Хватит?
     
     
  • 4.32, Аноним (32), 16:58, 04/11/2024 [^] [^^] [^^^] [ответить]  
  • +2 +/
    > Хватит?

    Нет конечно.

     
  • 3.47, crandel (ok), 23:11, 04/11/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Свободно запускаю на интеле 11 поколения и 16 гиг рамы llama3.2 и gemma2 модели. Вполне подходит для всего, что нужно
     
     
  • 4.64, Аноним (63), 06:34, 11/11/2024 Скрыто ботом-модератором     [к модератору]
  • +/
     
  • 2.21, Жорик (??), 15:26, 04/11/2024 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Она сможет вместо меня в конфе разговаривать?
     
     
  • 3.46, YetAnotherOnanym (ok), 22:49, 04/11/2024 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Ну я же здесь могу.
     
  • 2.36, Сижу на дебиан с крысой (?), 17:03, 04/11/2024 [^] [^^] [^^^] [ответить]  
  • +3 +/
    Так это же оупенсорс. Просто нужно подождать пока какой-нибудь гугель сделает форк и загонит всё это дело в облако по подписке. Вот тогда хоть со смартфона, хоть с 4 пня.
     
  • 2.39, погроммист (?), 17:41, 04/11/2024 [^] [^^] [^^^] [ответить]  
  • +2 +/
    > Кто-то будет покупать RTX 4090 только для того, чтобы с нейросетью общаться голосом?

    Ещё как будут! Рабочий час человека выйдет дороже, а рабочих мест всяких продажников-обзвонщиков миллион.

     
  • 2.52, Я (??), 04:37, 05/11/2024 [^] [^^] [^^^] [ответить]  
  • +/
    для таких систем это ещё весьма слабое и дешёвое оборудование.. обычно там всё на кластерах побольше крутится
     

  • 1.3, Аноним (3), 13:25, 04/11/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • +8 +/
    скоро (или уже) в ТП всех крупных компаний...
     
  • 1.4, Аноним (4), 13:34, 04/11/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • +3 +/
    Ну все телефонные мошенники, держитесь.
     
     
  • 2.20, Аноним (15), 15:16, 04/11/2024 [^] [^^] [^^^] [ответить]  
  • +4 +/
    Мощенники с помощью ИИ звонит жертве, а там тоже ИИ. Причём та же самая.
     

  • 1.5, бух. (?), 13:44, 04/11/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Почему корпы так любят апач 2?
     
     
  • 2.37, Сижу на дебиан с крысой (?), 17:06, 04/11/2024 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Потому что just works.
     

  • 1.6, Аноним (8), 13:49, 04/11/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • –3 +/
    Очередная попытка запланированного устаревания.
     
  • 1.7, Аноним (11), 13:50, 04/11/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    >в стиле живого человеческого общения

    Почему то сразу думаешь, про то, кто будет это использовать...
    Риски описаны:
    https://en.wikipedia.org/wiki/Artificial_Intelligence_Act

     
  • 1.9, Аноним (9), 13:58, 04/11/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • +2 +/
    Человек редко отвечает на вопрос за 65мс, так что допустимо и секунда и две
     
     
  • 2.60, Аноним (60), 18:21, 05/11/2024 [^] [^^] [^^^] [ответить]  
  • +/
    А там не отвечает, а поддерживает беседу утвердительно реагируя на вопросы.
     

  • 1.22, 12yoexpert (ok), 15:48, 04/11/2024 Скрыто ботом-модератором [﹢﹢﹢] [ · · · ]     [к модератору]
  • –5 +/
     

  • 1.25, Ося Бендер (?), 16:11, 04/11/2024 Скрыто ботом-модератором [﹢﹢﹢] [ · · · ]     [к модератору]
  • +/
     
  • 1.43, ano (??), 21:12, 04/11/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    ужос. в приведённом в пример аудио файле - 20% воды, 40% пауз и эканий-мэканий, 20% поддакиваний, 20% ошибок, и никакой сути.
     
     
  • 2.44, чатжпт (?), 22:09, 04/11/2024 [^] [^^] [^^^] [ответить]  
  • +10 +/
    прямо как разговор со среднестатистическим человеком
     
  • 2.45, Full Master (?), 22:19, 04/11/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Значит на 99% соответствует речи среднестатистического нормиса.
     

  • 1.49, Аноним (49), 03:18, 05/11/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Код и дока, как обычно, какое-то говно. Питоний пакет неструктурирован, а значит вообще неприменим для прода. В файле https://raw.githubusercontent.com/Standard-Intelligence/hertz-dev/main/tokeniz на самом деле лежит код для embeddingа аудио в вектор. Модели - в формате pytorch, а не onnx, что опять неприменимо для прода. pytorch - это pickle, отличная вещь для малварщиков. safetensors они видимо намеренно не осилили. AS IS ведь.
     
     
  • 2.56, Аноним (56), 09:43, 05/11/2024 [^] [^^] [^^^] [ответить]  
  • +/
    Ну питон впринципе неприменим для прода... В нормальном мире
    В котором мы, увы, не живем
     

  • 1.50, Ананоним (?), 03:51, 05/11/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Люди часто между собой не делают разговаривать, кому нужны будут эти говорящие роботы-болваны?
     
  • 1.51, Аноним (51), 04:26, 05/11/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • +2 +/
    Поскольку качается не очень быстро, сделал torrent-файлы для двух файлов моделей:

    https://0x0.st/XGn1.torrent/inference_volcano_3.pt.torrent   - magnet:?xt=urn:btih:60798491cf14dbc48a49330da49b11142f9e1d26&xt=urn:btmh:1220e42c967b520fa653732aed8c4641c0de2052ab5091405fafc5761957a74711bc&dn=inference_volcano_3.pt&ws=https://ckpt.si.inc/hertz-dev/inference_volcano_3.pt
    https://0x0.st/XGnM.torrent/inference_apatosaurus_95000.pt.torrent   - magnet:?xt=urn:btih:07aba0554f6ad8728bea6783d56857f19c02171d&xt=urn:btmh:1220892e966aed5f990f773a9af2664d0ebc339402c15882a4f018bd281ac0eb6654&dn=inference_apatosaurus_95000.pt&ws=https://ckpt.si.inc/hertz-dev/inference_apatosaurus_95000.pt


    Пока не-веб сидеров недостаточно - магниты работать не будут. Остальные файлы ещё не скачались.

     
     
  • 2.53, Аноним (51), 05:07, 05/11/2024 [^] [^^] [^^^] [ответить]  
  • +2 +/
    https://0x0.st/XGn3.torrent/inference_care_50000.pt.torrent   -     magnet:?xt=urn:btih:2312f271d607ca2e123ca743d91f0e41ea0ae19d&xt=urn:btmh:1220244c3d5924236d3e1b6c1a5f88094a29503b9253368f4a6e3f0799cd451274b1&dn=inference_care_50000.pt&ws=https://ckpt.si.inc/hertz-dev/inference_care_50000.pt
    https://0x0.st/XGnx.torrent/inference_whip_72000.pt.torrent   -     magnet:?xt=urn:btih:e90a258efe8ab546e117557c4112762e9138c58d&xt=urn:btmh:1220feea5879872f4e2d01db453975fb77af96008ee223fb4aacacb7e82479418021&dn=inference_whip_72000.pt&ws=https://ckpt.si.inc/hertz-dev/inference_whip_72000.pt
     
  • 2.54, Аноним (51), 05:42, 05/11/2024 [^] [^^] [^^^] [ответить]  
  • +2 +/
    https://0x0.st/XGnD.torrent/inference_scion_54000.pt.torrent   - magnet:?xt=urn:btih:24966fde5dfaa4faf157cf8cac5303e22863c4b2&xt=urn:btmh:1220f644e493b5e52cb7e60b4c2da125dabaf939d1424ff9bb679075032698361716&dn=inference_scion_54000.pt&ws=https://ckpt.si.inc/hertz-dev/inference_scion_54000.pt

    https://0x0.st/XGnG.torrent/inference_caraway_112000.pt.torrent -  
    magnet:?xt=urn:btih:892e281b1ce2ae4e6b4a03eaba550dd051970836&xt=urn:btmh:1220aa0110025f02e4d017be37a495ffdc36f0d72b151a855f0ae7c5ba044f8eac5d&dn=inference_caraway_112000.pt&ws=https://ckpt.si.inc/hertz-dev/inference_caraway_112000.pt

     
  • 2.55, Аноним (55), 06:02, 05/11/2024 [^] [^^] [^^^] [ответить]  
  • +1 +/
    https://0x0.st/XGn7.torrent/inference_syrup_110000.pt.torrent   ; -    magnet:?xt=urn:btih:fc7dd5843fd13f884ef12b050d1477c5892420ef&xt=urn:btmh:12209a5c3247114063471d1087d54d3806c08eda846b07e8a6bf17c704d3410541a9&dn=inference_syrup_110000.pt&ws=https://ckpt.si.inc/hertz-dev/inference_syrup_110000.pt
     

  • 1.62, Аноним (-), 12:11, 07/11/2024 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Мошенники опробуют. А скажут мошенники за эту технологию спасибо или нет это вы у них спрашивайте.
     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Партнёры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2024 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру