The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

Выпуск системы машинного перевода OpenNMT-tf 2.30

13.12.2022 07:14

Опубликован выпуск системы машинного перевода OpenNMT-tf 2.30.0 (Open Neural Machine Translation), использующей методы машинного обучения. Код развиваемых проектом OpenNMT-tf модулей написан на языке Python, использует библиотеку TensorFlow и распространяется под лицензией MIT.

Параллельно развивается вариант OpenNMT на базе библиотеки PyTorch, который отличается на уровне поддерживаемых возможностей. Кроме того, OpenNMT на базе PyTorch преподносится как более простой для использования и мультимодальный, а вариант на базе TensorFlow отмечается как модульный, стабильный и позволяющий задействовать возможности GPU для ускорения процесса обучения нейронной сети. Для упрощения распространения продукта проектом также развивается самодостаточный вариант транслятора на языке C++ - CTranslate2, который использует предварительно натренированные модели без привязки к дополнительным зависимостям.

Модели подготовлены для английского, немецкого и каталанского языков, для остальных языков можно самостоятельно сформировать модель на основе набора данных от проекта OPUS (для обучения системе передаётся два файла - один с предложениями на исходном языке, а второй с качественным переводом этих предложений на целевой язык).

Проект развивается при участии компании SYSTRAN, специализирующейся на создании средств машинного перевода, и группы исследователей Harvard, разрабатывающей модели человеческого языка для систем машинного обучения. Интерфейс пользователя максимально упрощён и требует лишь указания входного файла с текстом и файла для сохранения результата перевода. Система расширений даёт возможность реализовывать на базе OpenNMT дополнительную функциональность, например, автореферирование, классификацию текстов и генерацию субтитров.

В новой версии:

  • Добавлена поддержка библиотеки TensorFlow 2.11, но новые оптимизаторы Keras пока не поддерживаются (требуется использование режима tf.keras.optimizers.legacy).
  • Добавлена поддержка новой ветки движка CTranslate2 3.x, предназначенного для эффективного выполнения моделей с архитектурой "трансформер".
  • Добавлен параметр тренировки моделей pad_to_bucket_boundary для включение добавочного заполнения, выравнивающего размер блока до значений, кратных length_bucket_width.
  • Интегрирована поддержка метрик chrf и chrf++ от проекта SacreBLEU, сравнивающих машинный перевод с эталонным человеческим переводом.
  • Удалён атрибут модели ctranslate2_spec, который больше не используется в CTranslate2.


  1. Главная ссылка к новости (https://github.com/OpenNMT/Ope...)
  2. OpenNews: Открыт код системы распознавания и перевода речи Whisper
  3. OpenNews: Выпуск системы машинного перевода OpenNMT 2.28.0
  4. OpenNews: Facebook опубликовал модель для машинного перевода, поддерживающую 200 языков
  5. OpenNews: Компания Mozilla опубликовала собственную систему машинного перевода
  6. OpenNews: Argos Translate - программа для машинного перевода с поддержкой русского языка
Лицензия: CC BY 3.0
Короткая ссылка: https://opennet.ru/58316-opennmt
Ключевые слова: opennmt, translate, lang, ai
При перепечатке указание ссылки на opennet.ru обязательно


Обсуждение (46) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, Аноним (1), 07:21, 13/12/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +7 +/
    каталанский особенно важен
     
     
  • 2.22, Аноним (22), 10:37, 13/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Native speakers 4.1 million (2021)
    Total number of speakers: 9.2 million
     
     
  • 3.23, YetAnotherOnanym (ok), 11:21, 13/12/2022 [^] [^^] [^^^] [ответить]  
  • +2 +/
    С такой логикой на первом месте должен быть китайский.
     
     
  • 4.24, Аноним (24), 11:23, 13/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Именно. В США же во время Холодной войны учили русский.
     
  • 4.25, Аноним (22), 12:19, 13/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Это опенсорс, детка. Возьми и добавь.
     
  • 2.41, Аноним (41), 18:30, 13/12/2022 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Как видишь, оказался достаточно важным для кого-то, вот и добавили. Был бы ты в той команде, может быть и русский добавили бы, но ты туда почему-то не попал. Не знаешь почему?
     
     
  • 3.53, Аноним (53), 22:39, 13/12/2022 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Возможно потому, что проект - говно, не интересное даже команде авторов? Выпустить систему машинного перевода только для пары языков, это надо очень сильно не любить то, что делаешь.
     
     
  • 4.54, Аноним (41), 23:02, 13/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Тогда к чему претензии? К тому, что забыли с анонимами на опеннете посоветоваться?
     

  • 1.3, Аноним (3), 07:31, 13/12/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • –2 +/
    Как и все, что касается нейросетей, данная технология доступна только NVIDIA-господам. А AMD-бедолагам остается только запускать GTA_V.exe, потому что ни на что другое их затычки рассчитаны и не были.
     
     
  • 2.13, Аноним (13), 08:31, 13/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    TensorFlow 2 ROCm ? не?
     
  • 2.20, Аноним (20), 10:34, 13/12/2022 [^] [^^] [^^^] [ответить]  
  • +3 +/
    >NVIDIA-рабам

    Пофиксил.

     
  • 2.21, Аноним (20), 10:36, 13/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    >Как и все, что касается нейросетей

    inference на CPU вполне доступен, благодаря onnxruntime (осторожно, телеметния от Microsoft).

     
     
  • 3.26, anonymous (??), 13:41, 13/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    > осторожно, телеметния от Microsoft

    Что за телеметрия в ONNX?

     
  • 2.27, Без аргументов (?), 14:09, 13/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Вы имеете в виду, что эффективность питоноскриптов такова, что для их работу нужен минимум RTX 3090Ti?
     
  • 2.35, commiethebeastie (ok), 17:07, 13/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    PyTorch и Tensorflow работают на ROCm.
     

  • 1.10, Бывалый смузихлёб (?), 08:17, 13/12/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    И что, если в каком-то языке появится новое слово или фразеологизм, нейросеть полностью перегонять, причём, для всех языков ?
     
     
  • 2.17, BeLord (ok), 10:00, 13/12/2022 [^] [^^] [^^^] [ответить]  
  • +3 +/
    Не спеши, она еще старые слова не освоила-))
     
  • 2.37, Аноним42 (?), 17:36, 13/12/2022 [^] [^^] [^^^] [ответить]  
  • –4 +/
    Нейросеть хотя бы можно обучить или переобучить
    А вот живых переводчиков…

    Возьми переводы выполненные переводчиками советской школы и ужаснись, они переводили не зная реалий других стран и не понимая многих слов, у них то гамбургер переброшен через плечо(реальный пример), то старина Джон Баптист, то еще какая дичь. И они были совершенно необучаемы

     
     
  • 3.39, Бывалый смузихлёб (?), 17:52, 13/12/2022 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Это единичные случаи. То, что в отдельных странах отдельные писатели загаживали свой язык и он всё больше из литературного превращался в помойку - это, всё-таки, не совсем проблема переводчиков
    Тем более, что их полно разных. Там на каждую сферу и отрасль - по собственному переводчику надо

    Тогда как повсеместное применение нейросетей на грани уместности вызывает всё больше мыслей, что куда-то не туда оно движется
    То с переводами, когда на каждый чих всё полностью заново переобучай на огромных выборках, то - с управлением авто( хотя алгоритмы там совершенно чёткие и нейросеть реально годится разве что на классификацию объектов ), а потом репу чешут, почему же из-за мусорного бака авто сбило человека

     
     
  • 4.42, Аноним (41), 18:35, 13/12/2022 [^] [^^] [^^^] [ответить]  
  • +1 +/
    > отдельные писатели загаживали свой язык

    Типичное мнение людей, не знающих толком ни одного языка, даже родного. Филологов от этих бредовых фантазий про какой-то «литературный», и уж тем более «чистый», «незагаженный» язык избавляют на первом курсе.

     
  • 4.52, Аноним42 (?), 21:48, 13/12/2022 [^] [^^] [^^^] [ответить]  
  • –2 +/
    Когда появляется человек, который говорит про «загаживание языка» я понимаю, что передо мной клинический идиот которого выгнали из школы

    Живой язык развивается, вбирает в себя слова из других языков, образовывает новые, отбрасывает старые или меняет им смысл
    Мертвый язык лежит на полочке и никуда уже не торопится, не «загрязняется»

    Я не понимаю почему больше всего в языки любят лезть такие, как ты, персонажи с 3 классами образования ЦПШ

     
     
  • 5.56, Бывалый смузихлёб (?), 14:41, 14/12/2022 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Конечно-конечно, надо скатываться в самые днищенские слегновые помойки конкретного района чтобы.. а чтобы что ?

    "Живой язык" и помойный сленговый говор - разные вещи. Даже в разных жилых кварталах одного района одного города говор может быть чуть разным, но это не делает его индивидуальным и уникальным - это лишь говорит о том, что власти откровенно вертели какие-либо ценности и идентичность отдельного народа.

    Поэтому, в той же финляндии, есть целая структура по разбору и борьбе с иноязом, а в сша - целые кварталы, которые говорят на ломанном испанском

     
     
  • 6.59, Аноним42 (?), 17:24, 14/12/2022 [^] [^^] [^^^] [ответить]  
  • –2 +/
    При чем тут 171 слэнговые помойки 187 , вася И, да, слэнги это такие же гово... большой текст свёрнут, показать
     
     
  • 7.61, Бывалый смузихлёб (?), 17:52, 14/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    > При чем тут «слэнговые помойки», вася?

    Бугуртом удовлетворён. Но читать это я, разумеется, не буду
    А после фразы про "совок" - так цена твоя - не боле чем у мусора на обочине или у какляцкой свинины под Артёмовском( Бахмутом ) :)
    Усирайся и далее в одиночестве, какол. За тобой однажды придут :))))

     
  • 3.64, анон (?), 16:02, 15/12/2022 [^] [^^] [^^^] [ответить]  
  • +1 +/
    >выполненные переводчиками советской школы

    Возьми переводы выполненные переводчиками англосакской школы и ужаснись.
    Настолько ущербно переводить советские научные статьи еще уметь надо, а ведь у них горело с того, что они переводить не успевали, а ценные знания им позарез нужны были.
    А худ литература в совке переводилась куда лучше, у твена выкинули всю чернуху, ты не седеешь со всех зверств в этих детских книгах.

    Я свои науные статьи так и учился на инглиш переводить, брал оригиналы того же ландау, и смотрел оригинальные переводы, с самых ранних, там сразу видно днище забугорных коллег.

     
     
  • 4.66, Ыеуз0 (?), 06:41, 20/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Ваше интересно, конечно. Наглосаксы устроили так со своими подельниками, что чуть более, чем вся отечественная наука не только стала грантовой, но ещё и обязана печататься в ихних журналах, на ихнем же языке. Иначе рейтинх не заработать, авторитет на цитируемости не заиметь, т.е. бабла не заработать.
    --
    Оффтоп, но чота приспичило написать это.
     
  • 2.57, Vasya definitely Vasya (?), 15:23, 14/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    ... зависит, видимо, от контекста употребления этого нового фразелогизма т.е. если он появился в том же контексте, что и известное слово, то перевод будет аналогичным + разумеется без переобучения.
     

  • 1.18, Анонус (?), 10:02, 13/12/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Немного о компании SYSTRAN

    > The company was established in La Jolla in California to work on translation of Russian to English text for the United States Air Force during the Cold War.

     
     
  • 2.29, Бывалый смузихлёб (?), 14:43, 13/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    > to work on translation of Russian to English tex
    > Модели подготовлены для английского, немецкого и каталанского языков,
    > для остальных языков можно самостоятельно сформировать модель

    Выглядит как практически легендарный распил, ещё и с каталонским!

     
     
  • 3.38, Аноним42 (?), 17:47, 13/12/2022 [^] [^^] [^^^] [ответить]  
  • –4 +/
    Когда кажется дуршлагом накрываться надо
    Если ты сходишь на сайт проекта OPUS(https://opus.nlpl.eu/), то обнаружишь, что среди баз текстов на которых можно обучать просто уже была готовая база каталонского правительства, есть база, есть на чем учить
    Сделай аналогичную готовую на русском или на урду, будут учить на них
     

  • 1.19, Аноним (20), 10:33, 13/12/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    >можно самостоятельно сформировать модель

    Дэйтацентр сначала купить придётся.

     
     
  • 2.28, Аноним (28), 14:22, 13/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Да нет. Выбросить все эти флоу, оптимизировать алгоритмы и запустить на Pentium 4.
     
     
  • 3.47, Аноним (41), 19:01, 13/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Займись, озолотишься. Я как раз для клиента достраиваю пайплайн для тренировки нейросети. С его объёмами цены на аренду железа кусаются что на AWS, что на GCP, что на Azure, и это ещё до затрат на хранение и передачу. Инвесторы, конечно, раскошелятся в итоге, что делать, но куда лучше было бы сэкономить и не слушать это нытьё. Вторую неделю на митингах мусолим одно и то же, а дешевле не выходит. Ну что, возьмёшься? Считай, первый контракт в кармане, я договорюсь.
     
  • 2.30, Аноним (30), 15:36, 13/12/2022 [^] [^^] [^^^] [ответить]  
  • +1 +/
    > Дэйтацентр сначала купить придётся.

    А просто Дэйта - сгодится? Или обязательно его центр нужен?

     

  • 1.34, Аноним (34), 16:27, 13/12/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Господа, небольшой оффтоп, но может кто подскажет нормальный бесплатный OCR? Про tesseract я знаю - его использовать невозможно без лютой ручной предобработки изображений.
    Есть дохрена коммерческих систем, которые отлично работают вообще без каких-либо настроект, есть что-то похожее в нашем опенсорсном мире?
     
     
  • 2.43, mikhailnov (ok), 18:37, 13/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    imagemagick перед tesseract. Например, сократить кол-во цветов в изображении помогает распознавать скриншоты.
     
     
  • 3.45, Аноним (34), 18:41, 13/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Скриншоты - возможно, но у меня на входе фотографии печатного текста. Они могут быть разного размера, с разной освещённостью, искривлёнными  и даже на разном фоне (не только чёрное на белом, но и зелёное на синем, например
     
  • 2.44, mikhailnov (ok), 18:39, 13/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    scantailor хорош
     
  • 2.48, Аноним (41), 19:06, 13/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Среди опенсорсных систем, Tesseract — лучшая. Так что если нет денег на ручную предобработку, бери коммерческую, дешевле выйдет.
     
     
  • 3.58, Аноним (58), 15:51, 14/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Не лучшая. К тому же, гулаг зажал готовые натренированные модели, которые можно сразу использовать, поэтому толку от него не много. То, что он ищет, это PaddleOCR, но там тоже проблемы с моделями будут.
     
  • 2.63, Аноним (63), 12:21, 15/12/2022 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Tensorflow, Torch. Без заморочек не получится. Моделей просто море. Но подойдут ли они тебе? Скорее всего нет.
     

  • 1.46, Ддд (?), 18:55, 13/12/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    А есть чтото просто без заморочек что поставить и подрубить для перевода?
     
     
  • 2.49, Аноним (41), 19:07, 13/12/2022 [^] [^^] [^^^] [ответить]  
  • +1 +/
    https://translate.google.com. Вообще никаких заморочек.
     
  • 2.51, Аноним42 (?), 21:39, 13/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    https://www.deepl.com/translator
    https://translate.google.com/
    https://translate.yandex.kz/
    https://www.reverso.net/
    https://www.bing.com/translator

    Выбирай! Правда последний если использовать, то начинают вылезать из могил мои преподы из ин.яза имени Добролюбова и обещают убить авторов лопатой

     
     
  • 3.60, Аноним (58), 17:34, 14/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Бинг кстати точнее остальных в списке переводит и не встречал такого что внезапно начинает гнать пургу и надо 10 раз обновить страницу. Особенно дипл плох, гт на втором месте. Яндекс просто надмозг, как и промпт. Ничего даже близко похожего на оригинальный смысл не будет.
     
     
  • 4.62, Аноним (63), 12:19, 15/12/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Дай ка угадаю. Просто у тебя тематика более подходящая под бинг, вот тебе так и кажется.
     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Партнёры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2024 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру