The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

Яндекс начал формирование коллекции своих открытых проектов

11.11.2010 22:57

Компания Яндекс с целью привлечения внимания к своим открытым проектам начала наполнение в сервисе GitHub группы репозиториев Yandex-OpenSource. По утверждению представителя Яндекса, в компании развивается много открытых приложений, библиотек и готовых решений, которые как правило остаются в тени и особо не афишируются. Теперь подобные проекты будут постепенно переноситься в репозитории GitHub и их можно будет окинуть взглядом через группу Yandex-OpenSource.

В настоящее время в GitHub перенесены следующие проекты:

  • PIRE (Perl Incompatible Regular Expressions) - библиотека с реализацией регулярных выражений, оптимизированных для выполнения большого числа проверок для огромных объёмов текста. Код PIRE был разработан для поискового робота и отличается очень высокой производительностью. Библиотека также прекрасно справляется с очень длинными регулярными выражениями, обработка которых не приводит к заметному понижению производительности.

    Так как библиотека не поддерживает обратные ссылки и просматривает каждый символ только один раз, используя примерно 5 машинных инструкций на обработку символа, она может быть использована для выполнения задач реального времени. Ценой вышеописанных возможностей является достаточно ограниченная функциональность, позволяющая использовать только простые регулярные выражения.

    При выполнении регулярного выражения ".*$" для файла размером 500 Мб скорость обработки данных в PIRE составляет 756,32 МБ/сек, в то время как библиотека RE2 от компании Google обрабатывает данные со скоростью 242,28 МБ/сек, а классическая библиотека pcre - 31,67 МБ/сек. При проходе более сложным регулярным выражением "ABCDEFGHIJKLMNOPQRSTUVWXYZ$" разрыв по скорости с RE2 уменьшается: PIRE - 755,98 МБ/сек, RE2 - 653,76 МБ/сек, pcre - 153,67 МБ/сек. При использовании выражения "(\d{3}-|\(\d{3}\)\s+)(\d{3}-\d{4})$": PIRE - 775,89 МБ/сек, RE2 - 423,76 МБ/сек.

  • Xiva - компактный и быстрый асинхронный HTTP-сервер для реализации серверной части протокола WebSockets, используемого для инициирования определённых действий по сигналу с сервера. В настоящее время проект используется для обеспечения работы уведомлений о новых письмах в web-интерфейсе Яндекс.Почты. Xiva достаточно узкоспециализированный сервер, оптимизированный для выполнения только определённого круга задач (например, не поддерживает POST-запросы). В комплекте поставляется небольшое демонстрационное приложение на языке Python с реализацией web-чата.
  • NwSMTP - быстрый SMTP прокси-сервер, принимающий на себя нагрузку и осуществляющий первичную фильтрацию перед передачей почты на основной почтовый сервер. Сервер может обеспечивать поддержку SSL, производить фильтрацию по чёрным спискам и DNSBL, управлять таймаутами, отфильтровывать сообщения по размеру и числу получателей, удалять и править заголовки, проверять SPF-записи, выполнять DKIM-верификацию, производить антиспам и антивирусные проверки. NwSMTP задействован в Яндекс.Почте. Пример файла конфигурации можно посмотреть здесь.
  • Серия дополнений к Python-фреймворку Django:
    • django_dust - реализация системы для одновременного сохранения загружаемых файлов на нескольких серверах (Distributed Upload STorage);
    • django_errorlog - обеспечение сохранения логов о работе сервера в стандартном для Python виде;
    • django_replicated - модуль с реализацией master-slave репликации между несколькими серверами всех SQL-операций.


  1. Главная ссылка к новости (http://clubs.ya.ru/company/rep...)
  2. OpenNews: Компания Google открыла исходные тексты библиотеки регулярных выражений RE2
Лицензия: CC BY 3.0
Короткая ссылка: https://opennet.ru/28625-openource
Ключевые слова: openource, regex, django, smtp, proxy, websockets
При перепечатке указание ссылки на opennet.ru обязательно


Обсуждение (54) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, klalafuda (?), 23:25, 11/11/2010 [ответить] [﹢﹢﹢] [ · · · ]  
  • +3 +/

    Интересно было бы PIRE поковырять. Но откуда ж на все время взять.. :(
     
     
  • 2.10, pavlinux (ok), 03:20, 12/11/2010 [^] [^^] [^^^] [ответить]  
  • +1 +/
    У тя диск такой есть? Чтоб читал со скоростью 756,32 МБ/сек?
     
     
  • 3.11, Аноним (-), 03:42, 12/11/2010 [^] [^^] [^^^] [ответить]  
  • +2 +/
    ZFS стрип на 3 обычных SATA дисков с lzjb компрессией на текстовых данных столько примерно и даёт.
     
     
  • 4.16, pavlinux (ok), 04:32, 12/11/2010 [^] [^^] [^^^] [ответить]  
  • –3 +/
    > ZFS стрип на 3 обычных SATA дисков с lzjb компрессией на текстовых
    > данных столько примерно и даёт.

    Куда он даёт!!!

    SATA на блинах, пусть даже на 10.000 rpm ну максимум 120Мб/с,
    да хрен сними, пускай будет даже 200 Мб/с. :)
    Ну и допустим, что есть у тебя идеальное, которого не может быть,
    распаралеливание 3-х потоков по 200Мб/с. это всего 600Мб/с.

    Так что пальцы тут не надо гнуть - ZFS-стрип,  lzjb, ..., FreeBSD забыл дописать. :)

    SAS/SASII via FiberChanel - тогда поговорим.
    Ну ладно, так уж и быть RAID из SSD



     
     
  • 5.20, Аноним (-), 09:20, 12/11/2010 [^] [^^] [^^^] [ответить]  
  • +/
    Вы еще забыли компрессию текстовых данных. Логи так вообще раз в 10 ужимаются как минимум, итого получаем 1200 Мб/с с одного диска
     
     
  • 6.40, pavlinux (ok), 13:40, 12/11/2010 [^] [^^] [^^^] [ответить]  
  • –1 +/
    > Вы еще забыли компрессию текстовых данных. Логи так вообще раз в 10
    > ужимаются как минимум, итого получаем 1200 Мб/с с одного диска

    Блин, ну вы выжимали такие скорости?
    Именно от, ну например, cat file | sed -e 'blah-blah-blah'.
    А то Яндых напишет, а доступ к файлу будет занимать 2 секунды,
    зато когда откроет, закэширует что можно и пустит в канал,
    тогда да, выходим на терабайт в сек, а при повторном обращении к
    кэшу, улетим до двух терабаб.

        

     
     
  • 7.45, invented (?), 14:53, 12/11/2010 [^] [^^] [^^^] [ответить]  
  • +2 +/
    pavlinux, ты ограничен в воображении, серьезно.
    Те скорости которые описаны - это скорости прогона в оперативной памяти.
    С какой скоростью, и главное откуда! ты запихаешь данные в оперативку, это сугубо твое личное дело.
     
  • 7.61, Аноним (-), 22:40, 12/11/2010 [^] [^^] [^^^] [ответить]  
  • +/
    > Именно от, ну например, cat file | sed -e 'blah-blah-blah'.

    Да, именно оттуда.

     
  • 5.33, none_first (ok), 12:08, 12/11/2010 [^] [^^] [^^^] [ответить]  
  • +/
    http://ru.wikipedia.org/wiki/RAID
    RAID 0 - не?
     
     
  • 6.41, pavlinux (ok), 13:43, 12/11/2010 [^] [^^] [^^^] [ответить]  
  • –1 +/
    > http://ru.wikipedia.org/wiki/RAID
    > RAID 0 - не?

    Оно. Только увеличение скорости не пропорционально увеличению количества дисков.

     
     
  • 7.57, Аноним (-), 19:54, 12/11/2010 [^] [^^] [^^^] [ответить]  
  • +/
    > Оно. Только увеличение скорости не пропорционально увеличению количества дисков.

    На нормальных системах пропорциональное, пока контроллер и шина справляются.

     
  • 5.48, BobbieZi (?), 15:49, 12/11/2010 [^] [^^] [^^^] [ответить]  
  • +/
    (не) уважаемый. 24 SSD от самсунга в RAID0 дают  более 2 гигабайт в секунду.
    учите матчасть.

    З.Ы. учитывая, что вы - фома неверующий, рекомендую поискать в инете соответствующую видюху, где наглядно это показано.
    З.З.Ы. Сссыль в студию? - гуглите сами.

     
  • 5.49, Аноним (-), 17:22, 12/11/2010 [^] [^^] [^^^] [ответить]  
  • +/
    Да, 120 MB s один диск, три 350 Разумеется FreeBSD, еще б я серьёзные вещи на ... большой текст свёрнут, показать
     
  • 3.27, butcher (ok), 10:01, 12/11/2010 [^] [^^] [^^^] [ответить]  
  • +1 +/
    А что, данные теперь можно только с дисков читать?
     
  • 3.47, davenger (?), 15:16, 12/11/2010 [^] [^^] [^^^] [ответить]  
  • +/
    В тексте очепятка: тестовый файл не 500Гб, а 500Мб, тест mmap()-ит этот файл и прогоняется по нему несколько раз. За первый прогон файл оказывается закешированным в памяти и после этого скорость не зависит от дисков, только от частоты скорости процессора и (в меньшей степени) пропускной способности памяти. Вот тогда достигается 750Мб/c.
     

  • 1.2, Anonus (?), 23:42, 11/11/2010 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Молодцы Яндекс! Всегда в них верил.
     
     
  • 2.36, Alex (??), 12:32, 12/11/2010 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Да, mirror.yandex.ru и почта у них рулят в рунете. Недавно перевёл на Яндекс свой E-mail, с mail.ru, просто чёрное и белое. Надо было сразу на Яндексе создавать.
     
     
  • 3.37, Nas_tradamus (ok), 12:47, 12/11/2010 [^] [^^] [^^^] [ответить]  
  • +/
    > Да, mirror.yandex.ru и почта у них рулят в рунете. Недавно перевёл на
    > Яндекс свой E-mail, с mail.ru, просто чёрное и белое. Надо было
    > сразу на Яндексе создавать.

    Я это понял еще 6 лет назад.
    Сейчас мало что изменилось у mail.ru (у меня там есть доп. рабочий ящик ради уведомлений по смс).

     
  • 3.56, Аноним (-), 19:52, 12/11/2010 [^] [^^] [^^^] [ответить]  
  • +/
    > Да, mirror.yandex.ru

    Это да, главное тем что по IPv6 доступно.

    > и почта у них рулят в рунете

    Ну халявная почта в принципе не может рулить, но для нищебродов свозможно.

     
     
  • 4.62, XoRe (ok), 00:03, 13/11/2010 [^] [^^] [^^^] [ответить]  
  • +/
    > Ну халявная почта в принципе не может рулить, но для нищебродов свозможно.

    Это для пользователей халявная.
    А для яндекса/мейла/гугля - очень даже не халявная.
    Они вкладывают в почту/антиспам/антивирус/хранилище/итд столько денег, сколько не вкладывает другая компания для своей "платной корпоративной почты".

     
     
  • 5.63, Аноним (-), 00:36, 13/11/2010 [^] [^^] [^^^] [ответить]  
  • +/
    Сказать-то что хотел?
     
     
  • 6.64, XoRe (ok), 00:37, 13/11/2010 [^] [^^] [^^^] [ответить]  
  • +/
    > Сказать-то что хотел?

    Бред говорите - так, понятно?)

     
     
  • 7.65, Аноним (-), 03:13, 13/11/2010 [^] [^^] [^^^] [ответить]  
  • +/
    Нет, не понятно. Сколько бы они в нее не вкладывали, она остаётся обычной халявной почтой, ничем не рулящей и от остальных не отличающейся.
     
     
  • 8.74, XoRe (ok), 02:42, 18/11/2010 [^] [^^] [^^^] [ответить]  
  • +/
    Много вы платите за почтовый ящик на корпоративном почтовом сервере Та же халя... текст свёрнут, показать
     

  • 1.3, invented (?), 23:48, 11/11/2010 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    PIRE супер! Рвет гугловый RE2 в несколько раз на простых регулярках.
    Еще бы питоновские биндинги...
     
     
  • 2.4, Толстый_ (?), 00:00, 12/11/2010 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Ну а что мешает написать самому? :) Я уже подумываю о биндингах к D.
     

  • 1.5, brzm (?), 00:02, 12/11/2010 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Хочется увидеть их замечательную систему мониторинга, про которую они так хорошо рассказали на Highload++. Хотя бы концепт: идея отличная.

    Обещали выложить.

     
     
  • 2.6, Аноним (-), 00:12, 12/11/2010 [^] [^^] [^^^] [ответить]  
  • –1 +/
    а не zabbix ли там???Если да, то чего его ждать... zabbix.com.
     
  • 2.32, Анонимъ (?), 11:35, 12/11/2010 [^] [^^] [^^^] [ответить]  
  • +/
    > Хочется увидеть их замечательную систему мониторинга, про которую они так хорошо
    > рассказали на Highload++. Хотя бы концепт: идея отличная.

    ахаха. эта замечательная система мониторинга называется Zabbix.

    см. http://download.yandex.ru/company/experience/rit2008/highload_lapan.pdf .

     
     
  • 3.70, brzm (?), 13:41, 13/11/2010 [^] [^^] [^^^] [ответить]  
  • +/
    Ванильный Zabbix это не система мониторинга, а сервер сбора и вывода информации, которым единственное что можно поглядеть это красивые графики нагрузки на камень, и увидеть что все плохо уже когда все плохо, т.н. пороговый мониторинг. Даже для того, чтобы мониторить более-менее сложную систему нужно воротить UserParameters.

    У яндекса был доклад о технике предупреждения аварии, фактически это будет просто набор скриптов, который по минимальной раскалибровке системы говорит "пороговому" Zabbix'у о том, что скоро придёт пушистый серверный зверёк. Так вот эти самые скрипты с фееричной техникой а-ля предупреждение землетресений и хотелось бы увидеть.

     

  • 1.7, Kataklysm (ok), 00:45, 12/11/2010 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Заббикс у них стоит.
     
  • 1.8, 8288ано8288ним (?), 02:52, 12/11/2010 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Ба, pire уже в портах фри.
     
     
  • 2.22, тигар (ok), 09:50, 12/11/2010 [^] [^^] [^^^] [ответить]  
  • +/
    > Ба, pire уже в портах фри.

    Дима (amdmi3@), а ты часом не 1 из девелоперов?:)

     
     
  • 3.29, анон (?), 11:03, 12/11/2010 [^] [^^] [^^^] [ответить]  
  • +/
    Правда уже в портах: http://www.freshports.org/devel/pire/
     
     
  • 4.30, тигар (ok), 11:09, 12/11/2010 [^] [^^] [^^^] [ответить]  
  • +/
    > Правда уже в портах: http://www.freshports.org/devel/pire/

    там не написано учавствовал ли Дима в этом проекте. порт сделать не сильно и сложно.

     
  • 3.52, AMDmi3 (??), 19:21, 12/11/2010 [^] [^^] [^^^] [ответить]  
  • +/
    Нет, но это писали ребята из моего отдела.
     
     
  • 4.66, Аноним (-), 03:14, 13/11/2010 [^] [^^] [^^^] [ответить]  
  • +/
    > Нет, но это писали ребята из моего отдела.

    Вы работаете в Яндексе?

     

  • 1.15, ананим (?), 03:59, 12/11/2010 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    был приятно удивлен поддержкой маемо.
    мне не стыдно за наш поисковик.
     
     
  • 2.35, Nas_tradamus (ok), 12:28, 12/11/2010 [^] [^^] [^^^] [ответить]  
  • +/
    В чем поддержка Maemo?

    Они вон выложили яндекс-карты, а потом выпилили. :(

     

  • 1.24, BoOgie (ok), 09:52, 12/11/2010 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    В преддверии внедрения "некошерного" Exchange'a в компании (увы и ах) особенно заинтересовало SMTP-proxy взамен того сервера-монстра что вырос из постфикса =)
     
     
  • 2.58, Аноним (-), 20:10, 12/11/2010 [^] [^^] [^^^] [ответить]  
  • +/
    > В преддверии внедрения "некошерного" Exchange'a в компании (увы и ах) особенно заинтересовало
    > SMTP-proxy взамен того сервера-монстра что вырос из постфикса =)

    Монстра?! Уж что-то, а postfix никак не монстр - очень легковесный и гибкий MTA с понятным у удобным конфигом. У меня он на всех машинах стоит, в т.ч. на роутере с 16MB памяти и замечательно работает.

     

  • 1.25, ДяДя (?), 09:54, 12/11/2010 [ответить] [﹢﹢﹢] [ · · · ]  
  • +3 +/
    Теперь-то мне понятно что в АГС 17 и АГС 30 мочит нормальные сайты.
    Какая, .... , разница сколько мегабайт в секунду ????
     
     
  • 2.53, User294 (ok), 19:34, 12/11/2010 [^] [^^] [^^^] [ответить]  
  • –6 +/
    > Какая, .... , разница сколько мегабайт в секунду ????

    Вам может и никакой, а я видел вполне колоритные примеры где PCRE показал себя с лучшей стороны :). Особенно прикольно выглядит например в ирц сети на Unreal IRCD. Когда кто-то сильно умный из иркопов влупляет сложное правило для антиспама, а потом ... потом вся сетка с кучей серверов прикольно встает раком. Выглядит незабываемо - одной командой нагибается уйма машин :)

     
  • 2.67, Аноним (-), 03:15, 13/11/2010 [^] [^^] [^^^] [ответить]  
  • +/
    > Теперь-то мне понятно что в АГС 17 и АГС 30 мочит нормальные
    > сайты.
    > Какая, .... , разница сколько мегабайт в секунду ????

    Ха-ха, очередной разорённый сеошник? Поделом.

     

  • 1.42, Анонимъ (?), 13:47, 12/11/2010 [ответить] [﹢﹢﹢] [ · · · ]  
  • +2 +/
    у меня друг недавно тут был на собеседовании в Яндекс (в головном офисе, что на улице Льва Толстого, что в районе м. Парк культуры). друг - Oracle DBA со стажем работы 4 года в телекоме, OCP, все дела.

    короче собеседование мой друган прошёл, но ему в результате предложили зарплату 60 тысяч (а он на тот момент уже получал 75, но решил посмотреть какие сейчас (по завершению кризиса) есть предложение на рынке и походить по собеседованиям).
    на вопрос "А чего так мало?" ему ответили c предыханием что-то вроде "Зато вы будете раотать в Яндекс!". вообщем друган в итоге устроился в Альфа-банк. пока всем доволен (:

     
     
  • 2.46, invented (?), 14:58, 12/11/2010 [^] [^^] [^^^] [ответить]  
  • +/
    >[оверквотинг удален]
    > офисе, что на улице Льва Толстого, что в районе м. Парк
    > культуры). друг - Oracle DBA со стажем работы 4 года в
    > телекоме, OCP, все дела.
    > короче собеседование мой друган прошёл, но ему в результате предложили зарплату 60
    > тысяч (а он на тот момент уже получал 75, но решил
    > посмотреть какие сейчас (по завершению кризиса) есть предложение на рынке и
    > походить по собеседованиям).
    > на вопрос "А чего так мало?" ему ответили c предыханием что-то вроде
    > "Зато вы будете раотать в Яндекс!". вообщем друган в итоге устроился
    > в Альфа-банк. пока всем доволен (:

    Чтобы получать больше, надо наверное и знать что-нибудь побольше чем Oracle DBA, не?
    Насколько мне известно, в Яндексе нужны многоплановые специалисты. И если Альфабанк готов выкидывать больше 75к за один Oracle это их дело.

     
     
  • 3.50, alikd (?), 18:12, 12/11/2010 [^] [^^] [^^^] [ответить]  
  • +1 +/
    работник яндекса детектед )
    Oracle DBA со стажем 4 года и 60тыщ по-момоему несовместимые вещи. Да и по мнению рынка тоже. (hh.ru и т.п.)
     
     
  • 4.54, Аноним (-), 19:50, 12/11/2010 [^] [^^] [^^^] [ответить]  
  • +/
    > работник яндекса детектед )
    > Oracle DBA со стажем 4 года и 60тыщ по-момоему несовместимые вещи. Да
    > и по мнению рынка тоже. (hh.ru и т.п.)

    Что значит несовместимые? Как раз совместимые, и hh.ru как раз с этим согласен. А если кроме оракла человек действительно ничего не знает, то 60 это уже непомерно много, 40 максимум. Да и не думаю что в Яндексе oracle используют, все-таки компания серьёзная.

     
  • 4.59, Dvorkin (ok), 20:16, 12/11/2010 [^] [^^] [^^^] [ответить]  
  • +/
    жостско ты их. :) и да, мне в стародавние начала 200х предлагали в майлру без всяких Oracle DBA на бОльшие деньги
     
  • 2.71, Аноним (-), 22:26, 13/11/2010 [^] [^^] [^^^] [ответить]  
  • +/
    Ваш друг вас наобманул. Для начала не бывает DBA с опытом работы 4 года и зарплатой всего в 75 тысяч. Ну и да, в яндексе все DBA получают значительно больше. Работал там 2 года, теперь уехал в США.
     
     
  • 3.72, Аноним (-), 04:50, 14/11/2010 [^] [^^] [^^^] [ответить]  
  • +/
    Бывает. За последние 5 лет люди поняли что на управляющие должности имеет смысл брать людей хоть немного шарящих в IT, если бизнес на это IT завязан - а им уже маркетоидную лапшу на уши не навешаешь. И базу будут выбирать по объективным критериям, а значит поделиям oracle ничего не светит. И уж тем более не светит тем, кто называет себя DBA, потому что DBA с опытом работы 4 года - значит админил две таблички в рогах и копытах, а потом больше бабла захотел. Если человеку платят больше 50круб, это DBA у него стоит где-то ближе к концу немаленького списка умений.
     
     
  • 4.73, sy (??), 15:54, 15/11/2010 [^] [^^] [^^^] [ответить]  
  • +/
    Скорее всего истина где-то рядом. DBA DBA рознь, не зависимо от опыта работы. Как и БД БД рознь.
     

  • 1.51, xv (??), 18:59, 12/11/2010 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    А Phantom, про который рассказывали на YaC-2010, видимо, так и не допилили. Обещали ведь, что прикрутят поддержку FastCGI и откроют.
     
  • 1.69, Аноним (-), 11:15, 13/11/2010 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Xiva (is name) only USSR :)
     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Партнёры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2024 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру