The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



"Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и SourceHut из-за ИИ-индексаторов"
Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Изначальное сообщение [ Отслеживать ]

"Перегрузка инфраструктуры KDE, GNOME, Fedora, Codeberg и SourceHut из-за ИИ-индексаторов"  +/
Сообщение от opennews (ok), 21-Мрт-25, 14:06 
Различные открытые проекты столкнулись с волной сбоев и замедления работы элементов инфраструктуры из-за повышения активности индексаторов содержимого сайтов (скраперов), собирающих информацию для обучения больших языковых моделей или для обеспечения ИИ-поиска в Web  (например, компания  Anthropic вчера представила вариант модели Claude 3.7 с  возможностью поиска в Web)...

Подробнее: https://www.opennet.ru/opennews/art.shtml?num=62925

Ответить | Правка | Cообщить модератору

Оглавление

Сообщения [Сортировка по ответам | RSS]

1. Сообщение от laindono (ok), 21-Мрт-25, 14:06   +3 +/
> robots.txt

Мне всегда казалось странным это "решение". Очевидно же, не работает.

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #6, #9, #30, #31, #58, #131

4. Сообщение от Аноним (4), 21-Мрт-25, 14:13   +6 +/
> По статистике Cloudflare около 1% всего трафика в сети приходится на ИИ-ботов.

Победит ли ИИ-траффик порно-траффик? ;)

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #20, #68, #77

6. Сообщение от Аноним (6), 21-Мрт-25, 14:14   +37 +/
Как раз прекрасно для блокировки кривых ботов работает, чтобы разных правильных ботов по ошибке не заблокировать.
  
Делаешь в запрещённой через  robots.txt области скрипт, видимый только ботам по скрытой ссылке, и  автоматом блокируешь всех, кто к нему обратился.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #1 Ответы: #13

8. Сообщение от Аноним (13), 21-Мрт-25, 14:15   +/
Интересно, если кто-то поднимет зеркало ресурса, выкачав к себе файлы, то как сторонний источник может убедится, что это зеркало без бекдоров?
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #15

9. Сообщение от Фрол (?), 21-Мрт-25, 14:16   +/
если юзер не презервуар и не китаец -прекрасно работает

но так-то кто пускает к себе трафик из китая - сам знает, на что идет

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #1 Ответы: #14

10. Сообщение от Аноним (13), 21-Мрт-25, 14:16   +7 +/
Если ресурсов всего интернета не хватает для обучения ботов, что они надувают количество данных даже такими вещами как git blame, которые можно получить локально, то это очень многое говорит о качестве самого обучения
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #27

11. Сообщение от Анонимно (ok), 21-Мрт-25, 14:18   +5 +/
> ИИ-ботов, игнорирующих запрет на индексацию, отдавать фиктивные страницы и зацикливать ботов на их обработке.

Годно, бот нарушил правила -> бот зациклился.

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #21, #46

12. Сообщение от Шарп (ok), 21-Мрт-25, 14:19   –15 +/
>ИИ-боты сканируют всё до чего могут дотянуться

Всё правильно делают. Современные поисковики настолько испортились, что уже невозможно через них нормально искать информацию. Через ИИ получается эффективнее.

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #117, #121, #182, #199

13. Сообщение от Аноним (13), 21-Мрт-25, 14:21   –16 +/
Расскажите, как это должно работать. Несколько раз писал ботов для сборки нужных мне данных, они в robot.txt даже не заглядывали, а парсили строго определённые страницы по строго определённым критериям.

Некоторе время мне попалось прекрасное: сайт содержал в себе защиту от парсинга, и эта защита просто выдавала пустую страницу, как будто ничего не произошло. Могли хотя-бы 429 код отдавать, или по ip забанить. В результате бот просто слал десятками тычяч запросы в холостую.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #6 Ответы: #18, #26, #33, #178

14. Сообщение от Аноним (13), 21-Мрт-25, 14:22   –4 +/
Вот у вас есть подкроватный хостинг. Как понять из какой страны траффик?
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #9 Ответы: #184, #197

15. Сообщение от Аноним (15), 21-Мрт-25, 14:25   +/
Никак.... Проверка по крипто подписки если только но и то не 100% вариант
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #8 Ответы: #19

16. Сообщение от Gorge (?), 21-Мрт-25, 14:28   +/
Блокировка по user-agent пока работает.
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #17, #34, #39

17. Сообщение от Аноним (13), 21-Мрт-25, 14:31   +/
Юзерагент элементарно подменяется
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #16 Ответы: #43

18. Сообщение от Аноним (18), 21-Мрт-25, 14:31   –4 +/
Добавляешь в блок-лист по IP того, кто заглядывает по указанной в robots.txt скрытой ссылке, не?
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #13

19. Сообщение от Аноним (13), 21-Мрт-25, 14:33   +/
Я вот тоже об этом думал, но потом понял, что эту подпись почти никто не ставит, в том числе и я, когда публиковал свой код.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #15 Ответы: #113

20. Сообщение от Аноним (-), 21-Мрт-25, 14:37   +6 +/
Думаю они объединяться в ИИ-порно-траффик)
И поработат мир)
Но возможно ИИ может создать кошкодевочек ИРЛ - и тогда каждому будет кошкожена, и ии-прон станент ненужен)
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #4 Ответы: #102

21. Сообщение от анонтитан (?), 21-Мрт-25, 14:38   –1 +/
Что годно ? мусорную нагрузку и трафик как убрать от них ? это не решение.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #11 Ответы: #32

23. Сообщение от Аноним (23), 21-Мрт-25, 14:57   +/
В последние несколько дней идёт массированный ДДОС с бразильских IP-адресов. Стоит апач, чем это можно полечить?
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #25, #70

25. Сообщение от Аноним (25), 21-Мрт-25, 15:00   +/
CloudFlare
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #23

26. Сообщение от пох. (?), 21-Мрт-25, 15:00   +24 +/
> Расскажите, как это должно работать.

вот так и должно.

> они в robot.txt даже не заглядывали

т.е. ты намеренно делаешь пакость потому что тебе ННАДА.

> и эта защита просто выдавала пустую страницу, как будто ничего не произошло.
> Могли хотя-бы 429 код отдавать, или по ip забанить.

нет, дорогуша, никто тебе жизнь облегчать не собирается - могли бы еще и заставить какой-нибудь хэш 256 посчитать.
Именно этого пакостники вроде тебя и заслуживают.
Тратьте свои ресурсы вхолостую, забивайте базы мусором, вы так уважали других людей, что достойны такого же уважения в ответ.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #13 Ответы: #29, #64, #73, #173

27. Сообщение от пох. (?), 21-Мрт-25, 15:01   +1 +/
> то это очень многое говорит о качестве самого обучения

как будто без этого не было очевидно, какое там "качество"?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #10

28. Сообщение от Василийemail (??), 21-Мрт-25, 15:03   +3 +/
Анубис неплохо справляется и лого у него прикольное, но на коредуба он довольно долго отрабатывает. Гномовцы молодцы, что подсуетились
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #72

29. Сообщение от anonymous (??), 21-Мрт-25, 15:08   –7 +/
Ну это нормально.

Программисты веба ничего никому не нужны (и поэтому туча рекламы и блокировка парсинга, который позволяет посмотреть сайт без рекламы, вытщаив самое полезное).

Пользователи тоже никому ничего не должны и могут с спокойной совестью парсить такие сайты и вытаскивать контент. В идеале потом где-нибудь делиться с другими такими же пользователями скриптами для вытаскивания контента.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #26

30. Сообщение от anonymous (??), 21-Мрт-25, 15:10   +5 +/
Правильное решение - это торрент трекер. Закидываешь туда всю открытую несекретную информацию, дамп сообщений и прочее. И пусть пользователи сами между собой шарят торрент, качают и разбирают, а сайт не нагружают.

Ещё в старые добрые времена было бы принято делать ссылку "зеркало", где показывались зеркала сайта и давались инструкции как завести себе такое зеркало.

Это и этично и куда правильнее чем подлянки друг другу строить.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #1 Ответы: #66, #206

31. Сообщение от fuggy (ok), 21-Мрт-25, 15:13   +3 +/
Плохих ботов даже блокировка по useragent не берёт, и даже по ip подсетям.
Наоборот, это хорошее решение. Для вежливых ботов. Там пишешь сюда не ходи, там история редактирований или бесконечный календарь, а то зациклишься. Хорошие боты это соблюдают и в ловушку не попадают. Защищать admin.php таким способом не стоит, но из индексирования можно и исключить на всякий случай.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #1

32. Сообщение от fuggy (ok), 21-Мрт-25, 15:17   +5 +/
Предложи лучше. Они всё равно будут долбиться. Только вместо обращения к реальной базе, генерируется лёгкая рандомная страница. Можно с неё ещё редирект на скачивание гигабайтного файла со speedtest добавить. И таким образом индекс ИИ будет испорчен и тогда может они одумаются чтобы не создавать паразитную нагрузку.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #21 Ответы: #51

33. Сообщение от penetrator (?), 21-Мрт-25, 15:18   +1 +/
ну вот тебя и забанят
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #13

34. Сообщение от Фрол (?), 21-Мрт-25, 15:19   –1 +/
это если автор бота не презервуар

а если презервуар - поставит вон юзер агента от  edge, как китайцы. и что ты им сделаешь?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #16

39. Сообщение от Аноним (-), 21-Мрт-25, 15:25   +/
> Блокировка по user-agent пока работает.

Не работает.
Есть куча примеров, как всякие бомж-браузеры меняют агент, чтобы маскироваться под более успешных конкурентов.
Ну и юзеры тоже таким шалят.

Так что приходится использовать другие методы и/или добавлять капчу.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #16 Ответы: #118

42. Сообщение от Аноним (42), 21-Мрт-25, 15:31   +/
> перебирая всё, вплоть до истории редактирования.

чтобы скормить в ИИ и поучить её делать очепятки ? хорошие же будут результаты на выходе после такого обучения...

Ответить | Правка | Наверх | Cообщить модератору

43. Сообщение от IdeaFix (ok), 21-Мрт-25, 15:35   +/
Ну допустим в M**a работают беспринципные товарищи, которые харвестят хуже китайцев, но свой юзерагент подменить им чсв не позволит. А если забанить корпоратов, кои лично мне на моём опыте доставляют куда больше проблем чем частники, то... проблем становится на 90% меньше. А то что гит можно уронить просто обходом ссылок - это проблема гита.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #17 Ответы: #50, #183

44. Сообщение от wyry (ok), 21-Мрт-25, 15:40   +3 +/
Воскрешение Silverlight в соседней темке уже не выглядит таким уж странным. Скоро всем придётся уйти глубже в wasm пряча данные в слое абстракции без прямого к ним доступа, а ботам выдавать минимум инфы, полезной для индексации ресурса. Сейчас фактически ИИ модели воруют все данные до каких могут дотянуться. По работам художников уже прошлись, украв весь Артстейшн, по Гитхабу прошлись, изымут и всё остальное, при этом вы ещё и заплатите за повышенную нагрузку. Дивный новый мир, в каждой железке теперь будет (уже есть) нейронка корпорации, которая будет отвечать на все вопросы и учить вас думать правильно.
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #53, #80, #122

45. Сообщение от vitalif (ok), 21-Мрт-25, 15:40   +/
Я тоже всех нахрен забанил у себя по юзерагенту. Говноедские боты
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #49

46. Сообщение от нах. (?), 21-Мрт-25, 15:40   –1 +/
итого - с точки зрения анубис - я бот. Ок. Идет туда же куда любители клаудшмариной крыши. Скорее всего еще и эффективно выбросит твой ценный (нет) сцайтик из индекса гугляндекса.

nepentis запрещенный в robots.txt похоже годная затея - одновременно кормит ИИ дерьмом, ничем не мешает нормальным пользователям и нормальным ботам, собирает полезную статистику (blacklistd легко присобачить, оно на lua) и без марковского модуля не жрет особо ресурсы (можно просто отключать по достижении критичного LA).

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #11 Ответы: #52

47. Сообщение от Аноним (50), 21-Мрт-25, 15:43   +4 +/
Уродские сайты приходится скрапить
@
Вебмастер видит, что ты парсишь и делает сайтишко еще более уродским и тормозным, навтыкав ловушек
@
Скрапер переписали
@
Вебмастер добавил капчу
@
Скраперы ответили AI-OCR
@
Вебмастер воткнул Клаудфлару
@
Обошли и клаудфлару, и proof of work, и geoipdb, и DNSBL, и много что еще
...
Чтобы зайти на сайтишко, нужно подтянуть квалифицированную ЕЦП, ввести OTP из SMS, заполнить форму указав персональные данные, верифицироваться по сетчатке и пройти собеседование в Дискорде
@
Все равно соскрапили
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #59, #81, #140

48. Сообщение от Аноним (48), 21-Мрт-25, 15:43   +/
А если капчу сделать?
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #54

49. Сообщение от Аноним (50), 21-Мрт-25, 15:44   +1 +/
>юзерагенту

Вообще удивительно, что этот хедер до сих пор отдают

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #45 Ответы: #185

50. Сообщение от Аноним (50), 21-Мрт-25, 15:46   +/
>но свой юзерагент подменить им чсв не позволит

Они обучали на пирацких книгах с Флибусты, им плевать

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #43 Ответы: #219

51. Сообщение от Аноним (51), 21-Мрт-25, 15:49   +1 +/
> Можно с неё ещё редирект на скачивание гигабайтного файла со speedtest добавить

а speedtest в чем перед тобой виноваты?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #32 Ответы: #60, #115, #155

52. Сообщение от Аноним (52), 21-Мрт-25, 16:01   +3 +/
А какой у тебя браузер? Какой-нибудь непонятный "конфиденциальный форк форка"? Или расширения стоят, блокирующие все скрипты?
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #46 Ответы: #82

53. Сообщение от Фрол (?), 21-Мрт-25, 16:03   +/
к чертям подробности

даешь бутлерианский джихад

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #44

54. Сообщение от Нуину (?), 21-Мрт-25, 16:03   +1 +/
Капчу в консоли по git clone показывать?
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #48 Ответы: #151

55. Сообщение от Нуину (?), 21-Мрт-25, 16:05   +/
Вот ИИ ворует внаглую код. Совсем оборзели. И не понятно как решать проблему? Код же не закроешь.
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #186

56. Сообщение от Аноним (56), 21-Мрт-25, 16:10   +1 +/
А вот если б не перегрузка, то мы б такое сделали, такое, вообщем огого какое...!
Ответить | Правка | Наверх | Cообщить модератору

57. Сообщение от fuggy (ok), 21-Мрт-25, 16:15   +/
> При блокировке IP-адресов, боты возобновляли работу с новых адресов, а при блокировке User-Agent переходили к индексации под идентификаторами типовых браузеров.

Я просто офигеваю с этого. Просто не представляете, как у меня с этого мягко сказать раздражение вызывает. Их блокируют по useragent, так они притворяются обычными юзерами, при этом ведут себя совсем не доброжелательно. Ещё и с десятков подсетей одновременно долбятся.

Я если делал краулера, то всегда прописывал специальный useragent и соблюдал robots.txt. Даже писал валидатор для robots.txt, чтобы вебмастера могли проверить что они правильно создали файл. Если администратор адекватный, он внесёт исключения чтобы определённые адреса, которые создают бесконечные рекурсии не индексировались. А на те которые создают повышенную нагрузку добавляет задержку между обращениями. Конечно среди них тоже попадаются неадекватные, которые сразу после нескольких обращение от curl (или не популярного браузера) банят IP навечно. Конечно обратной связи между клиентами и администраторами сайтов не хватает.

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #69, #91

58. Сообщение от нейм (?), 21-Мрт-25, 16:19   +10 +/
Пока интернетики держались на энтузиастах - все работало. А потом пришли маркетолухи/пизнесмемы и прочий мусор, вот и сломалось.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #1 Ответы: #120

59. Сообщение от Жироватт (ok), 21-Мрт-25, 16:23   +1 +/
@
Делает глагне и все остальное закрывается логином через ЕСИА, попутно прибив любую возможность открыть по прямой ссылке
@
Вставялет мультимедийную "Beat the DarkSouls boss on 512x512 window on WASM"-капчу
@
Блеклист заменяет на вайтлист айпишником. Айпишники специально добавляются полуавтоматически после верификации человеком и очень легко из него вылетают, например за автоматические запросы
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #47 Ответы: #174, #209

60. Сообщение от нейм (?), 21-Мрт-25, 16:25   +1 +/
А за то что с провайдерами корешились и результаты подставные отдавали
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #51

61. Сообщение от Аноним (64), 21-Мрт-25, 16:29   –1 +/
> не учитывают правила доступа к контенту, заданные на сайтах через файл robots.txt.

Это не правила, это рекомендации. То, что их кто-то к ним прислушивался говорит лишь об их благосклонности.

Ну и реакция Дрю на тоже забавляет. Такие вот приоритетные задачи, что вместо обычного бана через фаервол, который реализуется за час, «пришлось» тратить время на выстраивание ловушек. Натура у человека такая, хлебом не корми, дай только свой праведный гнев куда-нибудь направить, но только чтобы при этом всенепременно нагадить ближнему, желательно корпорации. Что поделать, популярность ресурса в интернете требует инфраструктуры.

Но есть отличный выход: спрятать всё за форму логина и без аккаунта не пущать. И с аккаунтом тоже воли не каждому давать, как раньше на закрытых трекерах, пока рейтинг не наберёшь не все разделы сайта видны. А ещё лучше просто отключиться от глобальной сети. Кому надо тот дискету с софтом по почте купит.

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #87, #100

62. Сообщение от Аноним (62), 21-Мрт-25, 16:33   –1 +/
Наглядный пример нежизнеспособности инфраструктуры этого вашего Virgin OpenSource по сравнению с Chad корпорациями.
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #210

63. Сообщение от Аноним (63), 21-Мрт-25, 16:34   +/
>можно отметить, ловушку для ИИ-ботов AI Labyrinth, представленную вчера компанией Cloudflare

Cloudflare пишет в блоге, что AI Labyrinth доступен на free тарифе, а по факту оно не включается и написано - Your current bot protection on the Free plan (Bot Fight Mode) only detects and challenges easy-to-detect bots from popular cloud providers.

Ответить | Правка | Наверх | Cообщить модератору

64. Сообщение от Аноним (64), 21-Мрт-25, 16:36   +1 +/
Не получается соскрапить в лоб рекурсивным курлом — соскрапят через селениум, делов-то. И как ты один браузер от другого отличишь? Правильно, никак, пока не начнёшь анализировать поведение пользователя. И тут окажется, что отдать контент дешевле, чем время между кликами и длину скролла считать. Когда-то уже все научились один раз делать так, чтобы гуглобот не укладывал сайт индексацией, научатся ещё раз. Ну или уступят дорогу тому, кто умеет.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #26 Ответы: #76, #78, #181

65. Сообщение от myster (ok), 21-Мрт-25, 16:40   +/
Проблему можно даже решить без прибегания к услугам CloudFlare и прочих анти-DDOS компаний.
Можно через fail2ban и аналогичными инструментами, отсеивать агрессивных клиентов, агрессивность определяется по логам веб-сервера, с помощью regex правил. Агрессивным маньякам можно выдавать текст, к примеру: "Успагойся, подожжи 5 минут, чувак. Если не хочешь ждать, закинь 0,00002 BTC на такой-то кошелёк".  Если не угомонится банить по IP временно.
Ответить | Правка | Наверх | Cообщить модератору

66. Сообщение от Admino (ok), 21-Мрт-25, 16:43   +3 +/
А если ИИ ещё и раздавать будет круглосуточно, так ему ещё спасибо скажут.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #30

68. Сообщение от КО (?), 21-Мрт-25, 16:52   +/
ИИ боты траффик не генерируют, лишь потребляют и нагружают
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #4 Ответы: #74

69. Сообщение от Аноним (69), 21-Мрт-25, 16:56   –6 +/
> Я если делал краулера, то всегда прописывал специальный useragent и соблюдал robots.txt.

А зачем? Задача стоит "скраулить контент", а не "учтиво снять шляпу, поинтересоваться роботс-файлом, поклониться, сказать 'спасибо'..."

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #57 Ответы: #89

70. Сообщение от myster (ok), 21-Мрт-25, 16:58   +/
через fail2ban можно настроить regex правила, но и дефолтных фильтров на самом деле хватит, чтобы отсеивать агрессивных
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #23

72. Сообщение от fuggy (ok), 21-Мрт-25, 17:08   –1 +/
Такое чувство что нужно этот анубис в дефолтный шаблон сайта добавить. Даже для хомпейдж блогов.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #28

73. Сообщение от Аноним (13), 21-Мрт-25, 17:10   –5 +/
Ух, какие вы злые.
>Тратьте свои ресурсы вхолостую, забивайте базы мусором

Вставляется простейшая проверка, после чего на сайт обратно отправляются те тысячи запросов, которые не обработались. Если им не жалко их обрабатывать, то и мне не жалко их послать
>вы так уважали других людей, что достойны такого же уважения в ответ.

Когда я зашёл на сайт, то внимательно посмотрел, никакого намёка на платное апи, тем более, принимающего мои карты - не увидел.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #26 Ответы: #85

74. Сообщение от Neon (??), 21-Мрт-25, 17:14   +5 +/
Ага, счас, как говорится. Недавно угорал над нейросетями. Яндексовская отказалась рисовать картину в стиле Микеланджело сотворение Адама. Причина отказа: авторкие права Микеланджело.))) Чуть со стула не упал.))) У Микеланджело в эпохе Возрождения.
Китайская нейросеть тоже отжигала. Рисовать не отказывалась, авторские права не смущали. Но... в процессе рисования она выясняла, что получившийся  контент строго +18, обнаружив порнографию в собственном исполнении, падала.)))
Так что ИИ вполне может генерировать порнотрафик там, где его никто не ожидает.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #68 Ответы: #139

75. Сообщение от Аноним (81), 21-Мрт-25, 17:18   +/
> заставка, которая у некоторых пользователей приводит к минутной задержке загрузки страниц. За два с половиной часа тестирования только 3% запросов прошили проверку

Перевожу. 3% посетителей ждали минуту, чтобы открыть сайт гнома. Тех, кто просто решил что сайт написан криворукими вебокодерами, как и сам гном, и поэтому не работает, просто назначили ботами.

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #92

76. Сообщение от Фрол (?), 21-Мрт-25, 17:18   +4 +/
access-list deny ip ещё дешевле
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #64

77. Сообщение от BeLord (ok), 21-Мрт-25, 17:19   +/
Не победит, пока ИИ не научится этот трафик сам генерировать))
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #4

78. Сообщение от fuggy (ok), 21-Мрт-25, 17:21   +2 +/
Это дороже будет, чем простой curl. Так юзеры не запрашивают 10 открытий страниц в секунду. Это простой rate-limit trottling. А если они будут как юзеры по одной странице в полминуты запрашивать, то пожалуйста. И анализировать поведение можно на стороне клиента, например всякие хэши посчитать, нагрузка на сервер будет минимальная. Только так они не скачают базу и за год.

Поэтому будет проще договорится с владельцем и предоставить данные в машинном формате, возможно за отдельную плату. Вон как со stackoverflow договорились. И не мешать обычным пользователям.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #64 Ответы: #84

80. Сообщение от Аноним (13), 21-Мрт-25, 17:24   +/
>Скоро всем придётся уйти глубже в wasm пряча данные в слое абстракции без прямого к ним доступа

Парсить json куда приятнее, чем html

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #44

81. Сообщение от Аноним (81), 21-Мрт-25, 17:26   +6 +/
Хакер в столовой :)
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #47 Ответы: #119

82. Сообщение от нах. (?), 21-Мрт-25, 17:30   –2 +/
> А какой у тебя браузер?

а кого это колебет? Система позиционирующаяся как заshitа от ботов - вместо этого защищает от людей. Все. Ее писал - м-к, и испольуют - м-ки.

И да, у ИИ прекрасно получится подделывать не только user-agent, но и типовые характеристирки твоего единственноверного хромонога распоследней версии - на то он и ИИ.

А вот разобраться где текст а где марковская сеть - эт вряд ли. И ни один человек туда не забредет случайно. Ни с каким ниправильным-ниправильным-блакирующим-маиоченьоченьнужные-(для слежки)-скрипты, что характерно.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #52 Ответы: #172

83. Сообщение от Аноним (83), 21-Мрт-25, 17:30   +/
Как неожиданно... "И кто это сделал?" (с)
Ответить | Правка | Наверх | Cообщить модератору

84. Сообщение от Аноним (13), 21-Мрт-25, 17:31   +2 +/
>Так юзеры не запрашивают 10 открытий страниц в секунду. Это простой rate-limit trottling

Для этого rate-limit должен быть адекватным. Одно дело, когда с белого адреса идёт поток запросов, и другое дело, когда из-за NAT-а.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #78 Ответы: #159

85. Сообщение от Фрол (?), 21-Мрт-25, 17:31   +1 +/
это про sourcehut?

плохо смотрел.

https://sourcehut.org/alpha-details

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #73 Ответы: #88

86. Сообщение от Аноним (-), 21-Мрт-25, 17:33   –1 +/
"Для снижения запросов к ресурсоёмким обработчикам в SourceHut были внедрены ловушки на базе инструментария Nepenthes, генерирующего в ответ на запросы ботов случайный контент с зацикленными на ловушку ссылками" Ещё бы подумать как майнерам отдавать умное электричество, чтобы от повышенной нагрузки у них например что-то не так работало и замедляло майнинг. Может силу тока понижать или ещё как чтобы не выглодано было использовать майнинг на повышенных нагрузках. Всёравно на майнинге много можно заработать только если не платить за электричество, а если платить за электричество большая часть прибыли от майнинга уходит на оплату электричества, прибыль существенно падает. После покупки майнинг оборудования сколько то лет надо работать в минус уменьшая затраты оплачивая купленное оборудование. Что и пытаются делать и делает какая-то часть майнеров не платить за электричестао.
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #90, #96, #105, #169

87. Сообщение от нах. (?), 21-Мрт-25, 17:36   +/
> Такие вот приоритетные задачи, что вместо обычного бана через фаервол, который реализуется
> за час,

да за две секунды - deny any, ok

Внезапно, человек вместо этого хотел осложнить жизнь - ботов, а не нормальных посетителей своего сайта. И, похоже, неплохой инструмент нашел, делающий именно то что и требовалось.

> Но есть отличный выход: спрятать всё за форму логина и без аккаунта не пущать.

а дура4ок с опеннета все продолжает вещать как бы он всем пакостей понаделал. Но к счастью ты не ДеВолт и твой сервер не нужен абсолютно никому, кроме может ИИ.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #61 Ответы: #95, #170

88. Сообщение от Аноним (13), 21-Мрт-25, 17:38   +/
>это про sourcehut?

Нет

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #85

89. Сообщение от fuggy (ok), 21-Мрт-25, 17:40   +/
Так сайт и так скраулится, ну не за минуту, а за час. Например мне нужно заархивировать сайт или выкачать новые статьи из rss раз в день. И без мусорных страниц, и в клаулер проще не нужно добавлять обнаружение зацикливания. Если вебмастер адекватный, он например может отфильтровать лишние страницы вроде /cgi-bin или допустим написать на почту автору useragent бота. Но такое можно было представить только на заре интернета.

А что значит "скраулить контент" перевожу - заработать на чужих данных, а ещё нужно обогнать конкурентов поэтому нужно скачать быстрее него в 100 потоков. Таких вредоносов и нужно банить. А полезных ботов, например webarchive нужно оставить в покое. Как мы видим не подписывают и притворяются браузером только плохие боты. Все хорошие боты или боты поисковых систем всегда подписываются. Делаем вывод.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #69 Ответы: #93, #98

90. Сообщение от Аноним (-), 21-Мрт-25, 17:43   +/
Я бы добычу кртптоволют в виде больших контор запретил и не давал развиваться этому направлению.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #86 Ответы: #94

91. Сообщение от Аноним (13), 21-Мрт-25, 17:43   +/
>Их блокируют по useragent, так они притворяются обычными юзерами, при этом ведут себя совсем не доброжелательно. Ещё и с десятков подсетей одновременно долбятся.

Рискну предположить, что ввести платное API, где запросы можно посылать без проблем вы не догадались.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #57

92. Сообщение от нах. (?), 21-Мрт-25, 17:49   +/
> Перевожу. 3% посетителей ждали минуту, чтобы открыть сайт гнома. Тех, кто просто
> решил что сайт написан криворукими вебокодерами, как и сам гном, и
> поэтому не работает, просто назначили ботами.

ну, будь это какой-то другой сайт - так бы оно и было. Но насчет гома ты по-моему все же неправ. КТО, кроме роботов т-пов@тых вообще ходит на САЙТ ГНОМА?! "Полезных ископаемых нет. Воды нет. Растительности нет."

Скорее всего те 3% тоже были ботами. Просто с длинным таймаутом.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #75 Ответы: #108

93. Сообщение от Аноним (13), 21-Мрт-25, 17:49   +/
>Так сайт и так скраулится, ну не за минуту, а за час.

Какой-то маленький у вас сайт.
>а ещё нужно обогнать конкурентов поэтому нужно скачать быстрее него в 100 потоков

Даже если не ddos-ить сайт, а качать всего в пару потоков, то сколько времени вы будете выкачивать сайт типа хабра?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #89 Ответы: #152

94. Сообщение от нах. (?), 21-Мрт-25, 17:51   +/
> Я бы добычу кртптоволют в виде больших контор запретил и не давал
> развиваться этому направлению.

Товарищ Ким (третий по величине, а возможно и первый если выкинуть коллективные, криптовладелец) смотрит на тебя неодобрительно. Не хочешь ли ты экскурсию за 57 тыщ приобрести?


Ответить | Правка | Наверх | Cообщить модератору
Родитель: #90

95. Сообщение от Аноним (95), 21-Мрт-25, 17:53   +/
> Но к счастью ты не ДеВолт и твой сервер не нужен абсолютно никому

Так и сайт ДеВолта не нужен абсолютно никому, что он ложится от пары запросов от скраппера.

> и твой сервер не нужен абсолютно никому, кроме может ИИ

Это получается, что у Анонима сайт даже более нужный, ибо не ложится от пары запросов от скраппера

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #87 Ответы: #97

96. Сообщение от Аноним (-), 21-Мрт-25, 17:53   +/
"не выглодано было" Так: не выгодно было
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #86

97. Сообщение от нах. (?), 21-Мрт-25, 17:59   +/
> Так и сайт ДеВолта не нужен абсолютно никому, что он ложится от пары запросов от
> скраппера.

раз скраппер его нашел - значит, таки нужен.

> Это получается, что у Анонима сайт даже более нужный, ибо не ложится от пары запросов от
> скраппера

просто этот сайт настолько никому не нужен, что и скраппер после второго запроса уходит, расстроенный.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #95

98. Сообщение от Аноним (69), 21-Мрт-25, 18:03   +2 +/
Не, ты давай без романтики интернета 90-ых. Ситуация: ты в офисе ФААНГа. Прилетела таска: скраулить сайт. Ты берешь и пишешь скриптец, игнорируя роботса. Может быть ты в курсе про существование роботс.тхт и говоришь непосредственному начальнику: "хорошо бы по-правильному, как в 90-ых, попереписываться с 'вебмастером' по почте, чтобы краулилось не за минуту, а за час." Начальник поднимает брови и молча переназначает таску на другого исполнителя, а тебе дает задачу перекрасить кнопку в корзине.

Идем далее. Ситуация. Скриптец работает, и тут прилетает таска: сайт перестал отвечать. С этим надо разобраться побыстрее. Ты просто берешь и меняешь юзер-агент. Сайт снова начал отвечать. Все, задача решена, можно пойти попить кофе на кухню. Тут нет никаких "заработать на чужих данных". Исполнителям тупо пофиг на все эти идеалы 90-ых. Они про них может быть даже и не в курсе. Задача стояла "скраулить контент", а не "повзаимодействовать с third party 'вебмастерами' (г-споди, слово-то какое допотопное!), попереписываться по почте на тему того, как бы нам по-правильному краулер забабахать."

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #89 Ответы: #123, #134

100. Сообщение от fuggy (ok), 21-Мрт-25, 18:05   +/
Проблема в том что они мешают обычным пользователям создавая паразитную нагрузку. Если бы они не ломились толпой и ходили только в ночное время и с соблюдением таймаутов, никто бы может и дела бы не обратил. Так значит не работает файрвол. Вон пишут же что банишь по ip, так они на другие подсети переходят.

Да robots.txt рекомендации и плохо что их не делают стандартами. Как в целом и остальные RFC для http рекомендуемые: "The key words SHOULD - This word, or the adjective "RECOMMENDED". Хотя вроде что-то специально для ai ботов хотели придумать.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #61 Ответы: #101, #132, #171

101. Сообщение от Аноним (13), 21-Мрт-25, 18:26   –1 +/
>Если бы они не ломились толпой

А вы откуда знаете, кто ломится толпой? Если вас будет парсить две независмые группы, как вы поймёте что их две, а не одна?
>и ходили только в ночное время

А ночное время это когда? Всё же часовые пояса сущестуют
>и с соблюдением таймаутов

А где это прописывается, чтобы бот мог узнать максимальную частоту запросов?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #100 Ответы: #129, #130, #149

102. Сообщение от Аноним (-), 21-Мрт-25, 18:29   +/
Замахнулись на роботов для секса но, это для тех у кого денег побольше. Почему им это надо это вы у них спрашивайте. Кого-то и негра приютить у себя в жилище из Африки устраивает - это разновидность проституции.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #20 Ответы: #106

104. Сообщение от Ан Оним (?), 21-Мрт-25, 18:43   +1 +/
А,.. вот в чём дело, буквально вчера или позавчера пытался зайти на gitlab гнома, и сильно удивлялся почему не пускает
Ответить | Правка | Наверх | Cообщить модератору

105. Сообщение от fuggy (ok), 21-Мрт-25, 19:07   +1 +/
Значит как светофоры от автобусов отличать это нормальная капча. Парадокс в том: обучая при этом нейросеть которая учиться отличать светофоры от автобусов. То есть человек проходя капчу, обучает нейросеть проходить капчу. А как создавать Honeypot для ботов, которые нагружают сервер и мешают нормальным людям так это не хорошо.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #86

106. Сообщение от Аноним (106), 21-Мрт-25, 19:09   +/
Кого-то и негра приютить для секса у себя в жилище из Африки устраивает - это разновидность проституции.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #102 Ответы: #223

107. Сообщение от Аноним (107), 21-Мрт-25, 19:13   +/
Ну понятно же, что ни одна инфраструктура не выдержит наплыва стартапов от ИИ.
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #127

108. Сообщение от Аноним (108), 21-Мрт-25, 19:15   +/
> КТО, кроме роботов т-пов@тых вообще ходит на САЙТ ГНОМА?! "Полезных ископаемых нет. Воды нет. Растительности нет."

Зайдите и посмотрите, что там. Например, GIMP, GLib.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #92 Ответы: #125, #165

110. Сообщение от Аноним (110), 21-Мрт-25, 19:18   –2 +/
Ну, так, поняли эти селфхостеры, к каким проблемам селфхостинг ведёт, или ещё нет?
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #116

111. Сообщение от Аноним (110), 21-Мрт-25, 19:19   +/
Юзераненты, айпи. Того гляди, скоро и до фингерпринтов дойдут.
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #136

112. Сообщение от Аноним (107), 21-Мрт-25, 19:31   +1 +/
Война ИИ против человечества началась со спама в Интернете.
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #146

113. Сообщение от Аноним (113), 21-Мрт-25, 19:32   +/
Единственное решение это свое зеркало. Иметь копии тех проектов которые тебе нужны на всякий случай
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #19

114. Сообщение от Аноним (107), 21-Мрт-25, 19:37   –1 +/
Все перейдут в доверенные VPN как необходимость доверия и защиты от атак ИИ.
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #128

115. Сообщение от fuggy (ok), 21-Мрт-25, 19:38   +/
Просто на сайте удобная ссылка скачать гигабайт рандома, вдруг кому надо. А раз бот нажал значим ему надо. Разработчики бота же не научили отличать полезные ссылки от скрытых ссылок с атрибутом nofollow.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #51

116. Сообщение от myster (ok), 21-Мрт-25, 19:41   +2 +/
> Ну, так, поняли эти селфхостеры, к каким проблемам селфхостинг ведёт, или ещё
> нет?

облачность - лишь иллюзия, оно всё self-hosted и постоянно падает, у всех облачных провайдеров время от времени DDOS и технические неполадки.

Возьмём, к примеру gitlab.com ("облачный" вариант gitlab), он внезапно тоже self-hosted и они используют GCP, как хостера. И, кстати, частенько бывает, что он тоже лежит.

GitHub.com также self-hosted, хостится в Azure.

И где ты думаешь упомянутые в статье инстансы gitlab хостятся? в тех же самых "облаках" на соседней стойке.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #110

117. Сообщение от Аноним (117), 21-Мрт-25, 19:43   –3 +/
Соглашусь.
Странно, что заминусовали.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #12

118. Сообщение от fuggy (ok), 21-Мрт-25, 19:43   +2 +/
Может потому что некоторые сайтоваятели делают редирект на badbrowser.php поставьте наш новый супер-пупер яндекс.браузер.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #39

119. Сообщение от Аноним (222), 21-Мрт-25, 19:44   +/
Это лишь теория, найдите владельца бизнеса которые не додумались бы выдавать порционные пакетики с солью.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #81

120. Сообщение от fuggy (ok), 21-Мрт-25, 19:46   +4 +/
Так самая главная проблема что потом они насоздают сайтов со статьями полностью сгенерированными нейросетями.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #58 Ответы: #154, #198, #222

121. Сообщение от fidoman (ok), 21-Мрт-25, 19:56   +1 +/
Наверное не во всех областях. Не так давно решал одну задачку (связанную с так всеми нелюбимыми X11). ChatGPT навыдавал некоторое количество весьма интересных вещей, но все оказались нерабочими - то есть эти малоизвестные функции в X есть, но не доведены до того состояния, чтобы от них была какая-то польза. Решение нашлось только ковырянием ссылок на форумы, выдаваемых обычным поисковиком (вот только не помню, уткоход это был или на гугл пришлось полезть).
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #12

122. Сообщение от fidoman (ok), 21-Мрт-25, 19:59   +1 +/
Когда 99,9% процентов контента в сети будет тот мусор, который сам ИИ и нагенерил - всё это резко сдохнет. Потоки синтаксически и стилистически верного бреда никому не интересны.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #44

123. Сообщение от fuggy (ok), 21-Мрт-25, 20:05   +/
Ну давай отметём все эти переписки по почте. Приходит задача скраулить сайт - начинаешь краулить в 100 потоков, через десять секунд твои ip банят. Потом будет: насяльника vps не работает, давай денег новый покупать.
Или. Пишешь имя MyCompanyBot, смотришь в robots crawl-delay 5 секунд, не заходишь на всякие мусорные страницы вроде истории редактирования и бесконечного календаря, и не нужно обрабатывать фильтрацию ссылок-ловушек, спокойно скачиваешь сайт за пару часов, vps не банят, лишних расходов нет, а данные нужны начальнику только к началу следующего месяца.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #98 Ответы: #124

124. Сообщение от fuggy (ok), 21-Мрт-25, 20:29   +/
Например у гугл бота есть такая "почта для сисадмина" в 2025 https://search.google.com/search-console/googlebot-report?hl=ru
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #123 Ответы: #135

125. Сообщение от нах. (?), 21-Мрт-25, 20:31   +/
ЗАЧЕМ мне на них - смотреть?!

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #108 Ответы: #167

127. Сообщение от нах. (?), 21-Мрт-25, 20:33   +3 +/
> Ну понятно же, что ни одна инфраструктура не выдержит наплыва стартапов от
> ИИ.

А стартапам от ЫЫ обязательно вести себя именно как последние м-ки?


Ответить | Правка | Наверх | Cообщить модератору
Родитель: #107

128. Сообщение от нах. (?), 21-Мрт-25, 20:35   +/
> Все перейдут в доверенные VPN как необходимость доверия и защиты от атак
> ИИ.

так точно, товарищмаер! Можно мне кредит доверия как-то до конца месяца поднять на два балла? А то я налог на доверие заплатить не могу - налоговый сайт не пускает.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #114

129. Сообщение от fuggy (ok), 21-Мрт-25, 20:35   +/
> две независмые группы, как вы поймёте что их две

Вот cloudflare как то научился. Например, если "перебирают каждую страницу в git log из разных подсетей.

> ночное время это когда

Зависит от языка сайта. Например для русскоязычных сайтов пик это по московскому времени. Если нет, то можно просто размазать равномерно.

> бот мог узнать максимальную частоту запросов

robots.txt crawl-delay или для поисковиков можно прямо у них на сайте прописать что краулить мой сайт не чаще чем X. Да это всё только рекомендации. Или взять адекватные рекомендуемые 1-5-10 секунд, а не 10 раз в секунду.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #101 Ответы: #137

130. Сообщение от нах. (?), 21-Мрт-25, 20:35   +/
> А где это прописывается, чтобы бот мог узнать максимальную частоту запросов?

Уровень экспертизы...

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #101 Ответы: #138

131. Сообщение от Аноним (131), 21-Мрт-25, 20:40   +/
Это чисто юридическое решение, не техническое. Работает только в пользу государств и дзяибатсу. Ну и бизнесов чуть поменьше. Если же вы выкатите техническое решение - то вас просто законом обяжут поделиться данными с "озером" (версия 2.0, но главныйбенефицар всё тот же).
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #1

132. Сообщение от нах. (?), 21-Мрт-25, 20:48   +/
> обратил. Так значит не работает файрвол. Вон пишут же что банишь
> по ip, так они на другие подсети переходят.

У яндекса научились. В свое время, когда я растерял там все контакты людей, имевших право думать своей головой, кто уехал, кто умер - оно в очередной раз охренело.
Обычные сайты это не сильно затронуло, но у нас были необычные, и нам прилетело по полной. Э... кто не понимает - например, народру (почему не ложился народ? А потому что это был внутренний сайт яндекса и его они сканили не через веб вообще. Да, их бот так может.)
Техподдержка делала круглые глазыньки и вид что вообще не понимает о чем речь.

Что ж ... давайте забаним их блоки. ОГО! Нихреновый за пару дней вырос списочек (когда эта хрень не может пробиться - она так просто не сдается, поднимает новые и новые зомбонеты, по всему миру, до этого тихо спавшие).
Что ж... random drop probability 93%

Все довольны - яндекс перестал создавать нам сумасшедшую нагрузку, хомякопейджи продолжают индексироваться, громадный кластер т-по висит (потому что drop а не reject) на хэндшейках, одаренной молоди тогда еще не израильского предпринимателя казахского происхождения совершенно похрен, электричество и серверы в стойках для них бесплатные и в любом количестве. Пару лет, до моего ухода, так и работало, яндекс у себя ничего не исправил.

> Да robots.txt рекомендации и плохо что их не делают стандартами.

на стандарты эти "Мне ННННАДА!" точно так же забьют. Они понимают только палкой по хребту.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #100 Ответы: #143

133. Сообщение от Аноним (131), 21-Мрт-25, 20:53   –1 +/
>Проблемы возникли у платформы совместной разработки SourceHut, развиваемой Дрю ДеВолтом (Drew DeVault), автором пользовательского окружения Sway. >Дрю сетует на то, что в очередной раз вместо того, чтобы заниматься развитием платформы

Лицемерьненько, он эту платформу совсем забросил со своим ADHD, прыгает с одной игрушки (вроде hare) на другую.

Ответить | Правка | Наверх | Cообщить модератору

134. Сообщение от нах. (?), 21-Мрт-25, 20:57   +1 +/
> Не, ты давай без романтики интернета 90-ых. Ситуация: ты в офисе ФААНГа.

В этом офисе решение принимает настолько высокозадранный индус, что да, выполняй и кланяйся. Но зачем ты такой дешовый раб?

> на кухню. Тут нет никаких "заработать на чужих данных". Исполнителям тупо

тот индус вполне собирается - заработать (ну хотя бы на свой бонус) и именно на чужих данных, раз именно чужие ему сегодня приспичило.
Исполнителей-винтиков, конечно, никто не спрашивает, но иногда все же от них требуют соблюдения правил - faang скандалов не любит.
Поэтому гуглевые боты - учитывают robots.

А вот альтернативно-одаренные китайские стартапы - вообще ненеслышали. Насяльника у них следует кланяться в пол и лишних вопросов не задавать.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #98

135. Сообщение от нах. (?), 21-Мрт-25, 20:58   +/
> Например у гугл бота есть такая "почта для сисадмина" в 2025 https://search.google.com/search-console/googlebot-report?hl=ru

Не хотел бы тебя огорчать, но они на ней - ИИ тренируют. Никакие человекообразные это не читают и не собираются. Единственный способ взаимодействия с гуглем - личные контакты с выскопоставленными индусами.

Через них периодически (те кто через вторые-третьи-четвертые руки смог выйти на такого индусского гения) удается что-то изменить. А на эту деревню этому дедушке можешь даже не тратить время на писанину.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #124

136. Сообщение от нах. (?), 21-Мрт-25, 21:11   +/
> Юзераненты, айпи. Того гляди, скоро и до фингерпринтов дойдут.

ИИ подделает фингерпринт даже лучше чем твой настоящий браузер. Поэтому тебя отфильтруют, бот поганый, а он пройдет.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #111

137. Сообщение от Аноним (13), 21-Мрт-25, 21:13   +/
>Если нет, то можно просто размазать равномерно.

Как минимум для англоязычных это единственный возможный вариант
>robots.txt crawl-delay

Осталось только посмотреть, где их заполняют, у того же sourcehut.org/robots.txt - 404, то есть вообще ничего нет
>Или взять адекватные рекомендуемые 1-5-10 секунд, а не 10 раз в секунду.

Чем определяется данная адекватность? Это насколько сложной должна быть страница, чтобы уже дважды в секунду было неадекватным?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #129 Ответы: #147

138. Сообщение от Аноним (13), 21-Мрт-25, 21:16   –1 +/
Кексперд видимо сам ни разу не смотрел в robots.txt. У того же sourcehut.org/robots.txt - 404. www.opennet.ru/robots.txt - тоже никаких намёков
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #130 Ответы: #141, #148

139. Сообщение от нах. (?), 21-Мрт-25, 21:16   +1 +/
> Так что ИИ вполне может генерировать порнотрафик там, где его никто не
> ожидает.

но тебе его не покажут!


Ответить | Правка | Наверх | Cообщить модератору
Родитель: #74

140. Сообщение от Аноним (140), 21-Мрт-25, 21:17   –1 +/
@
К скарйперам приходит юридическая контора и скрейперы засужены в ад. Любые отмазки разбиваются о то, что в robots.txt явно запрещено скрейпить и что robots.txt - индустриальный стандарт, если вы его не реализовали - то вы автоматически виноваты, как минимум recklessness.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #47 Ответы: #150, #175

141. Сообщение от нах. (?), 21-Мрт-25, 21:20   +/
> Кексперд видимо сам ни разу не смотрел в robots.txt. У того же
> sourcehut.org/robots.txt - 404. www.opennet.ru/robots.txt - тоже никаких намёков

Какое отношение это имеет к твоему незнанию "где прописывается"?

Очевидно что ни у опеннета ни у Sh нет никаких специфических мест которые нельзя показывать роботам. (а регекспы в этом файле не обрабатываются)
Но речь об обычных роботах, которые и так стараются не создавать проблем.

А необычные все равно не собираются этот файл проверять.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #138

143. Сообщение от Аноним (13), 21-Мрт-25, 21:28   +/
>Что ж ... давайте забаним их блоки

У них useragent постоянный? Post запросы шлют или только get?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #132 Ответы: #144

144. Сообщение от нах. (?), 21-Мрт-25, 22:03   +/
хммм... вот этого не знаю. В свое время э.. ну неважно в общем, кто - дал яндексу (да, тогда еще нас слушали) "полезный" как ему показалось совет - если на странице есть форма, состоящая ровно из одной submit - попробовать ее "нажать", потому что это может быть "согласитесь с правилами сайта", "skip animation", какой-нибудь приветственный диалог или еще какая подобная ботва.

"Но потом произошел неприятный инцидент и хищников пришлось срочно убрать"(c)анекдот про тигров в НИИ. Можешь сам догадаться, где эта хрень нашла такую форму и что это было (а ходила-то она из доверенной сети, где авторизации не было).

Но, поскольку ИИ-боты не яндексы - и плевать хотели на любой нанесенный ими ущерб - не исключаю, что если такой совет им еще и не дали, то скоро какой-нибудь особо одаренный таки додумается.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #143 Ответы: #166

146. Сообщение от Аноним (146), 21-Мрт-25, 22:05   +/
ИИ это скрепка в microsoft office.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #112

147. Сообщение от fuggy (ok), 21-Мрт-25, 22:12   +/
> Чем определяется данная адекватность

Определяется вероятностью получить бан по ip помноженный на количество доступных прокси. Вот и приходится гадать. Станет ли человек открывать регулярно новые страницы дважды в секунду - нет - значит бот. А так как человек это ожидаемый пользователь, скорость его работы берём за эталон. Если человек настолько резвый что успеет превысить скользящий rate-limit, что вряд ли, то увидит плашку http 429 на пару минут. Яндекс/Гугл вон свою капчу показывает, тем кто слишком часто делает сложные запросы.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #137

148. Сообщение от Аноним (6), 21-Мрт-25, 22:21   +1 +/
> www.opennet.ru/robots.txt - тоже никаких намёков

Куда-то не туда вы смотрите, robots.txt на opennet с испокон веков

https://web.archive.org/web/*/https://www.opennet.ru/robots.txt
Saved 67,666 times between September 18, 1999 and March 12, 2025.

$ curl https://www.opennet.ru/robots.txt

User-Agent: *
Disallow: /search.shtml
Disallow: /cgi-bin/opennet/htsearch
Disallow: /cgi-bin/opennet/bookmark.cgi
Disallow: /cgi-bin/openforum/bv.cgi
Disallow: /cgi-bin/openforum/arted.cgi
Disallow: /cgi-bin/openforum/ch_cat.cgi
Disallow: /cgi-bin/opennet/jnews.cgi
Disallow: /cgi-bin/opennet/tips_search.cgi
Disallow: /cgi-bin/opennet/key_search.cgi
Disallow: /docs/search.shtml

# User-agent: Mediapartners-Google
# Disallow:

Host: www.opennet.ru

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #138 Ответы: #156, #157

149. Сообщение от fuggy (ok), 21-Мрт-25, 22:32   +1 +/
> парсить две независмые группы

Забыл напомнить ещё проблема в том что если один бот ходит в несколько потоков на сайт. Сейчас большинство сайтов http/2 и значит отдают ресурсы страницы в том же соединении не открывая новых. Значит бот делая несколько потоков увеличивает нагрузку, открывая несколько отдельных соединений. Так же если краулить разные сайты, то нужно поднимать свой DNS потому что можно просто задудосить публичный DNS. Но разработчики ИИ-ботов обычно ничего это не знают. Поэтому действительно проще и дешевле прийти с мешком денег как OpenAI к stackoverflow и просто купить доступ к базе, чем разрабатывать свои кривые краулеры.

Обо всех таких рекомендациях можно прочитать в книге Introduction to Information Retrieval. Но стартеперы книжек не читают, побыстрее в продакшн, а то инвесторы уже деньги спрашивают.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #101 Ответы: #158

150. Сообщение от Grand (?), 21-Мрт-25, 22:35   +1 +/
@
нанимается 10000 индусов, которым всплывает окошко пропарсить url такой-то и они тапают - ДА. Благодарные пролетарии спасены от голодной смерти через автоматизацию производства ! Ура ! Ура !
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #140 Ответы: #160

151. Сообщение от Grand (?), 21-Мрт-25, 22:37   +/
Что б дево-псам жисть медом не казалась !!
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #54

152. Сообщение от Grand (?), 21-Мрт-25, 22:39   +/
11 дней. Всего-то.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #93 Ответы: #163

153. Сообщение от Grand (?), 21-Мрт-25, 22:53   –1 +/
Столмановцы, зачем вы вообще сопротивляетесь: придут роботы обучатся на вашем коде и будут писать утилиты для корпоратов, наложив на ваш opensource  трехслойный denuvo чтоб никто не догадался . Смысла совместно что-то писать выкладывать в общий доступ , учить корпоратов - нет уже вовсе.
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #161

154. Сообщение от нах. (?), 22-Мрт-25, 00:43   +1 +/
пока что это не проблема, а решение - видишь на сайте в начале страницы картинку с восемью пальцами и ногами в разные стороны - можно не читать галиматью под ней.

Такое применение ИИ мы одобрять!

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #120

155. Сообщение от нах. (?), 22-Мрт-25, 00:47   +/
спидтест, полагаю, не в обиде - они ж живут с торговли аналитикой, им НУЖНО чтоб этот мусор кто-нибудь с них регулярно качал.

А тут еще и китайские и индийские диапазоны, с которых нормальные юзеры заходят исключительно редко.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #51

156. Сообщение от нах. (?), 22-Мрт-25, 00:56   +/
пару часов назад было 404. Похоже, писатель автоцензурилки по произвольным сочетаниям букв немного увлекся и продолбал его. Сейчас прочитал и починил.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #148 Ответы: #176

157. Сообщение от нах. (?), 22-Мрт-25, 01:03   +/
> and March 12, 2025.

видимо, где-то тут он и отвалился. Там занятное падение числа запросов - то каждый день по три раза, а тут два раза в месяц. В прошлый раз такое было в октябре, все остальные месяцы каждый день и не по разу. Видимо, просто и не отдали.

Я тоже поудивлялся, чего это совсем никакого нет, но, собственно, глядя в содержимое, не особо и  был нужен, прям скажем. гугль туда вряд ли и полезет.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #148

158. Сообщение от нах. (?), 22-Мрт-25, 01:06   +/
вот кстати о деньгах - очередная язва на теле нашей поглупевшей цивилизации.

За последние десять лет - ноль, ровно ноль успешных альтернатив гуглю (бинг на все деньги мс и яндекс-шпион на немного денег от фсб не в счет, это внеэкономические)

- причем все неудачники плачут что просто дешевле купить у гугля поиск (тут же перепродав ему пользователей) чем поддерживать свой индекс всего интернета. А ИИ -стартшмякеры похоже денег вообще не считают.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #149 Ответы: #192

159. Сообщение от нах. (?), 22-Мрт-25, 01:15   +1 +/
это проблема уровня сайтов яндекса или какого-нибудь, прости г-ди, fakesnews.

Если "из за ната" идет поток запросов 10/s на одну и ту же страницу, то либо тебя поломали и срочно беги через казахскую границу (удалять с нее cp уже поздно, у товарищмайора нотариально заверенный скриншот), либо это не человек.
Ты ведь не яндекс, и даже не vk. Крайне маловероятно что сайт твоего банчка из последней сотни вдруг срочно понадобился аж десятку человек, сидящих за одним и тем же натом, причем аж с секундной синхронизацией.

Но ловушка на ботоводов, кормящая их с ложечки дерьмом, выглядит гораздо надежнее и эффективнее гадания на SYN-RECEIVED.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #84 Ответы: #162

160. Сообщение от Аноним (160), 22-Мрт-25, 01:18   +/
А это уже conspiracy и уголовка.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #150

161. Сообщение от нах. (?), 22-Мрт-25, 01:19   +/
а кто им запретит ТОЖЕ писать роботом утилиты для фанатов шва60дки?

Проблема только в том что пока что эти роботы такую хрень пишут, что пользы от нее один вред.

> Смысла совместно что-то писать выкладывать в общий доступ , учить корпоратов - нет уже
> вовсе.

смысл выкладывания написанного в общий доступ - вовсе не в том чтоб учить корпоратов, и никогда не был.

Смысл всегда был в том, чтобы другие люди делали за тебя твою работу - если твоя работа вообще хоть чего-то стоит. Он никуда не денется и дальше.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #153

162. Сообщение от Аноним (13), 22-Мрт-25, 02:43   –1 +/
>Если "из за ната" идет поток запросов 10/s на одну и ту же страницу

Если рассматривать страницы вроде пагинации, то один человек сможет за секунду запросить как минимум две таких страницы. Надеюсь вы понимаете, что даже небольшая семья может запросто ичерпать подобный лимит?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #159

163. Сообщение от Аноним (13), 22-Мрт-25, 02:49   +/
Как я вижу, вы не учли тот факт, что для картинок и комментариев нужны отдельные запросы.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #152

164. Сообщение от Аноним (210), 22-Мрт-25, 02:56   –1 +/
А в чем нагрузка, совершил гит клон этот робот и готово. Любой CI этих клонов в докер хреначит десятками
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #214

165. Сообщение от Аноним (210), 22-Мрт-25, 02:58   +/
Планктону непанять
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #108

166. Сообщение от Аноним (13), 22-Мрт-25, 02:58   +/
>хммм... вот этого не знаю

Так с этого и надо было начинать. Различать по юзерагенту куда проще, чем по ip адресам. Хотя непонятно, почему вы не заблочили по адресам из asn.
>Можешь сам догадаться, где эта хрень нашла такую форму и что это было (а ходила-то она из доверенной сети, где авторизации не было).

Полагаю, что это была кнопка удаления

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #144 Ответы: #179

167. Сообщение от Аноним (210), 22-Мрт-25, 02:58   +/
Чтобы увидеть
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #125

169. Сообщение от Аноним (210), 22-Мрт-25, 03:03   +/
Вспоминаются строки Достоевского , из его новеллы "Майнер":
Накупил джифлрсоф начал майнить жене на шубу. Однажды утром проснулся - замайнилось!! Пошел покупать шубу, прихожу домой , а дома никого. Только записка на столе "я слишком долго ждала..". Теперь эта шуба на полу вместо ковра лежит.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #86 Ответы: #224

170. Сообщение от Аноним (64), 22-Мрт-25, 03:21   +/
> человек вместо этого хотел осложнить жизнь - ботов

Но пакостей наделать мечтаю внезапно я. Я так сразу и подумал.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #87

171. Сообщение от Аноним (64), 22-Мрт-25, 03:25   –2 +/
> Да robots.txt рекомендации и плохо что их не делают стандартами

Придумаешь стандарт и как заставить его соблюдать — приходи. Заодно придумай пока будешь ходить непротиворечивое определение паразитной нагрузки. Для пользователя ИИ-агента как раз мясные пользователи паразитная нагрузка, из-за которой нужно парсить HTML.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #100

172. Сообщение от безразницы (?), 22-Мрт-25, 06:53   +/
Это общая проблема. Одна большая интернет компания постоянно считает что я граблю их ресурсы. Хотя и не собирался. Казалось бы, прогеров и девопсеров в Яндексе полно, всех алгоритмами на собесах отмучали.

А вы от мини проекта хотите лучшей работы...

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #82 Ответы: #200

173. Сообщение от Аноним (173), 22-Мрт-25, 07:45   –2 +/
> т.е. ты намеренно делаешь пакость потому что тебе ННАДА.

Это еще кто кому пакости делать первым начал. Как только robots.txt стали использовать не по назначению, так его естественно, что стали игнорировать.  По назначению - это чтобы боты не лезли в разные служебные части сайта, а не чтобы не давать людям сохранить сайт.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #26 Ответы: #180

174. Сообщение от Аноним (173), 22-Мрт-25, 07:59   +/
@
Нормальным людям становится невозможно пользоваться таким сайтом, но его все-равно соскрапят. Наймут 100500 фрилансеров за копейки, но соскрапят.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #59

175. Сообщение от Аноним (173), 22-Мрт-25, 08:12   +/
> Любые отмазки разбиваются о то, что в robots.txt явно запрещено скрейпить и что robots.txt - индустриальный стандарт,

Разве что обычного лоховатого Васю Пупкина так засудить получится. Явно запрещено - это если заключен договор (платный или бесплатный) между владельцем сайта и юзером, хотя бы в виде договора присоединения и в договоре явно запрещен скрейпинг. Все остальные измышления про индустриальный стандарт идут лесом.

Однако очень редко какие владельцы сайтов связываются с договором, ибо хотят и рыбку съесть и это самое.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #140

176. Сообщение от Maxim Chirkov (ok), 22-Мрт-25, 09:00   +/
Из кодов возврата кроме 200 и 301 для robots.txt в логах за вчерашний и сегодняшний день только это


217.66.*.* - - [21/Mar/2025:12:02:49 +0500] GET /opennews/opennews_full.rss/robots.txt HTTP/1.1 "404" 3804 "-" "Mozilla/5.0 (Windows NT 6.2; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) QtWebEngine/6.7.3 Chrome/118.0.5993.220 Safari/537.36 RSS Guard/4.8.1 RSS Guard/4.8.1" "www.opennet.ru"
83.40.*.* - - [22/Mar/2025:04:00:12 +0500] GET /articles/robots.txt HTTP/1.1 "404" 9027 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" "opennet.ru"
83.40.*.** - - [22/Mar/2025:04:08:30 +0500] GET /articles/robots.txt HTTP/1.1 "404" 9027 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" "opennet.ru"
76.185.*.* - - [21/Mar/2025:06:31:30 +0500] GET /robots.txt HTTP/1.1 "304" 0 "
-" "Mozilla/5.0 (X11; Linux x86_64; rv:136.0) Gecko/20100101 Firefox/136.0" "www
.opennet.ru"
83.40.*.* - - [22/Mar/2025:05:20:38 +0500] GET /robots.txt HTTP/1.1 "302" 222 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)" "opennet.ru"

Первые три запросы по левым файловым путям, 76.185.*.* контент не изменился после If-Modified-Since, а 83.40.*.* перенаправлеие заблокированного бота.

Из других кодов ошибок встречаются только 301, которые выводятся для перенаправления на HTTPS при обращении по HTTP.

Как вариант, может опечатались и вместо robots.txt ввели robot.txt, файл статичный пропасть ему некуда.


По поводу хитрых ИИ-ботов, то с ними основная проблема в том, что их невозможно блокировать через rate limit. Я вначале думал, что это DDoS,  за пару часов прилетели запросы со 120 _тысяч_ IP из китайских подсетей. С одого IP только по 1-3 запроса, не больше. При этом они целенаравленно индексировали очень редко запрашиваемы страницы (перебирали по одному сообщения форума в режиме https://www.opennet.ru/cgi-bin/openforum/vsluhboard.cgi?az=s...). User Agent был типового нового Chrome.
Но они правильно не вставляли Referer, к чему и удалось прицепиться для блокировки.


Ответить | Правка | Наверх | Cообщить модератору
Родитель: #156 Ответы: #189, #216

178. Сообщение от YetAnotherOnanym (ok), 22-Мрт-25, 09:37   +/
> В результате бот просто слал десятками тычяч запросы в холостую

Так тебе и надо.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #13

179. Сообщение от нах. (?), 22-Мрт-25, 09:47   +/
> Так с этого и надо было начинать.

А, ты про яндекс? Я-то думал - про ботов современных. Этих заблочишь по агенту - поменяют агент, все ж во имя великой цели.

Различать по агентам было незачем - их в netstat было отлично видно, дальше можно не ходить.

> Хотя непонятно, почему вы не заблочили по адресам из asn.

потому что мы не собирались блочить яндекс, мы собирались что-то сделать с тем что он создает неприемлемую нагрузку на наши серверы.

А вот реакция этих долбанавтов на сотни тыщ висящих коннектов наращиванием долбежки - "решил проблему, пошел кофе пить" очень показательная. Упорству (или уп0р0тости) тоже можно удивиться.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #166

180. Сообщение от YetAnotherOnanym (ok), 22-Мрт-25, 09:51   +/
Всё они правильно используют.
Контент сайта - интеллектуальная собственность его владельца. Он определяет, на каких условиях позволить тебе с этим контентом ознакомиться. Некоторые сайты при первом посещении (при отсутствии у браузера печеньки) для этого выкатывают оверлей с изложением своих условий. Другим достаточно неких общепринятых правил, соблюдения которых они ожидают от посетителя. Среди таких правил - учёт содержимого robots.txt при индексации.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #173 Ответы: #191, #215

181. Сообщение от YetAnotherOnanym (ok), 22-Мрт-25, 09:59   +2 +/
> отдать контент дешевле

Ньет, Молотофф. Когда я тебя десятки миллионов страниц общим весом в десятки и сотни гигабайт, причём они не с диска читаются и выстреливаются, а генерятся на лету с дёрганьем либ и обращениями к БД, то проще после десятка запросов заблочить IP (или подсетку, или автономку), чем сутки отдавать всё, что нажито непосильным трудом.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #64

182. Сообщение от YetAnotherOnanym (ok), 22-Мрт-25, 10:20   +/
> Через ИИ получается эффективнее.

Не обольщайся, это ненадолго.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #12

183. Сообщение от YetAnotherOnanym (ok), 22-Мрт-25, 10:22   +/
> А то что гит можно уронить просто обходом ссылок - это проблема гита.

Которую они переложат на ботовладельца простым баном.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #43 Ответы: #220

184. Сообщение от Аноним (184), 22-Мрт-25, 10:36   +/
libmaxmind

Он плохой, но подкроватному хостингу плевать на это.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #14

185. Сообщение от blkkid (?), 22-Мрт-25, 11:05   +/
они просто обычные юзерагенты после бана честным отдают

были кроулер алибаба, стал Microsoft Edge и Firefox

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #49 Ответы: #188

186. Сообщение от Аноним (186), 22-Мрт-25, 11:09   +/
> И не понятно как решать проблему? Код же не закроешь.

Как раз понятно - не платите им. Сами загнутся.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #55

187. Сообщение от Аноним (186), 22-Мрт-25, 11:11   +/
То, о чем тут сообщили, называется ddos, и неважно, какими средствами он организован. Источник при этом известен с точностью до ф.и.о. заказчика. В чем проблема-то прикрыть злодеев? Реально прикрыть.
Ответить | Правка | Наверх | Cообщить модератору
Ответы: #190

188. Сообщение от vitalif (ok), 22-Мрт-25, 11:20   +/
таких тоже пару забанил, нехрен с винды всю историю коммитов клона репы qemu читать
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #185

189. Сообщение от нах. (?), 22-Мрт-25, 12:31   +/
ну как бы картинка в вебархиве - как бы намекает нам что что-то неладно.
Может, конечно, неладно с самим архивом.

А, кстати, а может вебархив теперь - "заблокированный бот"? Потому что я - таки да.
(не с этого адреса, разумеется, иначе бы и написать ничего не мог)

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #176 Ответы: #202

190. Сообщение от нах. (?), 22-Мрт-25, 12:34   +/
> То, о чем тут сообщили, называется ddos, и неважно, какими средствами он
> организован. Источник при этом известен с точностью до ф.и.о. заказчика. В
> чем проблема-то прикрыть злодеев? Реально прикрыть.

И вот чо ты мне сделаешь, я вообще в Бей-Жине?!
(за мат извени)

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #187 Ответы: #195

191. Сообщение от Аноним (173), 22-Мрт-25, 13:55   +/
Швятая интеллектуальная собственность. Общепринятое правило поведения другое, что если чего-то выложено в открытый доступ, то его можно при желании сохранить себе на комп. Не хочешь, чтобы сохраняли - не выкладывай открыто. Но не paywall, когда значит на халяву хотим проиндексироваться, но чтобы юзеры платили. Нужно чтобы находили платный контент - выкладывай реферат к нему для открытого доступа, а не хитропопствуй.

Слишком большая нагрузка на сайт - помоги скачивать, например, торрентом дамп раздавай. Норма приличия тут  - не класть канал сервера сайта потоком запросов, задержка в 1 сек. более-менее нормальная.  

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #180 Ответы: #204

192. Сообщение от Аноним (184), 22-Мрт-25, 14:29   +/
Bing вполне пристоен.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #158 Ответы: #201

194. Сообщение от Аноним (194), 22-Мрт-25, 14:40   +/
Как бывший инсайдер, занимавшийся сопровождением индексирующего бота 10 лет назад, заявляю, что игнорирование robots.txt и маскировка под браузеры - суровая необходимость.

Когда мы играли по правилам, (т.е. использовали свой user-agent, читали robots.txt и не лезли куда запрещено) мы периодически сталкивались с автоматизированными жалобами от всяких систем защиты от ботов. Это приводило к тому, что наши дроплеты на DigitalOcean по несколько раз в день принудительно останавливались сотрудниками DigitalOcean.

Экспериментально было выяснено, что на некоторых сайтах такая жалоба, идентичная той, которую получали сотрудники DigitalOcean, генерируется и направляется на email из whois-записи через несколько секунд (т.е. явно астоматически) после любого запроса к robots.txt, даже если это единственный запрос к этому домену с тестовой машины. При этом ходить по любым другим страницам с браузерным user-agent'ом дает.

Поэтому мы приняли такое неэтичное решение мимикрировать под браузеры и игнорировать robots.txt. Возможно, более правильным решением был бы переезд на абузоустойчивый хостинг. В защиту DigitalOcean: там прекрасно понимали абсурдность происходящего, но были вынуждены придерживаться процедуры реагирования на жалобы.

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #196

195. Сообщение от Аноним (184), 22-Мрт-25, 14:50   +/
В Бей-Жине вполне приличное законодательство по защите от киберпреступлений. И оно вполне работает, если его прочитать и подать в суд.
Просто понятно что, для этого надо нанять китайского юриста и составить исковое заявление на китайском.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #190 Ответы: #207

196. Сообщение от нах. (?), 22-Мрт-25, 14:57   +/
> В защиту DigitalOcean: там прекрасно понимали абсурдность происходящего,
> но были вынуждены придерживаться процедуры реагирования на жалобы.

процедура дана им Г-дом нашим и обсуждаться даже не должна?

В защиту низовых сотрудников разьве что. Руководящие ими индусы никакой защиты не заслуживают, и вероятно таки да - стоило поискать хостинг на три копейки дороже, еще не раз бы пригодилось.

(я в свое время не просто молча удалял такие автоабьюзы, а навечно перенаправлял From в автопомойку, автоматически отвечавшую что автоматические абьюзы здесь только автоудаляются и используйте другой адрес если вы человек)


Ответить | Правка | Наверх | Cообщить модератору
Родитель: #194

197. Сообщение от Аноним (197), 22-Мрт-25, 14:59   +/
https://nginx.org/ru/docs/http/ngx_http_geoip_module.html
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #14

198. Сообщение от Аноним (197), 22-Мрт-25, 15:01   +/
В смысле — потом?
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #120

199. Сообщение от Аноним (199), 22-Мрт-25, 15:02   +/
> Современные поисковики настолько испортились

Только какое отношение к этому имеют сайты? Дудосят *их*, а не испорченные поисковики.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #12

200. Сообщение от Аноним (13), 22-Мрт-25, 15:35   +/
>Это общая проблема

Это не проблема. Это дуэль двух вхтёров, только один из них сидит на стороне клиента в браузере, а второй - на стророне сервера

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #172

201. Сообщение от нах. (?), 22-Мрт-25, 16:37   +/
> Bing вполне пристоен.

он внеэкономический - "у нас есть свой поиск дома!"

А все попытки сделать коммерческую альтернативу - умерли не родившись. Причины очевидны, но непонятно когда ж теперь сдохнет это ИИ, учитывая что им хранение ненужного обходится еще и значительно дороже.

Должны ж горе-инвесторы когда-то и спросить за свои бабки?!

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #192

202. Сообщение от Maxim Chirkov (ok), 22-Мрт-25, 18:04   +/
> ну как бы картинка в вебархиве - как бы намекает нам что что-то неладно.
> Может, конечно, неладно с самим архивом.

Глянул в статистике archive.org запросы /robots.txt на некотрых крупных сайтах - картина та же, в марте только в отдельные дни загрузки. По индексным страницам такого провала нет, даже наоборот чаще стал индексировать.

> А, кстати, а может вебархив теперь - "заблокированный бот"? Потому что я - таки да.

В форум не даёт отправлять или вообще на сайт не пускает? В форум автоблокирует на три дня, но я для вашего ника не замечал подобных блокировок в отчётах.
Если на сайт не пускает - что-то явно не так, там очень сильно нужно постараться, чтобы под такую блокировку влететь - нужно чтобы десятки тысяч запросов за небольшой промежуток времени были отправлены и LA на серевере оказался выше определённого порога.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #189 Ответы: #203

203. Сообщение от нах. (?), 22-Мрт-25, 19:04   +/
> В форум не даёт отправлять или вообще на сайт не пускает?

В форум, выводит очередную бодягу про отсутствие рефереров и чегототам.
У того хоста динамический нат, который на каждый запрос выдает новый адрес, причем из разных блоков даже, что раньше периодически приводило к проблемам с капчей, а теперь сразу выкидывает табличку что ты бот и иди лесом.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #202 Ответы: #208

204. Сообщение от YetAnotherOnanym (ok), 22-Мрт-25, 19:32   +/
> Общепринятое правило поведения другое

Гы... ты решил, что можешь диктовать правила владельцу ресурса?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #191 Ответы: #211

205. Сообщение от Анон1110м (?), 22-Мрт-25, 19:55   +/
Части проблем можно было бы избежать, если бы оно всё не было настолько вэбоцентристским. Долой HTML–странички! Долой сайты! Долой JavaScript!
Ответить | Правка | Наверх | Cообщить модератору

206. Сообщение от Анон1110м (?), 22-Мрт-25, 20:31   +/
Ещё более правильное — выкладывать матералы в виде изначально предназначеном для просмотра у себя на компе. Например, CHM или архив с HTML–страничками.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #30

207. Сообщение от _ (??), 22-Мрт-25, 23:21   +/
Удачи! :) Ты всегда там лаовэй ==> виновен :)
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #195 Ответы: #218

208. Сообщение от Maxim Chirkov (ok), 22-Мрт-25, 23:46   +/
Выдаёт "ОШИБКА ПУБЛИКАЦИИ (сработала защита от попыток осуществления нештатных операций с форумом)" и дальше советы про Referer?  Или просто Forbidden?

Как давно это было? По идее последние месяцы из-за борьбы с индексирующими ботами до "ОШИБКА ПУБЛИКАЦИИ" при запросе без Referer вообще вообще доходить не должно, так как будет выдавать Forbidden ещё при запросе формы заполнения сообщения, не доходя до обаботки отправленной информации. Но я несколько раз отключал такое поведение, потом возвращал, когда боты опять навиливались.

Посмотрел по логу, в феврале было несколько попыток отправок без Referer с Firefox. Почему Firefox в этом случае не передаёт Referer не понятно. Он может это делать при попытке отправки формы, открытой по HTTPS, на обработчик, используя HTTP, или если выставлен network.http.sendRefererHeader=0 или когда какое-то особо анонимизирующее дополнеие стоит.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #203

209. Сообщение от Аноним (209), 23-Мрт-25, 01:51   +/
>Beat the DarkSouls boss on 512x512 window on WASM

А в это я бы поиграл. Есть может нечто подобное, может ради фана делал кто? Не столько капча, а как мини игра в вебе, на тему.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #59

210. Сообщение от Аноним (210), 23-Мрт-25, 03:08   +/
Корпорашки как и чады только пальцы крючат да брюльками брякают, на деле там унылее чем у супер верженов
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #62

211. Сообщение от Аноним (211), 23-Мрт-25, 06:15   +1 +/
Диктовать? Это же у них проблемы с нагрузкой, а не у меня. Ну вот пусть сами и разбираются.

Ресурс в интернете? В интернете! Я - пользователь. А чем я его читаю и куда сохраняю их парить не должно.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #204 Ответы: #212

212. Сообщение от YetAnotherOnanym (ok), 23-Мрт-25, 10:32   +/
Их парит нагрузка, и если у них с ней проблемы - решать их они будут в первую очередь за счёт таких вот качальщиков. И скажи спасибо, если тебя просто забанят, а не напихают тебе отравленного контента.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #211 Ответы: #213

213. Сообщение от Аноним (211), 23-Мрт-25, 11:53   +/
Ну бан это такое. Отравленный контент не встречал, но буду качать x2, и сравнивать, для детекта.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #212

214. Сообщение от Аноним (214), 23-Мрт-25, 17:11   +/
Проблема в том, что робот не делает git clone. Он просто хреначит условный Gitlab / Gitea HTTP-запросами всюду, куда может дотянуться.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #164

215. Сообщение от Аноним (215), 23-Мрт-25, 18:05   +/
Реальность такова, что владелец - это делец, который взял у кого-то денег (см. историю спасения Хабра, например), на них арендовал чужой сервер, купил готовый сайт у фрилансера и "наполняет" его контентом коллективного авторства. Такой вот собственник. Вахтер на входе. Но гонору..
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #180

216. Сообщение от Аноним (215), 23-Мрт-25, 18:26   +/
> перебирали по одному сообщения форума

Даже боюсь представить, чему может научиться ИИ, читая сообщения на Опеннете. Мало того, что он сразу станет самоуверенным экспертом во всех вопросах, так ещё и, не приведи, подхватит вирус человеконенавистничества. Возможно, мы станем не просто свидетелями Конца Человечества, но ещё и немного сооучастниками.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #176

217. Сообщение от Анонимм (??), 23-Мрт-25, 20:43   +/
Отлично! Но я всё же жду большего. Жду, когда ИИ начнёт хоронить экономику. По-настоящему.
Ответить | Правка | Наверх | Cообщить модератору

218. Сообщение от Анонимм (??), 23-Мрт-25, 20:54   +/
И ты сам там лао-мао-цзы и тебя сольют по первой же твоей неудобности.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #207

219. Сообщение от IdeaFix (ok), 23-Мрт-25, 21:36   +/
Таки да, они возьмут всё, но юзерагент не изменят. ЧСВ не позволит.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #50

220. Сообщение от IdeaFix (ok), 23-Мрт-25, 21:37   +/
>> А то что гит можно уронить просто обходом ссылок - это проблема гита.
> Которую они переложат на ботовладельца простым баном.

Ну пока только стоны гитоюзеров о том что банить - это прям работа.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #183

221. Сообщение от Аноним (221), 24-Мрт-25, 11:00   +/
Проблема не в том что все ринулись "читать" а в том что сервера у этих мега проектов уровня третьего пня.
Не хотят чтобы читали? Сделали бы вход только по паспорту как это сейчас модно. Но не сделали.
Ответить | Правка | Наверх | Cообщить модератору

222. Сообщение от Аноним (222), 24-Мрт-25, 11:33   +/
>"насоздают сайтов со статьями полностью сгенерированными нейросетями. "

На которых будут учиться другие нейросети.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #120

223. Сообщение от Аноним (223), 24-Мрт-25, 14:48   +/
Расшифруй.
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #106

224. Сообщение от Аноним (223), 24-Мрт-25, 15:23   +/
А что было в оригинале?
Ответить | Правка | Наверх | Cообщить модератору
Родитель: #169


Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2025 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру