forum.opennet.ru - "анализ структуры страницы" (4)

форумы

помощь

поиск

регистрация

майллист

вход/выход

слежка

"анализ структуры страницы"

Форумы WEB технологии (Public)
Вариант для распечатки		Пред. тема \| След. тема
Изначальное сообщение		[Проследить за развитием треда]

"анализ структуры страницы"
Сообщение от FarID (ok) on 28-Сен-07, 17:03
существуют ли алгоритмы анализа страницы? а именно, скажем, выделение рекламы или блока новостей из страницы
Высказать мнение \| Ответить \| Правка \| Наверх \| Cообщить модератору

Оглавление

анализ структуры страницы, tx2, 17:33 , 28-Сен-07, (1)

анализ структуры страницы, FarID, 17:39 , 28-Сен-07, (2)

анализ структуры страницы, tx2, 21:54 , 28-Сен-07, (3)

анализ структуры страницы, FarID, 10:28 , 29-Сен-07, (4)

Сообщения по теме [Сортировка по времени | RSS]

1. "анализ структуры страницы"

Сообщение от tx2 on 28-Сен-07, 17:33

так понимаю что страница - это хтмл??
универсальные? гыгы =)
если нужно просто выделить какойто блок со страницы известной структуры...
и разобрать его на составные части, для последующей обработки:
это делается например с помощью регулярных выражений.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

2. "анализ структуры страницы"

Сообщение от FarID (ok) on 28-Сен-07, 17:39

>так понимаю что страница - это хтмл??
да
>универсальные? гыгы =)
именно универсальные!
>если нужно просто выделить какойто блок со страницы известной структуры...
>и разобрать его на составные части, для последующей обработки:
>это делается например с помощью регулярных выражений.
в том то и дело что когда известна структура дальше задача сводится к уровню начальных классов детсада
вопрос именно о существовании алгоритмов анализа страницы и разделения ее на логические блоки
к примеру на этой странице сверху и снизу реклама а посередине тематика

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

3. "анализ структуры страницы"

Сообщение от tx2 on 28-Сен-07, 21:54

в целом - нет ничего невозможного...
ну... скажем в случае универсальных - задача сравнима с задачей разбора естественного языка...
нужны всетаки какието признаки, сформулированные из вне. (слова ключевые, еще что-то)...
ну вот например такая мысль:
например нужно выделить области с рекламой на сайте.
есть некотрые признаки, например ключевые слова banner, ad, реклама...
также есть некотрые признаки других областей: новости, меню и подобное..
ищим эти признаки, составляем список всех включений их в документ.
если близко друг от друга(по тексту/DOM) найдено несколько объектов, пологаем что они принадлежат одной структурной единице - блоку рекламы... пытаемся поднятся выше по иерархии и захватить кусок включающий максимум необходимого нам признака, но при этом - минимум лишнего.
или так:
допустим нужно выделить посты на блоге...
каждому посту, независимо от блога характерен набор элементов:
заголовок, дата, автор, содержание, кнопка "читать дальше", кнопка "комментарии"...
такое есть почти везде...
ищим такого рода повторяющиеся структуры в тексте документа... находим и также пытаемся для каждой найти такую иерархическую рамку, которая включила бы максимум нужного, но при этом не захватила бы ненужного...
вообще открытых реализаций таких вещей я никогда не видел,
и думаю это стоит очень солидных денег...
и это фишка таких контор как гугла и яньдексь
встерчный вопрос: где такая задача встала?

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

4. "анализ структуры страницы"

Сообщение от FarID (ok) on 29-Сен-07, 10:28

Спасибо за интересные мысли
>встерчный вопрос: где такая задача встала?
я сам задался этой темой когда очередной раз начал изучать структуру сайта без rss чтобы сделать импорт новостей
меня интересует наличие подобных разработок
хотелось бы хотелось развить эту тему

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

Архив | Удалить

Индекс форумов | Темы | Пред. тема | След. тема

Оцените тред (1=ужас, 5=супер)? [ 1 | 2 | 3 | 4 | 5 ] [Рекомендовать для помещения в FAQ]

Партнёры:

Хостинг:

Закладки на сайте
Проследить за страницей

Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру

1. "анализ структуры страницы"
Сообщение от tx2 on 28-Сен-07, 17:33
так понимаю что страница - это хтмл?? универсальные? гыгы =) если нужно просто выделить какойто блок со страницы известной структуры... и разобрать его на составные части, для последующей обработки: это делается например с помощью регулярных выражений.
Высказать мнение \| Ответить \| Правка \| Наверх \| Cообщить модератору


	2. "анализ структуры страницы"
	Сообщение от FarID (ok) on 28-Сен-07, 17:39
	>так понимаю что страница - это хтмл?? да >универсальные? гыгы =) именно универсальные! >если нужно просто выделить какойто блок со страницы известной структуры... >и разобрать его на составные части, для последующей обработки: >это делается например с помощью регулярных выражений. в том то и дело что когда известна структура дальше задача сводится к уровню начальных классов детсада вопрос именно о существовании алгоритмов анализа страницы и разделения ее на логические блоки к примеру на этой странице сверху и снизу реклама а посередине тематика
	Высказать мнение \| Ответить \| Правка \| Наверх \| Cообщить модератору


	3. "анализ структуры страницы"
	Сообщение от tx2 on 28-Сен-07, 21:54
	в целом - нет ничего невозможного... ну... скажем в случае универсальных - задача сравнима с задачей разбора естественного языка... нужны всетаки какието признаки, сформулированные из вне. (слова ключевые, еще что-то)... ну вот например такая мысль: например нужно выделить области с рекламой на сайте. есть некотрые признаки, например ключевые слова banner, ad, реклама... также есть некотрые признаки других областей: новости, меню и подобное.. ищим эти признаки, составляем список всех включений их в документ. если близко друг от друга(по тексту/DOM) найдено несколько объектов, пологаем что они принадлежат одной структурной единице - блоку рекламы... пытаемся поднятся выше по иерархии и захватить кусок включающий максимум необходимого нам признака, но при этом - минимум лишнего. или так: допустим нужно выделить посты на блоге... каждому посту, независимо от блога характерен набор элементов: заголовок, дата, автор, содержание, кнопка "читать дальше", кнопка "комментарии"... такое есть почти везде... ищим такого рода повторяющиеся структуры в тексте документа... находим и также пытаемся для каждой найти такую иерархическую рамку, которая включила бы максимум нужного, но при этом не захватила бы ненужного... вообще открытых реализаций таких вещей я никогда не видел, и думаю это стоит очень солидных денег... и это фишка таких контор как гугла и яньдексь встерчный вопрос: где такая задача встала?
	Высказать мнение \| Ответить \| Правка \| Наверх \| Cообщить модератору


	4. "анализ структуры страницы"
	Сообщение от FarID (ok) on 29-Сен-07, 10:28
	Спасибо за интересные мысли >встерчный вопрос: где такая задача встала? я сам задался этой темой когда очередной раз начал изучать структуру сайта без rss чтобы сделать импорт новостей меня интересует наличие подобных разработок хотелось бы хотелось развить эту тему
	Высказать мнение \| Ответить \| Правка \| Наверх \| Cообщить модератору

Архив \| Удалить	Индекс форумов \| Темы \| Пред. тема \| След. тема
Оцените тред (1=ужас, 5=супер)? [ 1 \| 2 \| 3 \| 4 \| 5 ] [Рекомендовать для помещения в FAQ]