ListRules/AnatolBazjukin: различия между версиями
Ilis (обсуждение | вклад) Нет описания правки |
|||
(не показаны 3 промежуточные версии 2 участников) | |||
Строка 1: | Строка 1: | ||
<!-- {{Шаблон:Викифицировать}} --> | <!-- {{Шаблон:Викифицировать}} --> | ||
<onlyinclude> | |||
== Классификация трафика == | == Классификация трафика == | ||
<pre> | <pre> | ||
Строка 26: | Строка 26: | ||
Низкое качество классификации связано с отсутствием минимальной стандартизации | Низкое качество классификации связано с отсутствием минимальной стандартизации | ||
вопросов в Subject. Ну что за тема — «вопрос от новичка» (но в | вопросов в Subject. Ну что за тема — «вопрос от новичка» (но в | ||
тексте может быть вполне разумные вопросы) | тексте может быть вполне разумные вопросы)? | ||
Предложения: | Предложения: | ||
* один вопрос — один тред | * один вопрос — один тред | ||
* в заголовке указание пакета, устройства, сервиса, то есть некие ключевые слова, а не эмоции и | * в заголовке указание пакета, устройства, сервиса, то есть некие ключевые слова, а не эмоции и не слова-паразиты. Это менее строгое требование, чем цитируемое предложение, но оно легче реализуемо. | ||
Раскладывание тредов по папочкам очень увлекательное занятие, но опыт | Раскладывание тредов по папочкам очень увлекательное занятие, но опыт | ||
Строка 37: | Строка 37: | ||
минут в самом тяжелом случае. И недаром в offtopic’е разгорелось | минут в самом тяжелом случае. И недаром в offtopic’е разгорелось | ||
соревнование фирм в создании систем локального поиска. | соревнование фирм в создании систем локального поиска. | ||
</onlyinclude> | |||
{{Category navigation|title=ListRules|category=ListRules|sortkey={{SUBPAGENAME}}}} |
Текущая версия от 19:58, 24 июня 2013
Классификация трафика
Date: Fri, 27 May 2005 02:05:50 +0400 From: "Anatol B. Bazjukin" To: <community@> Subject: Re: [Comm] Предложение: Тематический классификатор в поле <Тема>
Hello spider,
Thursday, May 26, 2005, 10:02:21 PM, you wrote:
s> Предложение: построить классификатор тематики и указывать
s> сайн класса в сабже. Например,
s> [mmedia]Не работает xmms:-(
s> [devel]А где лежит qmake
s> и т. п.
К сожалению, это пересекающиеся множества, если не по Subject, то по
Text точно.
Я в одном из тредов приводил частотный анализ слов в Subject для [Comm]. Всего выделено 8958 слов, большая часть которых встречаются редко. 8607 реже 10 раз. Низкое качество классификации связано с отсутствием минимальной стандартизации вопросов в Subject. Ну что за тема — «вопрос от новичка» (но в тексте может быть вполне разумные вопросы)?
Предложения:
- один вопрос — один тред
- в заголовке указание пакета, устройства, сервиса, то есть некие ключевые слова, а не эмоции и не слова-паразиты. Это менее строгое требование, чем цитируемое предложение, но оно легче реализуемо.
Раскладывание тредов по папочкам очень увлекательное занятие, но опыт показывает, что проще свалить все в одну и выполнить search (google - ау..) У меня на мыше с папкой 70 тыс. писем поиск занимает максимум 5 минут в самом тяжелом случае. И недаром в offtopic’е разгорелось соревнование фирм в создании систем локального поиска.