ListRules/AnatolBazjukin: различия между версиями

Материал из ALT Linux Wiki
Нет описания правки
 
(не показаны 2 промежуточные версии 2 участников)
Строка 26: Строка 26:
Низкое качество классификации связано с отсутствием минимальной стандартизации
Низкое качество классификации связано с отсутствием минимальной стандартизации
вопросов в Subject. Ну что за тема — «вопрос от новичка» (но в
вопросов в Subject. Ну что за тема — «вопрос от новичка» (но в
тексте может быть вполне разумные вопросы).
тексте может быть вполне разумные вопросы)?


Предложения:
Предложения:
* один вопрос — один тред
* один вопрос — один тред
* в заголовке указание пакета, устройства, сервиса, то есть некие ключевые слова, а не эмоции и паразитные слова. Это менее строгое требование, чем цитируемое предложение, но оно легче реализуемо.
* в заголовке указание пакета, устройства, сервиса, то есть некие ключевые слова, а не эмоции и не слова-паразиты. Это менее строгое требование, чем цитируемое предложение, но оно легче реализуемо.


Раскладывание тредов по папочкам очень увлекательное занятие, но опыт
Раскладывание тредов по папочкам очень увлекательное занятие, но опыт
Строка 40: Строка 40:




{{Category navigation|title=ListRules|category=ListRules}}
{{Category navigation|title=ListRules|category=ListRules|sortkey={{SUBPAGENAME}}}}

Текущая версия от 19:58, 24 июня 2013


Классификация трафика

Date: Fri, 27 May 2005 02:05:50 +0400
From: "Anatol B. Bazjukin"
To: <community@>
Subject: Re: [Comm] Предложение: Тематический классификатор в поле <Тема>

Hello spider,

Thursday, May 26, 2005, 10:02:21 PM, you wrote:

s> Предложение: построить классификатор тематики и указывать
s> сайн класса в сабже. Например,
s> [mmedia]Не работает xmms:-(
s> [devel]А где лежит qmake
s> и т. п.
К сожалению, это пересекающиеся множества, если не по Subject, то по Text точно.

Я в одном из тредов приводил частотный анализ слов в Subject для [Comm]. Всего выделено 8958 слов, большая часть которых встречаются редко. 8607 реже 10 раз. Низкое качество классификации связано с отсутствием минимальной стандартизации вопросов в Subject. Ну что за тема — «вопрос от новичка» (но в тексте может быть вполне разумные вопросы)?

Предложения:

  • один вопрос — один тред
  • в заголовке указание пакета, устройства, сервиса, то есть некие ключевые слова, а не эмоции и не слова-паразиты. Это менее строгое требование, чем цитируемое предложение, но оно легче реализуемо.

Раскладывание тредов по папочкам очень увлекательное занятие, но опыт показывает, что проще свалить все в одну и выполнить search (google - ау..) У меня на мыше с папкой 70 тыс. писем поиск занимает максимум 5 минут в самом тяжелом случае. И недаром в offtopic’е разгорелось соревнование фирм в создании систем локального поиска.