ListRules/AnatolBazjukin: различия между версиями

Версия от 16:39, 14 ноября 2008

Классификация трафика

Date: Fri, 27 May 2005 02:05:50 +0400
From: "Anatol B. Bazjukin"
To: <community@>
Subject: Re: [Comm] Предложение: Тематический классификатор в поле <Тема>

Hello spider,

Thursday, May 26, 2005, 10:02:21 PM, you wrote:

s> Предложение: построить классификатор тематики и указывать
s> сайн класса в сабже. Например,
s> [mmedia]Не работает xmms:-(
s> [devel]А где лежит qmake
s> и т. п.
К сожалению, это пересекающиеся множества, если не по Subject, то по Text точно.

Я в одном из тредов приводил частотный анализ слов в Subject для [Comm]. Всего выделено 8958 слов, большая часть которых встречаются редко. 8607 реже 10 раз. Низкое качество классификации связано с отсутствием минимальной стандартизации вопросов в Subject. Ну что за тема — «вопрос от новичка» (но в тексте может быть вполне разумные вопросы).

Предложения:

один вопрос — один тред
в заголовке указание пакета, устройства, сервиса, то есть некие ключевые слова, а не эмоции и паразитные слова. Это менее строгое требование, чем цитируемое предложение, но оно легче реализуемо.

Раскладывание тредов по папочкам очень увлекательное занятие, но опыт показывает, что проще свалить все в одну и выполнить search (google - ау..) У меня на мыше с папкой 70 тыс. писем поиск занимает максимум 5 минут в самом тяжелом случае. И недаром в offtopic’е разгорелось соревнование фирм в создании систем локального поиска.

@@ Строка 1: / Строка 1: @@
-{{Шаблон:Викифицировать}}
+<!-- {{Шаблон:Викифицировать}} -->
+== Классификация трафика ==
 <pre>
 Date: Fri, 27 May 2005 02:05:50 +0400
@@ Строка 11: / Строка 13: @@
 Thursday, May 26, 2005, 10:02:21 PM, you wrote:
-s> Предложение: построить классификатор тематики и указывать<br>
+s> Предложение: построить классификатор тематики и указывать<br />
-s> сайн класса в сабже. Например,<br>
+s> сайн класса в сабже. Например,<br />
-s> [mmedia]Не работает xmms:-(<br>
+s> [mmedia]Не работает xmms:-(<br />
-s> [devel]А где лежит qmake<br>
+s> [devel]А где лежит qmake<br />
-s> и т.п.<br>
+s> и т. п.<br />
 К сожалению, это пересекающиеся множества, если не по Subject, то по
 Text точно.
@@ Строка 23: / Строка 25: @@
 реже 10 раз.
 Низкое качество классификации связано с отсутствием минимальной стандартизации
-вопросов в Subject. Ну что за тема -- "вопрос от новичка" (но в
+вопросов в Subject. Ну что за тема — «вопрос от новичка» (но в
 тексте может быть вполне разумные вопросы).
 Предложения:
-* один вопрос -- один тред
+* один вопрос — один тред
 * в заголовке указание пакета, устройства, сервиса, то есть некие ключевые слова, а не эмоции и паразитные слова. Это менее строгое требование, чем цитируемое предложение, но оно легче реализуемо.
@@ Строка 33: / Строка 35: @@
 показывает, что проще свалить все в одну и выполнить search (google -
 ау..) У меня на мыше с папкой 70 тыс. писем поиск занимает максимум 5
-минут в самом тяжелом случае. И недаром в offtopic'е разгорелось
+минут в самом тяжелом случае. И недаром в offtopic’е разгорелось
 соревнование фирм в создании систем локального поиска.