ListRules/AnatolBazjukin: различия между версиями

Материал из ALT Linux Wiki
м (list marker fix)
 
(не показаны 4 промежуточные версии 2 участников)
Строка 1: Строка 1:
{{Шаблон:Викифицировать}}
<!-- {{Шаблон:Викифицировать}} -->
<onlyinclude>
== Классификация трафика ==
<pre>
<pre>
Date: Fri, 27 May 2005 02:05:50 +0400
Date: Fri, 27 May 2005 02:05:50 +0400
Строка 11: Строка 13:
Thursday, May 26, 2005, 10:02:21 PM, you wrote:
Thursday, May 26, 2005, 10:02:21 PM, you wrote:


s> Предложение: построить классификатор тематики и указывать<br>
s> Предложение: построить классификатор тематики и указывать<br />
s> сайн класса в сабже. Например,<br>
s> сайн класса в сабже. Например,<br />
s> [mmedia]Не работает xmms:-(<br>
s> [mmedia]Не работает xmms:-(<br />
s> [devel]А где лежит qmake<br>
s> [devel]А где лежит qmake<br />
s> и т.п.<br>
s> и т. п.<br />
К сожалению, это пересекающиеся множества, если не по Subject, то по
К сожалению, это пересекающиеся множества, если не по Subject, то по
Text точно.
Text точно.
Строка 23: Строка 25:
8607 реже 10 раз.
8607 реже 10 раз.
Низкое качество классификации связано с отсутствием минимальной стандартизации
Низкое качество классификации связано с отсутствием минимальной стандартизации
вопросов в Subject. Ну что за тема -- "вопрос от новичка" (но в
вопросов в Subject. Ну что за тема — «вопрос от новичка» (но в
тексте может быть вполне разумные вопросы).
тексте может быть вполне разумные вопросы)?


Предложения:
Предложения:
* один вопрос -- один тред
* один вопрос — один тред
* в заголовке указание пакета, устройства, сервиса, то есть некие ключевые слова, а не эмоции и паразитные слова. Это менее строгое требование, чем цитируемое предложение, но оно легче реализуемо.
* в заголовке указание пакета, устройства, сервиса, то есть некие ключевые слова, а не эмоции и не слова-паразиты. Это менее строгое требование, чем цитируемое предложение, но оно легче реализуемо.


Раскладывание тредов по папочкам очень увлекательное занятие, но опыт
Раскладывание тредов по папочкам очень увлекательное занятие, но опыт
показывает, что проще свалить все в одну и выполнить search (google -
показывает, что проще свалить все в одну и выполнить search (google -
ау..) У меня на мыше с папкой 70 тыс. писем поиск занимает максимум 5
ау..) У меня на мыше с папкой 70 тыс. писем поиск занимает максимум 5
минут в самом тяжелом случае. И недаром в offtopic'е разгорелось
минут в самом тяжелом случае. И недаром в offtopic’е разгорелось
соревнование фирм в создании систем локального поиска.
соревнование фирм в создании систем локального поиска.
</onlyinclude>
{{Category navigation|title=ListRules|category=ListRules|sortkey={{SUBPAGENAME}}}}

Текущая версия от 19:58, 24 июня 2013


Классификация трафика

Date: Fri, 27 May 2005 02:05:50 +0400
From: "Anatol B. Bazjukin"
To: <community@>
Subject: Re: [Comm] Предложение: Тематический классификатор в поле <Тема>

Hello spider,

Thursday, May 26, 2005, 10:02:21 PM, you wrote:

s> Предложение: построить классификатор тематики и указывать
s> сайн класса в сабже. Например,
s> [mmedia]Не работает xmms:-(
s> [devel]А где лежит qmake
s> и т. п.
К сожалению, это пересекающиеся множества, если не по Subject, то по Text точно.

Я в одном из тредов приводил частотный анализ слов в Subject для [Comm]. Всего выделено 8958 слов, большая часть которых встречаются редко. 8607 реже 10 раз. Низкое качество классификации связано с отсутствием минимальной стандартизации вопросов в Subject. Ну что за тема — «вопрос от новичка» (но в тексте может быть вполне разумные вопросы)?

Предложения:

  • один вопрос — один тред
  • в заголовке указание пакета, устройства, сервиса, то есть некие ключевые слова, а не эмоции и не слова-паразиты. Это менее строгое требование, чем цитируемое предложение, но оно легче реализуемо.

Раскладывание тредов по папочкам очень увлекательное занятие, но опыт показывает, что проще свалить все в одну и выполнить search (google - ау..) У меня на мыше с папкой 70 тыс. писем поиск занимает максимум 5 минут в самом тяжелом случае. И недаром в offtopic’е разгорелось соревнование фирм в создании систем локального поиска.