ListRules/AnatolBazjukin: различия между версиями

Версия от 14:44, 20 августа 2008

Эта страница была перемещена с freesource.info.
Эта страница наверняка требует чистки и улучшения — смело правьте разметку и ссылки.
Просьба по окончанию убрать этот шаблон со страницы.

Date: Fri, 27 May 2005 02:05:50 +0400 From: "Anatol B. Bazjukin" <anatol@> To: <community@> Subject: Re: [Comm] Предложение: Тематический классификатор в поле <Тема>

Hello spider,

Thursday, May 26, 2005, 10:02:21 PM, you wrote:

s> Предложение: построить классификатор тематики и указывать s> сайн класса в сабже. Например, s> [mmedia]Не работает xmms:-( s> [devel]А где лежит qmake s> и т.п. К сожалению, это пересекающиеся множества, если не по Subject, то по Text точно.

Я в одном из тредов приводил частотный анализ слов в Subject для [Comm]. Всего выделено 8958 слов, большая часть которых встречаются редко. 8607 реже 10 раз. Низкое качество классификации связано с отсутствием минимальной стандартизации вопросов в Subject. Ну что за тема √ ⌠1001 вопрос от новичка■(но в тексте может быть вполне разумные вопросы).

Предложения: √ один вопрос √ один тред - в заголовке указание пакета, устройства, сервиса, то есть

некие ключевые слова, а не эмоции и паразитные слова. Это менее

строгое требование, чем цитируемое предложение, но оно легче

реализуемо.

Раскладывание тредов по папочкам очень увлекательное занятие, но опыт показывает, что проще свалить все в одну и выполнить search(google - ау..) У меня на мыше с папкой 70 тыс. писем поиск занимает максимум 5 минут в самом тяжелом случае. И недаром в offtopic'е разгорелось соревнование фирм в создании систем локального поиска.

Версия от 18:57, 28 июля 2008 (просмотреть исходный код) MichaelShigorin (обсуждение \| вклад) (Import from freesource.info)	Версия от 14:44, 20 августа 2008 (просмотреть исходный код) MichaelShigorin (обсуждение \| вклад) м («MailVsMail/ListRules/AnatolBazjukin» переименована в «ListRules/AnatolBazjukin»: obsolete prefix) Следующая правка →
(нет различий)