Recoll

Материал из ALT Linux Wiki

Recoll — программа для полнотекстового поиска по файлам с различными форматами. Recoll предназначается для поиска документов по именам файлов и по тексту внутри файла. Возможен поиск по фразам (с возможностью указания допустимого размера интервала между словами), поиск с ранжированием, поиск по маске, поиск по синонимам и прочее, с возможностью группировки, ранжирования и сортировки результатов поиска. Помимо обычного поиска, Recoll позволяет использовать некоторые дополнительные функции: поиск по автору, размеру и формату файла, а также поддерживаются такие операторы, как «AND» или «OR».

Приложением поддерживаются практически все популярные текстовые форматы и их сжатые версии.

Recoll работает с различными кодировками, а для внутренних операций используется Юникод (Unicode UTF-8).

Установка

Помимо собственно recoll, для установки доступен метапакет, включающий полезные зависимости; рекомендуется устанавливать именно его:

# apt-get install recoll-full
Примечание: Recoll может индексировать документов разных форматов (вместе с их сжатыми версиями). Для возможности индексирования некоторых форматов требуется установка дополнительных пакетов:
  • Microsoft Word — antiword
  • RTF — unrtf
  • PDF — xpdf-utils
Все эти пакеты будут установлены при установке пакета recoll-full


Индексация файлов

Для поиска требуется предварительная индексация библиотекой Xapian заданных каталогов.

Индексация — это процесс, с помощью которого анализируется набор документов и данные вводятся в базу данных. Повторное индексирование обычно является инкрементным: документы будут обрабатываться только в том случае, если они были изменены с момента последней индексации.

Индексирование Recoll может выполняться в двух основных режимах:

  • Периодическая индексация — выполняется в определённое время (например, по ночам, когда компьютер простаивает);
  • Индексация в реальном времени (фоновое индексирование) — recollindex постоянно работает как служба и использует монитор изменений файловой системы для обнаружения изменений файлов. Новые или обновленные файлы индексируются сразу.

Выбор метода и используемых параметров можно, выбрав в главном меню Recoll пункт «Настройка» → «Расписание индексирования».

Примечание: Recoll поддерживает определение нескольких индексов, каждый из которых определяется своим собственным каталогом конфигурации. Каталог конфигурации содержит несколько файлов, в которых описывается, что и как следует индексировать. При первом запуске recoll или recollindex создается каталог конфигурации по умолчанию $HOME/.recoll.


Запустить индексацию можно при первом запуске программы, выбрав в главном меню Recoll пункт «Файл» → «Обновить индекс», в командной строке (см. man recollindex).

Первый запуск программы Recoll

Для индексирования только домашнего каталога с настройками по умолчанию, необходимо нажать кнопку «Запустить индексирование». Для указания каталогов, а также настройки параметров индексирования можно нажать ссылку «Настройка индексирования». Для задания расписания индексирования следует нажать ссылку «Расписание индексирования».

Результаты индексирования хранятся по умолчанию в $HOME/.recoll/xapiandb/. Recoll может содержать базу данных в любом удобном для пользователя месте, в том числе и на съёмном носителе.

Настроить параметры индексации можно в любой момент, выбрав в главном меню Recoll пункт «Настройка» → «Настройка индекса».

Окно настройки индексации разделено на четыре вкладки: «Общие параметры», «Частные параметры», «Просмотренные веб-страницы» и «Параметры поиска».

На вкладке «Общие параметры» можно установить каталог верхнего уровня, от которого рекурсивно начнётся индексация (по умолчанию это домашний каталог пользователя), указать пути, которые следует пропустить при индексации файлов:

Настройка параметров индексирования

На вкладке «Частные параметры» можно установить переменные, которые можно переопределить для подкаталогов. Переменные устанавливаются для текущего выбранного каталога (или для верхнего уровня, если в списке ничего не выбрано или выбрана пустая строка). Например, можно для переопределить кодировку файлов, добавив в поле «Пользовательские каталоги» каталог, в котором находятся файлы с кодировкой отличной от Unicode, и в выпадающем списке «Кодировка по умолчанию» выбрать нужную кодировку:

Настройка параметров индексирования

Поиск файлов

Recoll имеет два интерфейса поиска:

  • Простой поиск — одно поле ввода (по умолчанию на главном экране), в которое можно ввести несколько слов:
    Простой поиск
  • Расширенный поиск — панель, доступ к которой осуществляется через меню («Инструменты» → «Сложный поиск») или значок панели инструментов. Расширенный поиск имеет несколько полей ввода, которые можно использовать для создания логического условия, с дополнительной фильтрацией по типу файла, местоположению в файловой системе, дате изменения и размеру:
    Сложный поиск

Для выполнения поиска, следует выбрать, поисковый режим («Любое слово», «Все слова», «Имя файла» или «Язык запроса»), ввести поисковые слова и нажать кнопку «Поиск»:

Простой поиск Recoll

Режим поиска по умолчанию — «Язык запроса». В этом режиме будет выполнен поиск документов, содержащих все условия поиска, как и в режиме «Все слова». В режиме «Любое слово» будут найдены документы, содержащие любое из введенных вами поисковых слов. В режиме «Имя файла» выполняется сопоставление поискового запроса только имени файла, но не содержимого.

Все режимы поиска позволяют расширять термины с помощью подстановочных знаков (*,?, []). Во всех режимах, кроме режима «Имя файла», можно искать точные фразы, заключая ввод в двойные кавычки.

Для более сложного поиска можно использовать диалог «Инструменты» → «Сложный поиск».

Список результатов поиска

После запуска поиска список результатов мгновенно отобразится в главном окне. Каждый результат поиска сопровождается небольшим фрагментом файла.

По умолчанию список документов представлен в порядке релевантности (насколько хорошо система оценивает соответствие документа запросу). Можно отсортировать результат по дате по возрастанию или по убыванию, используя вертикальные стрелки на панели инструментов.

При нажатии ссылки «Просмотр» откроется внутреннее окно предварительного просмотра документа. При нажатии на ссылку «Открыть» запускается внешнее средство просмотра документа. В контекстном меню каждой записи списка результатов есть пункт «Открыть с помощью», для выбора приложения из списка тех, которые зарегистрированы в системе для данного типа MIME-документа:

Контекстное меню результата запроса

Ссылки «Просмотр» и «Открыть» могут присутствовать не у всех записей, что означает, что у Recoll нет настроенного способа предварительного просмотра данного типа файла (который был проиндексирован только по имени), или нет настроенного внешнего редактора для этого типа файла.

По умолчанию Recoll позволяет рабочему окружению выбирать, какое приложение следует использовать для открытия документа данного типа. Настроить это действие можно с помощью меню «Настройка» → «Настройка интерфейса» → «Интерфейс пользователя» или путем редактирования файла конфигурации.

Пользовательская настройка

При нажатии кнопки «Выбор приложений-редакторов» откроется диалоговое окно, где можно выбрать приложение, которое будет использоваться для открытия каждого MIME-типа. Например, для того чтобы текстовые данные открывались в приложении medit с кодировкой Windows-1251, следует в списке MIME-типов выбрать text/plain, в поле «Действие» (раздел «Новые значения») вписать команду medit -e windows-1251 и нажать кнопку «Применить к выделению»:

Выбор приложений-редакторов

Результаты поиска можно представить в виде таблицы. Щелчок по заголовку столбца позволит выполнить сортировку по значениям в столбце:

Recoll. Результаты поиска в виде таблицы

См. также