Recoll
Recoll — программа для полнотекстового поиска по файлам с различными форматами. Recoll предназначается для поиска документов по именам файлов и по тексту внутри файла. Возможен поиск по фразам (с возможностью указания допустимого размера интервала между словами), поиск с ранжированием, поиск по маске, поиск по синонимам и прочее, с возможностью группировки, ранжирования и сортировки результатов поиска. Помимо обычного поиска, Recoll позволяет использовать некоторые дополнительные функции: поиск по автору, размеру и формату файла, а также поддерживаются такие операторы, как «AND» или «OR».
Приложением поддерживаются практически все популярные текстовые форматы и их сжатые версии.
Recoll работает с различными кодировками, а для внутренних операций используется Юникод (Unicode UTF-8).
Установка
Установить пакеты:
# apt-get install recoll recoll-extras recoll-full
- Microsoft Word — antiword
- Rtf — unrtf
- Pdf — xpdf-utils
Индексация файлов
Для поиска требуется предварительная индексация библиотекой Xapian заданных каталогов.
Индексация — это процесс, с помощью которого анализируется набор документов и данные вводятся в базу данных. Повторное индексирование обычно является инкрементным: документы будут обрабатываться только в том случае, если они были изменены с момента последней индексации.
Индексирование Recoll может выполняться в двух основных режимах:
- Периодическая индексация — выполняется в определённое время (например, по ночам, когда компьютер простаивает);
- Индексация в реальном времени (фоновое индексирование) — recollindex постоянно работает как служба и использует монитор изменений файловой системы для обнаружения изменений файлов. Новые или обновленные файлы индексируются сразу.
Выбор метода и используемых параметров можно, выбрав в главном меню Recoll пункт «Настройка» → «Расписание индексирования».
Запустить индексацию можно при первом запуске программы, выбрав в главном меню Recoll пункт «Файл» → «Обновить индекс», в командной строке (см. man recollindex).
Для индексирования только домашнего каталога с настройками по умолчанию, необходимо нажать кнопку «Запустить индексирование». Для указания каталогов, а также настройки параметров индексирования можно нажать ссылку «Настройка индексирования». Для задания расписания индексирования следует нажать ссылку «Расписание индексирования».
Результаты индексирования хранятся по умолчанию в $HOME/.recoll/xapiandb/. Recoll может содержать базу данных в любом удобном для пользователя месте, в том числе и на съёмном носителе.
Настроить параметры индексации можно в любой момент, выбрав в главном меню Recoll пункт «Настройка» → «Настройка индекса».
Окно настройки индексации разделено на четыре вкладки: «Общие параметры», «Частные параметры», «Просмотренные веб-страницы» и «Параметры поиска».
На вкладке «Общие параметры» можно установить каталог верхнего уровня, от которого рекурсивно начнётся индексация (по умолчанию это домашний каталог пользователя), указать пути, которые следует пропустить при индексации файлов:
На вкладке «Частные параметры» можно установить переменные, которые можно переопределить для подкаталогов. Переменные устанавливаются для текущего выбранного каталога (или для верхнего уровня, если в списке ничего не выбрано или выбрана пустая строка). Например, можно для переопределить кодировку файлов, добавив в поле «Пользовательские каталоги» каталог, в котором находятся файлы с кодировкой отличной от Unicode, и в выпадающем списке «Кодировка по умолчанию» выбрать нужную кодировку:
Поиск файлов
Recoll имеет два интерфейса поиска:
- Простой поиск — одно поле ввода (по умолчанию на главном экране), в которое можно ввести несколько слов:
- Расширенный поиск — панель, доступ к которой осуществляется через меню («Инструменты» → «Сложный поиск») или значок панели инструментов. Расширенный поиск имеет несколько полей ввода, которые можно использовать для создания логического условия, с дополнительной фильтрацией по типу файла, местоположению в файловой системе, дате изменения и размеру:
Для выполнения поиска, следует выбрать, поисковый режим («Любое слово», «Все слова», «Имя файла» или «Язык запроса»), ввести поисковые слова и нажать кнопку «Поиск»:
Режим поиска по умолчанию — «Язык запроса». В этом режиме будет выполнен поиск документов, содержащих все условия поиска, как и в режиме «Все слова». В режиме «Любое слово» будут найдены документы, содержащие любое из введенных вами поисковых слов. В режиме «Имя файла» выполняется сопоставление поискового запроса только имени файла, но не содержимого.
Все режимы поиска позволяют расширять термины с помощью подстановочных знаков (*,?, []). Во всех режимах, кроме режима «Имя файла», можно искать точные фразы, заключая ввод в двойные кавычки.
Для более сложного поиска можно использовать диалог «Инструменты» → «Сложный поиск».
Список результатов поиска
После запуска поиска список результатов мгновенно отобразится в главном окне. Каждый результат поиска сопровождается небольшим фрагментом файла.
По умолчанию список документов представлен в порядке релевантности (насколько хорошо система оценивает соответствие документа запросу). Можно отсортировать результат по дате по возрастанию или по убыванию, используя вертикальные стрелки на панели инструментов.
При нажатии ссылки «Просмотр» откроется внутреннее окно предварительного просмотра документа. При нажатии на ссылку «Открыть» запускается внешнее средство просмотра документа. В контекстном меню каждой записи списка результатов есть пункт «Открыть с помощью», для выбора приложения из списка тех, которые зарегистрированы в системе для данного типа MIME-документа:
Ссылки «Просмотр» и «Открыть» могут присутствовать не у всех записей, что означает, что у Recoll нет настроенного способа предварительного просмотра данного типа файла (который был проиндексирован только по имени), или нет настроенного внешнего редактора для этого типа файла.
По умолчанию Recoll позволяет рабочему окружению выбирать, какое приложение следует использовать для открытия документа данного типа. Настроить это действие можно с помощью меню «Настройка» → «Настройка интерфейса» → «Интерфейс пользователя» или путем редактирования файла конфигурации.
При нажатии кнопки «Выбор приложений-редакторов» откроется диалоговое окно, где можно выбрать приложение, которое будет использоваться для открытия каждого MIME-типа. Например, для того чтобы текстовые данные открывались в приложении medit с кодировкой Windows-1251, следует в списке MIME-типов выбрать text/plain, в поле «Действие» (раздел «Новые значения») вписать команду medit -e windows-1251 и нажать кнопку «Применить к выделению»:
Результаты поиска можно представить в виде таблицы. Щелчок по заголовку столбца позволит выполнить сортировку по значениям в столбце: