AI

Материал из ALT Linux Wiki
Версия от 08:05, 2 января 2025; Vt (обсуждение | вклад) (Новая страница: «= Использование языковых моделей в Альт = == Software == В Сизифе есть следующие экспериментальные пакеты для работы с большими лингвистическими миделями на CPU: * '''llama.cpp''' локальный запуск моделей, модели, как правило, берутся с git-хостинга Hugging Face Hub ориентиров...»)
(разн.) ← Предыдущая версия | Текущая версия (разн.) | Следующая версия → (разн.)

Использование языковых моделей в Альт

Software

В Сизифе есть следующие экспериментальные пакеты для работы с большими лингвистическими миделями на CPU:

  • llama.cpp локальный запуск моделей, модели, как правило, берутся с git-хостинга Hugging Face Hub ориентированного на ML проекты в GGUF формате, проект содержит низкоуровневые утилиты, поэтому, сложнее в использовании чем ollama, но гибче. Апстрим динамично развивается.
  • ollama локальный запуск моделей, есть удобное скачивание моделей из их собственного репозитория, это консольный и серверный легкий в использовании frontend для llama.cpp предоставляющий REST API.
  • aichat консольный доступ к удаленным моделям по API, есть простое webUI.

Модели

Открытость лицензий

Не все открытые модели являются open-source в таком же смысле как код. Как правило, у "открытых" моделей открыты только веса. Нужно быть внимательными к лицензии, так как некоторые модели имеют открытые лицензии (как Apache-2.0), но при этом, другие модели в той-же линейке могут внезапно иметь проприетарную лицензию (например модели Qwen), или некоторые лицензии кажутся открытыми, но имеют пункты отменяющие открытость (например модели Llama).

Квантизация

Так как модели требовательны к памяти, то применяются и распространяются их квантизованные версии. Как правило, оригинальная модель имеет 16-бит на параметр (fp16), и требует как минимум в два раза больше памяти чем количество параметров. Чем ниже квантизация, тем ниже требования к памяти ценой качества работы модели. Размер квантизации часто указывается в названии модели после размера (количества параметров) модели как q<число> (например, q4_K_M, где другие буквы уточняют вид квантизации). Считается, что качество модели катастрофически ухудшается при квантизации ниже 4-бит, квантизация 4-бита минимально приемлемая (при недостатке памяти) с небольшими ухудшением качество работы модели, а с верхней стороны, квантизация 8-бит работает практически так же хорошо как 16-бит оригинал (требуя в 2 раза меньше памяти).