AI: различия между версиями
Vt (обсуждение | вклад) (Открытые российские модели) |
Vt (обсуждение | вклад) |
||
(не показаны 2 промежуточные версии этого же участника) | |||
Строка 2: | Строка 2: | ||
== Software == | == Software == | ||
В Сизифе есть следующие экспериментальные пакеты для работы с большими лингвистическими миделями на CPU: | В Сизифе есть следующие экспериментальные пакеты для работы с большими лингвистическими миделями на CPU: | ||
* '''llama.cpp''' локальный запуск моделей, | * '''llama.cpp''' локальный запуск моделей в GGUF формате, которые, как правило, берутся с git-хостинга ''Hugging Face Hub'' ориентированного на ML проекты. ''llama.cpp'' содержит низкоуровневые утилиты, поэтому, сложнее в использовании чем ollama, но гибче. Апстрим динамично развивается. | ||
* '''ollama''' локальный запуск моделей, есть удобное скачивание моделей из их собственного репозитория, это консольный и серверный | * '''ollama''' локальный запуск моделей, есть удобное скачивание моделей из их собственного репозитория, это консольный и серверный простой в использовании frontend для ''llama.cpp'' предоставляющий REST API. | ||
* '''aichat''' консольный доступ к удаленным моделям по API, есть простое webUI. | * '''aichat''' консольный доступ к удаленным моделям по API, есть простое webUI, поддержка вызовов функций. | ||
== Модели == | == Модели == | ||
Строка 15: | Строка 15: | ||
=== Открытые российские модели === | === Открытые российские модели === | ||
Модели, которые можно запустить на движке ''llama.cpp'' скачав c HuggingFace (ссылка в формате: <code>Пользователь_HF/Модель</code>, лучше зайти на страницу пользователя и посмотреть что там): | Модели, которые можно запустить на движке ''llama.cpp'' скачав c HuggingFace (ссылка в формате: <code>Пользователь_HF/Модель</code>, лучше зайти на страницу пользователя и посмотреть что там): | ||
* <code>IlyaGusev/Saiga</code> - тюнинг Mistral и Llama на русском корпусе. | * <code>[https://huggingface.co/IlyaGusev IlyaGusev]/Saiga</code> - тюнинг Mistral и Llama на русском корпусе. | ||
* <code>AnatoliiPotapov/T-lite-0.1</code> (8B базовая модель, предположительно, на базе Llama-3), <code>AnatoliiPotapov/T-lite-instruct-0.1</code> ( | * <code>[https://huggingface.co/AnatoliiPotapov AnatoliiPotapov]/T-lite-0.1</code> (8B базовая модель, предположительно, на базе Llama-3), <code>AnatoliiPotapov/T-lite-instruct-0.1</code> (её тюнинг на инструкции). | ||
* <code>t-tech/T-lite-it-1.0</code> (7B), <code>t-tech/T-pro-it-1.0</code> (32B) обе модели на базе Qwen 2.5 с тюнингом на следование инструкциям. | * <code>[https://huggingface.co/t-tech t-tech]/T-lite-it-1.0</code> (7B), <code>t-tech/T-pro-it-1.0</code> (32B) обе модели на базе Qwen 2.5 с тюнингом на следование инструкциям. |
Текущая версия от 10:38, 2 января 2025
Использование больших языковых моделей в Альт
Software
В Сизифе есть следующие экспериментальные пакеты для работы с большими лингвистическими миделями на CPU:
- llama.cpp локальный запуск моделей в GGUF формате, которые, как правило, берутся с git-хостинга Hugging Face Hub ориентированного на ML проекты. llama.cpp содержит низкоуровневые утилиты, поэтому, сложнее в использовании чем ollama, но гибче. Апстрим динамично развивается.
- ollama локальный запуск моделей, есть удобное скачивание моделей из их собственного репозитория, это консольный и серверный простой в использовании frontend для llama.cpp предоставляющий REST API.
- aichat консольный доступ к удаленным моделям по API, есть простое webUI, поддержка вызовов функций.
Модели
Открытость лицензий
Не все открытые модели являются open-source в таком же смысле как код. Как правило, у "открытых" моделей открыты только веса. Нужно быть внимательными к лицензии, так как некоторые модели имеют открытые лицензии (как Apache-2.0), но при этом, другие модели в той-же линейке могут внезапно иметь проприетарную лицензию (например модели Qwen), или некоторые лицензии кажутся открытыми, но имеют пункты отменяющие открытость (например модели Llama).
Квантизация
Так как модели требовательны к памяти, то применяются и распространяются их квантизованные версии. Как правило, оригинальная модель имеет 16-бит на параметр (fp16
), и требует как минимум в два раза больше памяти чем количество параметров. Чем ниже квантизация, тем ниже требования к памяти ценой качества работы модели. Размер квантизации часто указывается в названии модели после размера (количества параметров) модели как q<число>
(например, q4_K_M
, где другие буквы уточняют вид квантизации). Считается, что качество модели катастрофически ухудшается при квантизации ниже 4-бит, квантизация 4-бита минимально приемлемая (при недостатке памяти) с небольшими ухудшением качество работы модели, а с верхней стороны, квантизация 8-бит работает практически так же хорошо как 16-бит оригинал (требуя в 2 раза меньше памяти).
Открытые российские модели
Модели, которые можно запустить на движке llama.cpp скачав c HuggingFace (ссылка в формате: Пользователь_HF/Модель
, лучше зайти на страницу пользователя и посмотреть что там):
IlyaGusev/Saiga
- тюнинг Mistral и Llama на русском корпусе.AnatoliiPotapov/T-lite-0.1
(8B базовая модель, предположительно, на базе Llama-3),AnatoliiPotapov/T-lite-instruct-0.1
(её тюнинг на инструкции).t-tech/T-lite-it-1.0
(7B),t-tech/T-pro-it-1.0
(32B) обе модели на базе Qwen 2.5 с тюнингом на следование инструкциям.