LMDeploy: различия между версиями
Перейти к навигации
Перейти к поиску
Dzmuh (обсуждение | вклад) |
Dzmuh (обсуждение | вклад) (→Ссылки) |
||
| Строка 19: | Строка 19: | ||
* {{github|InternLM|lmdeploy}} | * {{github|InternLM|lmdeploy}} | ||
[[Категория:Программное обеспечение по алфавиту]] | |||
[[Категория:Инференс‑движки]] | [[Категория:Инференс‑движки]] | ||
Текущая версия от 06:20, 26 января 2026
Это заготовка статьи. |
LMDeploy — это открытый набор инструментов для сжатия, развертывания и обслуживания больших языковых моделей (LLM) и визионно-языковых моделей (VLM), разработанный командами MMRazor и MMDeploy (от Tencent и InternLM). Он ориентирован на оптимизацию процесса инференса (вывода), обеспечивая высокую производительность, приватность данных и масштабируемость, особенно в сценариях с ограниченными ресурсами. LMDeploy позволяет запускать модели локально или в распределенной среде, минимизируя зависимость от облачных сервисов, и часто сравнивается с инструментами вроде vLLM или SGLang по скорости и эффективности.
Описание
Основные особенности:
- Эффективный инференс: Достигает до 1.8x большего пропускного потока запросов по сравнению с vLLM благодаря технологиям, таким как persistent batching (непрерывная пакетная обработка), blocked KV cache (блокированный кэш ключей-значений), dynamic split&fuse (динамическое разделение и слияние), tensor parallelism (параллелизм тензоров) и высокопроизводительным CUDA-ядрам.
- Квантизация: Поддерживает квантизацию весов и KV-кэша (включая 4-битную), что дает до 2.4x ускорение по сравнению с FP16, без значительной потери качества (проверено с помощью OpenCompass). Совместима с методами AWQ, GPTQ, SmoothQuant и INT4/INT8.
- Распределенное обслуживание: Простой сервер распределения запросов для мультимодельных сервисов на нескольких машинах и GPU, с поддержкой OpenAI-совместимых API.
- Совместимость: Позволяет комбинировать квантизацию KV-кэша, AWQ и автоматическое кэширование префиксов; поддерживает инструменты вроде LoRA-адаптеров, инструментов вызова (tools calling), спекулятивной декодировки и генерации структурированных выходов.
Поддерживаемые модели и аппаратное обеспечение:
- Модели: LLM (например, Llama, Mistral, GPT-подобные) и VLM (визионно-языковые, такие как LLaVA). Поддержка reward-моделей, мультимодальных сценариев и кастомных шаблонов чата.
- Аппаратное обеспечение: Основной фокус на NVIDIA GPU с CUDA (TensorRT-подобная оптимизация), но также поддержка PyTorch для гибкости. Работает на платформах с несколькими GPU/машинами для tensor parallelism и мультинодового развертывания.
Ссылки
- Проект LMDeploy на сайте GitHub