LMDeploy: различия между версиями

Текущая версия от 06:20, 26 января 2026

LMDeploy — это открытый набор инструментов для сжатия, развертывания и обслуживания больших языковых моделей (LLM) и визионно-языковых моделей (VLM), разработанный командами MMRazor и MMDeploy (от Tencent и InternLM). Он ориентирован на оптимизацию процесса инференса (вывода), обеспечивая высокую производительность, приватность данных и масштабируемость, особенно в сценариях с ограниченными ресурсами. LMDeploy позволяет запускать модели локально или в распределенной среде, минимизируя зависимость от облачных сервисов, и часто сравнивается с инструментами вроде vLLM или SGLang по скорости и эффективности.

Описание

Основные особенности:

Эффективный инференс: Достигает до 1.8x большего пропускного потока запросов по сравнению с vLLM благодаря технологиям, таким как persistent batching (непрерывная пакетная обработка), blocked KV cache (блокированный кэш ключей-значений), dynamic split&fuse (динамическое разделение и слияние), tensor parallelism (параллелизм тензоров) и высокопроизводительным CUDA-ядрам.
Квантизация: Поддерживает квантизацию весов и KV-кэша (включая 4-битную), что дает до 2.4x ускорение по сравнению с FP16, без значительной потери качества (проверено с помощью OpenCompass). Совместима с методами AWQ, GPTQ, SmoothQuant и INT4/INT8.
Распределенное обслуживание: Простой сервер распределения запросов для мультимодельных сервисов на нескольких машинах и GPU, с поддержкой OpenAI-совместимых API.
Совместимость: Позволяет комбинировать квантизацию KV-кэша, AWQ и автоматическое кэширование префиксов; поддерживает инструменты вроде LoRA-адаптеров, инструментов вызова (tools calling), спекулятивной декодировки и генерации структурированных выходов.

Поддерживаемые модели и аппаратное обеспечение:

Модели: LLM (например, Llama, Mistral, GPT-подобные) и VLM (визионно-языковые, такие как LLaVA). Поддержка reward-моделей, мультимодальных сценариев и кастомных шаблонов чата.
Аппаратное обеспечение: Основной фокус на NVIDIA GPU с CUDA (TensorRT-подобная оптимизация), но также поддержка PyTorch для гибкости. Работает на платформах с несколькими GPU/машинами для tensor parallelism и мультинодового развертывания.

Ссылки

Проект LMDeploy на сайте GitHub

@@ Строка 19: / Строка 19: @@
 * {{github|InternLM|lmdeploy}}
+[[Категория:Программное обеспечение по алфавиту]]
 [[Категория:Инференс‑движки]]

LMDeploy: различия между версиями

Текущая версия от 06:20, 26 января 2026

Описание

Ссылки

Навигация

Поиск