LMDeploy: различия между версиями

Материал из DZWIKI
Перейти к навигации Перейти к поиску
(Новая страница: «{{Заготовка}} '''LMDeploy''' — это открытый набор инструментов для сжатия, развертывания и обслуживания больших языковых моделей (LLM) и визионно-языковых моделей (VLM), разработанный командами MMRazor и MMDeploy (от Tencent и InternLM). Он ориентирован на оптимизацию процес...»)
 
 
(не показана 1 промежуточная версия этого же участника)
Строка 4: Строка 4:
== Описание ==
== Описание ==


'''Основные особенности''':
* '''Эффективный инференс:''' Достигает до 1.8x большего пропускного потока запросов по сравнению с vLLM благодаря технологиям, таким как persistent batching (непрерывная пакетная обработка), blocked KV cache (блокированный кэш ключей-значений), dynamic split&fuse (динамическое разделение и слияние), tensor parallelism (параллелизм тензоров) и высокопроизводительным CUDA-ядрам.
* '''Квантизация:''' Поддерживает квантизацию весов и KV-кэша (включая 4-битную), что дает до 2.4x ускорение по сравнению с FP16, без значительной потери качества (проверено с помощью OpenCompass). Совместима с методами AWQ, GPTQ, SmoothQuant и INT4/INT8.
* '''Распределенное обслуживание:''' Простой сервер распределения запросов для мультимодельных сервисов на нескольких машинах и GPU, с поддержкой OpenAI-совместимых API.
* '''Совместимость:''' Позволяет комбинировать квантизацию KV-кэша, AWQ и автоматическое кэширование префиксов; поддерживает инструменты вроде LoRA-адаптеров, инструментов вызова (tools calling), спекулятивной декодировки и генерации структурированных выходов.
'''Поддерживаемые модели и аппаратное обеспечение''':
* Модели: LLM (например, Llama, Mistral, GPT-подобные) и VLM (визионно-языковые, такие как LLaVA). Поддержка reward-моделей, мультимодальных сценариев и кастомных шаблонов чата.
* Аппаратное обеспечение: Основной фокус на NVIDIA GPU с CUDA (TensorRT-подобная оптимизация), но также поддержка PyTorch для гибкости. Работает на платформах с несколькими GPU/машинами для tensor parallelism и мультинодового развертывания.


== Ссылки ==
== Ссылки ==
* {{github|InternLM|lmdeploy}}
* {{github|InternLM|lmdeploy}}


[[Категория:Программное обеспечение по алфавиту]]
[[Категория:Инференс‑движки]]
[[Категория:Инференс‑движки]]

Текущая версия от 06:20, 26 января 2026

LMDeploy — это открытый набор инструментов для сжатия, развертывания и обслуживания больших языковых моделей (LLM) и визионно-языковых моделей (VLM), разработанный командами MMRazor и MMDeploy (от Tencent и InternLM). Он ориентирован на оптимизацию процесса инференса (вывода), обеспечивая высокую производительность, приватность данных и масштабируемость, особенно в сценариях с ограниченными ресурсами. LMDeploy позволяет запускать модели локально или в распределенной среде, минимизируя зависимость от облачных сервисов, и часто сравнивается с инструментами вроде vLLM или SGLang по скорости и эффективности.

Описание

Основные особенности:

  • Эффективный инференс: Достигает до 1.8x большего пропускного потока запросов по сравнению с vLLM благодаря технологиям, таким как persistent batching (непрерывная пакетная обработка), blocked KV cache (блокированный кэш ключей-значений), dynamic split&fuse (динамическое разделение и слияние), tensor parallelism (параллелизм тензоров) и высокопроизводительным CUDA-ядрам.
  • Квантизация: Поддерживает квантизацию весов и KV-кэша (включая 4-битную), что дает до 2.4x ускорение по сравнению с FP16, без значительной потери качества (проверено с помощью OpenCompass). Совместима с методами AWQ, GPTQ, SmoothQuant и INT4/INT8.
  • Распределенное обслуживание: Простой сервер распределения запросов для мультимодельных сервисов на нескольких машинах и GPU, с поддержкой OpenAI-совместимых API.
  • Совместимость: Позволяет комбинировать квантизацию KV-кэша, AWQ и автоматическое кэширование префиксов; поддерживает инструменты вроде LoRA-адаптеров, инструментов вызова (tools calling), спекулятивной декодировки и генерации структурированных выходов.

Поддерживаемые модели и аппаратное обеспечение:

  • Модели: LLM (например, Llama, Mistral, GPT-подобные) и VLM (визионно-языковые, такие как LLaVA). Поддержка reward-моделей, мультимодальных сценариев и кастомных шаблонов чата.
  • Аппаратное обеспечение: Основной фокус на NVIDIA GPU с CUDA (TensorRT-подобная оптимизация), но также поддержка PyTorch для гибкости. Работает на платформах с несколькими GPU/машинами для tensor parallelism и мультинодового развертывания.

Ссылки