Семейство больших языковых моделей: различия между версиями
Dzmuh (обсуждение | вклад) (Новая страница: «'''Семейство больших языковых моделей''' ({{lang-en|Family of large language models}}) — набор связанных между собой больших языковых моделей, которые разработаны одной компанией или исследовательской группой и построены на основе общей архитектуры, но отличаются к...») |
Dzmuh (обсуждение | вклад) (→Ссылки) |
||
| (не показана 1 промежуточная версия этого же участника) | |||
| Строка 1: | Строка 1: | ||
'''Семейство больших языковых моделей''' ({{lang-en|Family of large language models}}) — набор связанных между собой [[ | '''Семейство больших языковых моделей''' ({{lang-en|Family of large language models}}) — набор связанных между собой [[Большая языковая модель|больших языковых моделей]], которые разработаны одной компанией или исследовательской группой и построены на основе общей архитектуры, но отличаются количеством параметров и/или специализацией<ref>{{cite web |url=https://arxiv.org/abs/2406.12793 |title=ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools |date=2024-06-17 |website=arXiv |access-date=2025-12-04}}</ref>. Каждое семейство представляет собой эволюционную линию моделей, развивающихся от базовых версий к более продвинутым: с увеличением числа параметров, [[:en:LLM#Attention_mechanism_and_context_window|контекстного окна]] и [[Мультимодальное обучение|мультимодальных возможностей]]<ref name="yandex_handbook">[https://education.yandex.ru/handbook/ml/article/transformery Трансформеры и LLM]. — Яндекс.Учебник.</ref>. | ||
== Основные семейства == | == Основные семейства == | ||
| Строка 47: | Строка 47: | ||
== Ссылки == | == Ссылки == | ||
{{Википедия|Семейство больших языковых моделей}} | {{Википедия|Семейство больших языковых моделей}} | ||
{{Генеративный ИИ}} | |||
[[Категория:Большие языковые модели| ]] | [[Категория:Большие языковые модели| ]] | ||
[[Категория:Искусственный интеллект]] | [[Категория:Искусственный интеллект]] | ||
[[Категория:Обработка естественного языка]] | [[Категория:Обработка естественного языка]] | ||
Текущая версия от 09:06, 26 января 2026
Семейство больших языковых моделей (англ. Family of large language models) — набор связанных между собой больших языковых моделей, которые разработаны одной компанией или исследовательской группой и построены на основе общей архитектуры, но отличаются количеством параметров и/или специализацией[1]. Каждое семейство представляет собой эволюционную линию моделей, развивающихся от базовых версий к более продвинутым: с увеличением числа параметров, контекстного окна и мультимодальных возможностей[2].
Основные семейства
Anthropic Claude
Claude — семейство моделей от компании Anthropic, сфокусированное на безопасности и учёте человеческих предпочтений (alignment problem).
- Claude 2 (июль 2023): улучшенные математические навыки.
- Claude 3 (март 2024): модели Haiku, Sonnet, Opus.
- Claude 3.7 (февраль 2025): первая гибридная модель, объединяющая генерацию и рассуждения (контекст 196 тыс. токенов).
- Claude Opus 4 и Sonnet 4 (май 2025): специализированные модели для программирования[3].
Google Gemini
Gemini — семейство мультимодальных больших языковых моделей, разработанное Google DeepMind. Является преемником LaMDA и PaLM 2.
- Особенности: нативная мультимодальность (обработка текста, изображений, аудио, видео и кода в единой архитектуре).
- Версии: Ultra, Pro, Flash и Nano.
- Хронология: анонс в мае 2023 года, первый релиз — 6 декабря 2023 года[4].
Meta LLaMA
Семейство LLaMA от компании Meta представляет собой линейку моделей с открытыми весами.
- Первое поколение (февраль 2023) включало модели размером от 7 до 65 миллиардов параметров, причём версия с 13 млрд параметров превосходила GPT-3 в большинстве NLP-тестов.
- В апреле 2025 года Meta представила Llama 4 — новое поколение с тремя моделями:
- Scout (17 млрд активных параметров, контекст 10 млн токенов);
- Maverick (17 млрд активных параметров, всего 400 млрд);
- Behemoth (288 млрд активных параметров, всего около 2 трлн).
Все модели Llama 4 используют архитектуру Mixture of Experts и технологию раннего слияния (early fusion).
OpenAI GPT
Семейство GPT от компании OpenAI является одним из самых известных и влиятельных в области генеративного ИИ. Начиная с GPT-2, которая была выпущена с открытыми весами в 2019 году, OpenAI последовательно развивала линейку моделей, демонстрируя экспоненциальный рост параметров и возможностей.
- В 2020 году вышла GPT-3 с 175 миллиардами параметров, ставшая первой моделью с широким коммерческим применением через API и способной выполнять некоторые сложные задачи на уровне, близком к человеческому.
- В 2025 году OpenAI вернулась к практике выпуска открытых моделей, представив семейство gpt-oss (Open Source Software). Модели gpt-oss-20b и gpt-oss-120b выпущены под лицензией Apache 2.0 и основаны на архитектуре Mixture of Experts с контекстным окном 128 тысяч токенов и поддержкой цепочек рассуждений (chain-of-thought)[5].
Технические особенности
Современные семейства используют следующие ключевые подходы:
- Mixture of Experts (MoE): применяется в gpt-oss, Llama 4 и Gemini. Позволяет активировать только подмножество параметров для каждого токена (например, у Llama 4 Maverick из 400 млрд параметров активируется лишь 17 млрд), что повышает энергоэффективность[6].
- Раннее слияние (early fusion): в Llama 4 токены текста и изображений объединяются в единую структуру на ранних этапах обработки.
См. также
Примечания
- ↑ ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools. arXiv (17 июня 2024). Дата обращения: 4 декабря 2025.
- ↑ Трансформеры и LLM. — Яндекс.Учебник.
- ↑ История развития моделей Claude. — GPTunnel.
- ↑ Обзор Google Gemini. — BigData School.
- ↑ OpenAI представила открытое семейство gpt-oss. — N + 1, 7 августа 2025.
- ↑ Что такое Mixture-of-Experts. — Gerwin Journal.