Семейство больших языковых моделей: различия между версиями

Материал из DZWIKI
Перейти к навигации Перейти к поиску
(Новая страница: «'''Семейство больших языковых моделей''' ({{lang-en|Family of large language models}}) — набор связанных между собой больших языковых моделей, которые разработаны одной компанией или исследовательской группой и построены на основе общей архитектуры, но отличаются к...»)
 
 
(не показана 1 промежуточная версия этого же участника)
Строка 1: Строка 1:
'''Семейство больших языковых моделей''' ({{lang-en|Family of large language models}}) — набор связанных между собой [[БЯМ|больших языковых моделей]], которые разработаны одной компанией или исследовательской группой и построены на основе общей архитектуры, но отличаются количеством параметров и/или специализацией<ref>{{cite web |url=https://arxiv.org/abs/2406.12793 |title=ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools |date=2024-06-17 |website=arXiv |access-date=2025-12-04}}</ref>. Каждое семейство представляет собой эволюционную линию моделей, развивающихся от базовых версий к более продвинутым: с увеличением числа параметров, [[:en:LLM#Attention_mechanism_and_context_window|контекстного окна]] и [[Мультимодальное обучение|мультимодальных возможностей]]<ref name="yandex_handbook">[https://education.yandex.ru/handbook/ml/article/transformery Трансформеры и LLM]. — Яндекс.Учебник.</ref>.
'''Семейство больших языковых моделей''' ({{lang-en|Family of large language models}}) — набор связанных между собой [[Большая языковая модель|больших языковых моделей]], которые разработаны одной компанией или исследовательской группой и построены на основе общей архитектуры, но отличаются количеством параметров и/или специализацией<ref>{{cite web |url=https://arxiv.org/abs/2406.12793 |title=ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools |date=2024-06-17 |website=arXiv |access-date=2025-12-04}}</ref>. Каждое семейство представляет собой эволюционную линию моделей, развивающихся от базовых версий к более продвинутым: с увеличением числа параметров, [[:en:LLM#Attention_mechanism_and_context_window|контекстного окна]] и [[Мультимодальное обучение|мультимодальных возможностей]]<ref name="yandex_handbook">[https://education.yandex.ru/handbook/ml/article/transformery Трансформеры и LLM]. — Яндекс.Учебник.</ref>.


== Основные семейства ==
== Основные семейства ==
Строка 47: Строка 47:
== Ссылки ==
== Ссылки ==
{{Википедия|Семейство больших языковых моделей}}
{{Википедия|Семейство больших языковых моделей}}
{{Генеративный ИИ}}


[[Категория:Большие языковые модели| ]]
[[Категория:Большие языковые модели| ]]
[[Категория:Искусственный интеллект]]
[[Категория:Искусственный интеллект]]
[[Категория:Обработка естественного языка]]
[[Категория:Обработка естественного языка]]

Текущая версия от 09:06, 26 января 2026

Семейство больших языковых моделей (англ. Family of large language models) — набор связанных между собой больших языковых моделей, которые разработаны одной компанией или исследовательской группой и построены на основе общей архитектуры, но отличаются количеством параметров и/или специализацией[1]. Каждое семейство представляет собой эволюционную линию моделей, развивающихся от базовых версий к более продвинутым: с увеличением числа параметров, контекстного окна и мультимодальных возможностей[2].

Основные семейства

Anthropic Claude

Claude — семейство моделей от компании Anthropic, сфокусированное на безопасности и учёте человеческих предпочтений (alignment problem).

  • Claude 2 (июль 2023): улучшенные математические навыки.
  • Claude 3 (март 2024): модели Haiku, Sonnet, Opus.
  • Claude 3.7 (февраль 2025): первая гибридная модель, объединяющая генерацию и рассуждения (контекст 196 тыс. токенов).
  • Claude Opus 4 и Sonnet 4 (май 2025): специализированные модели для программирования[3].

Google Gemini

Gemini — семейство мультимодальных больших языковых моделей, разработанное Google DeepMind. Является преемником LaMDA и PaLM 2.

  • Особенности: нативная мультимодальность (обработка текста, изображений, аудио, видео и кода в единой архитектуре).
  • Версии: Ultra, Pro, Flash и Nano.
  • Хронология: анонс в мае 2023 года, первый релиз — 6 декабря 2023 года[4].

Meta LLaMA

Семейство LLaMA от компании Meta представляет собой линейку моделей с открытыми весами.

  • Первое поколение (февраль 2023) включало модели размером от 7 до 65 миллиардов параметров, причём версия с 13 млрд параметров превосходила GPT-3 в большинстве NLP-тестов.
  • В апреле 2025 года Meta представила Llama 4 — новое поколение с тремя моделями:
    • Scout (17 млрд активных параметров, контекст 10 млн токенов);
    • Maverick (17 млрд активных параметров, всего 400 млрд);
    • Behemoth (288 млрд активных параметров, всего около 2 трлн).

Все модели Llama 4 используют архитектуру Mixture of Experts и технологию раннего слияния (early fusion).

OpenAI GPT

Семейство GPT от компании OpenAI является одним из самых известных и влиятельных в области генеративного ИИ. Начиная с GPT-2, которая была выпущена с открытыми весами в 2019 году, OpenAI последовательно развивала линейку моделей, демонстрируя экспоненциальный рост параметров и возможностей.

  • В 2020 году вышла GPT-3 с 175 миллиардами параметров, ставшая первой моделью с широким коммерческим применением через API и способной выполнять некоторые сложные задачи на уровне, близком к человеческому.
  • В 2025 году OpenAI вернулась к практике выпуска открытых моделей, представив семейство gpt-oss (Open Source Software). Модели gpt-oss-20b и gpt-oss-120b выпущены под лицензией Apache 2.0 и основаны на архитектуре Mixture of Experts с контекстным окном 128 тысяч токенов и поддержкой цепочек рассуждений (chain-of-thought)[5].

Технические особенности

Современные семейства используют следующие ключевые подходы:

  • Mixture of Experts (MoE): применяется в gpt-oss, Llama 4 и Gemini. Позволяет активировать только подмножество параметров для каждого токена (например, у Llama 4 Maverick из 400 млрд параметров активируется лишь 17 млрд), что повышает энергоэффективность[6].
  • Раннее слияние (early fusion): в Llama 4 токены текста и изображений объединяются в единую структуру на ранних этапах обработки.

См. также

Примечания

  1. ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools. arXiv (17 июня 2024). Дата обращения: 4 декабря 2025.
  2. Трансформеры и LLM. — Яндекс.Учебник.
  3. История развития моделей Claude. — GPTunnel.
  4. Обзор Google Gemini. — BigData School.
  5. OpenAI представила открытое семейство gpt-oss. — N + 1, 7 августа 2025.
  6. Что такое Mixture-of-Experts. — Gerwin Journal.

Ссылки