Список больших языковых моделей

Материал из DZWIKI
Версия от 09:10, 26 января 2026; Dzmuh (обсуждение | вклад) (→‎References)
(разн.) ← Предыдущая версия | Текущая версия (разн.) | Следующая версия → (разн.)
Перейти к навигации Перейти к поиску

A large language model (LLM) is a type of machine learning model designed for natural language processing tasks such as language generation. LLMs are language models with many parameters, and are trained with self-supervised learning on a vast amount of text.

Список

For the training cost column, 1 petaFLOP-day = 1 petaFLOP/sec × 1 day = 8.64E19 FLOP. Also, only the largest model's cost is written.

Шаблон:Table alignment Шаблон:Sort-under

Name Release date[lower-alpha 1] Developer Number of parameters (billion) [lower-alpha 2] Corpus size Training cost (petaFLOP-day) License[lower-alpha 3] Notes
GPT-1 11 июня 2018 OpenAI 0.117 Неизвестно 1[1] MIT[2] First GPT model, decoder-only transformer. Trained for 30 days on 8 P600 GPUs.[3]
BERT октябрь 2018 Google 0.340[4] 3.3 billion words[4] 9[5] Apache 2.0[6] An early and influential language model.[7]Encoder-only and thus not built to be prompted or generative.[8] Training took 4 days on 64 TPUv2 chips.[9]
T5 октябрь 2019 Google 11[10] 34 billion tokens[10] Apache 2.0[11] Base model for many Google projects, such as Imagen.[12]
XLNet июнь 2019 Google 0.340[13] 33 billion words 330 Apache 2.0[14] An alternative to BERT; designed as encoder-only. Trained on 512 TPU v3 chips for 5.5 days.[15]
GPT-2 февраль 2019 OpenAI 1.5[16] 40GB[17] (~10 billion tokens)[18] 28[19] MIT[20] Trained on 32 TPUv3 chips for 1 week.[19]
GPT-3 май 2020 OpenAI 175[21] 300 billion tokens[18] 3640[22] проприетарная A fine-tuned variant of GPT-3, termed GPT-3.5, was made available to the public through a web interface called ChatGPT in 2022.[23]
GPT-Neo март 2021 EleutherAI 2.7[24] 825 GiB[25] Неизвестно MIT[26] The first of a series of free GPT-3 alternatives released by EleutherAI. GPT-Neo outperformed an equivalent-size GPT-3 model on some benchmarks, but was significantly worse than the largest GPT-3.[26]
GPT-J июнь 2021 EleutherAI 6[27] 825 GiB[25] 200[28] Apache 2.0 GPT-3-style language model
Megatron-Turing NLG октябрь 2021[29] Microsoft and Nvidia 530[30] 338.6 billion tokens[30] 38000[31] Неизвестно Trained for 3 months on over 2000 A100 GPUs on the NVIDIA Selene Supercomputer, for over 3 million GPU-hours[31]
Ernie 3.0 Titan декабрь 2021 Baidu 260[32] 4TB Неизвестно проприетарная Chinese-language LLM. Ernie Bot is based on this model.
Claude[33] декабрь 2021 Anthropic 52[34] 400 billion tokens[34] Неизвестно проприетарная Fine-tuned for desirable behavior in conversations.[35]
GLaM (Generalist Language Model) декабрь 2021 Google 1200[36] 1.6 trillion tokens[36] 5600[36] проприетарная Sparse mixture of experts model, making it more expensive to train but cheaper to run inference compared to GPT-3.
Gopher декабрь 2021 DeepMind 280[37] 300 billion tokens[38] 5833[39] проприетарная Later developed into the Chinchilla model.
LaMDA (Language Models for Dialog Applications) январь 2022 Google 137[40] 1.56T words,[40] 168 billion tokens[38] 4110[41] проприетарная Specialized for response generation in conversations.
GPT-NeoX февраль 2022 EleutherAI 20[42] 825 GiB[25] 740[28] Apache 2.0 based on the Megatron architecture
Chinchilla март 2022 DeepMind 70[43] 1.4 trillion tokens[43][38] 6805[39] проприетарная Reduced-parameter model trained on more data. Used in the Sparrow bot. Often cited for its neural scaling law.
PaLM (Pathways Language Model) апрель 2022 Google 540[44] 768 billion tokens[43] 29,250[39] проприетарная Trained for ~60 days on ~6000 TPU v4 chips.[39]
OPT (Open Pretrained Transformer) май 2022 Meta 175[45] 180 billion tokens[46] 310[28] Non-commercial research[lower-alpha 4] GPT-3 architecture with some adaptations from Megatron. Uniquely, the training logbook written by the team was published.[47]
YaLM 100B июнь 2022 Yandex 100[48] 1.7TB[48] Неизвестно Apache 2.0 English-Russian model based on Microsoft's Megatron-LM
Minerva июнь 2022 Google 540[49] 38.5B tokens from webpages filtered for mathematical content and from papers submitted to the arXiv preprint server[49] Неизвестно проприетарная For solving "mathematical and scientific questions using step-by-step reasoning".[50] Initialized from PaLM models, then finetuned on mathematical and scientific data.
BLOOM июль 2022 Large collaboration led by Hugging Face 175[51] 350 billion tokens (1.6TB)[52] Неизвестно Responsible AI Essentially GPT-3 but trained on a multi-lingual corpus (30% English excluding programming languages)
Galactica ноябрь 2022 Meta 120 106 billion tokens[53] Неизвестно CC-BY-NC-4.0 Trained on scientific text and modalities.
AlexaTM (Teacher Models) ноябрь 2022 Amazon 20[54] 1.3 trillion[55] Неизвестно проприетарная[56] Bidirectional sequence-to-sequence architecture
Llama февраль 2023 Meta AI 65[57] 1.4 trillion[57] 6300[58] Non-commercial research[lower-alpha 5] Corpus has 20 languages. "Overtrained" (compared to Chinchilla scaling law) for better performance with fewer parameters.[57]
GPT-4 март 2023 OpenAI Неизвестно[lower-alpha 6]
(According to rumors: 1760)[60]
Неизвестно Неизвестно,
estimated 230,000
проприетарная Available for all ChatGPT users now and used in several products.
Cerebras-GPT март 2023 Cerebras 13[61] 270[28] Apache 2.0 Trained with Chinchilla formula.
Falcon март 2023 Technology Innovation Institute 40[62] 1 trillion tokens, from RefinedWeb (filtered web text corpus)[63] plus some "curated corpora".[64] 2800[58] Apache 2.0[65]
BloombergGPT март 2023 Bloomberg L.P. 50 363 billion token dataset based on Bloomberg's data sources, plus 345 billion tokens from general purpose datasets[66] Неизвестно Неизвестно Trained on financial data from proprietary sources, for financial tasks
PanGu-Σ март 2023 Huawei 1085 329 billion tokens[67] Неизвестно проприетарная
OpenAssistant[68] март 2023 LAION 17 1.5 trillion tokens Неизвестно Apache 2.0 Trained on crowdsourced open data
Jurassic-2[69] март 2023 AI21 Labs Неизвестно Неизвестно Неизвестно проприетарная Multilingual[70]
PaLM 2 (Pathways Language Model 2) май 2023 Google 340[71] 3.6 trillion tokens[71] 85,000[58] проприетарная Was used in Bard chatbot.[72]
YandexGPT 17 мая 2023 Yandex Неизвестно Неизвестно Неизвестно проприетарная Used in Alice chatbot.
Llama 2 июль 2023 Meta AI 70[73] 2 trillion tokens[73] 21,000 Llama 2 license 1.7 million A100-hours.[74]
Claude 2 июль 2023 Anthropic Неизвестно Неизвестно Неизвестно проприетарная Used in Claude chatbot.[75]
Granite 13b июль 2023 IBM Неизвестно Неизвестно Неизвестно проприетарная Used in IBM Watsonx.[76]
Mistral 7B сентябрь 2023 Mistral AI 7.3[77] Неизвестно Неизвестно Apache 2.0
YandexGPT 2 7 сентября 2023 Yandex Неизвестно Неизвестно Неизвестно проприетарная Used in Alice chatbot.
Claude 2.1 ноябрь 2023 Anthropic Неизвестно Неизвестно Неизвестно проприетарная Used in Claude chatbot. Has a context window of 200,000 tokens, or ~500 pages.[78]
Grok 1[79] ноябрь 2023 xAI 314 Неизвестно Неизвестно Apache 2.0 Used in Grok chatbot. Grok 1 has a context length of 8,192 tokens and has access to X (Twitter).[80]
Gemini 1.0 декабрь 2023 Google DeepMind Неизвестно Неизвестно Неизвестно проприетарная Multimodal model, comes in three sizes. Used in the chatbot of the same name.[81]
Mixtral 8x7B декабрь 2023 Mistral AI 46.7 Неизвестно Неизвестно Apache 2.0 Outperforms GPT-3.5 and Llama 2 70B on many benchmarks.[82] Mixture of experts model, with 12.9 billion parameters activated per token.[83]
DeepSeek-LLM Шаблон:DTS DeepSeek 67 2T tokens[84]Шаблон:Pg 12,000 DeepSeek License Trained on English and Chinese text. 1e24 FLOPs for 67B. 1e23 FLOPs for 7B[84]Шаблон:Pg
Phi-2 декабрь 2023 Microsoft 2.7 1.4T tokens 419[85] MIT Trained on real and synthetic "textbook-quality" data, for 14 days on 96 A100 GPUs.[85]
Gemini 1.5 февраль 2024 Google DeepMind Неизвестно Неизвестно Неизвестно проприетарная Multimodal model, based on a Mixture-of-Experts (MoE) architecture. Context window above 1 million tokens.[86]
Gemini Ultra февраль 2024 Google DeepMind Неизвестно Неизвестно Неизвестно проприетарная
Gemma февраль 2024 Google DeepMind 7 6T tokens Неизвестно Gemma Terms of Use[87]
Claude 3 март 2024 Anthropic Неизвестно Неизвестно Неизвестно проприетарная Includes three models, Haiku, Sonnet, and Opus.[88]
DBRX март 2024 Databricks and Mosaic ML 136 12T tokens Неизвестно Databricks Open Model License[89][90] Training cost 10 million USD
YandexGPT 3 Pro 28 марта 2024 Yandex Неизвестно Неизвестно Неизвестно проприетарная Used in Alice chatbot.
Fugaku-LLM май 2024 Fujitsu, Tokyo Institute of Technology, etc. 13 380B tokens Неизвестно Fugaku-LLM Terms of Use[91] The largest model ever trained on CPU-only, on the Fugaku[92]
Chameleon май 2024 Meta AI 34[93] 4.4 trillion Неизвестно Non-commercial research[94]
Mixtral 8x22B 17 апреля 2024 Mistral AI 141 Неизвестно Неизвестно Apache 2.0 [95]
Phi-3 23 апреля 2024 Microsoft 14[96] 4.8T tokens Неизвестно MIT Microsoft markets them as "small language model".[97]
Granite Code Models май 2024 IBM Неизвестно Неизвестно Неизвестно Apache 2.0
YandexGPT 3 Lite 28 мая 2024 Yandex Неизвестно Неизвестно Неизвестно проприетарная Used in Alice chatbot.
Qwen2 июнь 2024 Alibaba Cloud 72[98] 3T tokens Неизвестно Qwen License Multiple sizes, the smallest being 0.5B.
DeepSeek-V2 Шаблон:DTS DeepSeek 236 8.1T tokens 28,000 DeepSeek License 1.4M hours on H800.[99]
Nemotron-4 июнь 2024 Nvidia 340 9T tokens 200,000 NVIDIA Open Model License[100][101] Trained for 1 epoch. Trained on 6144 H100 GPUs between December 2023 and May 2024.[102][103]
Claude 3.5 июнь 2024 Anthropic Неизвестно Неизвестно Неизвестно проприетарная Initially, only one model, Sonnet, was released.[104] In October 2024, Sonnet 3.5 was upgraded, and Haiku 3.5 became available.[105]
Llama 3.1 июль 2024 Meta AI 405 15.6T tokens 440,000 Llama 3 license 405B version took 31 million hours on H100-80GB, at 3.8E25 FLOPs.[106][107]
Grok-2 14 августа 2024 xAI Неизвестно Неизвестно Неизвестно xAI Community License Agreement[108][109] Originally closed-source, then re-released as "Grok 2.5" under a source-available license in August 2025.[110][111]
OpenAI o1 12 сентября 2024 OpenAI Неизвестно Неизвестно Неизвестно проприетарная Reasoning model.[112]
YandexGPT 4 Lite and Pro 24 октября 2024 Yandex Неизвестно Неизвестно Неизвестно проприетарная Used in Alice chatbot.
Mistral Large ноябрь 2024 Mistral AI 123 Неизвестно Неизвестно Mistral Research License Upgraded over time. The latest version is 24.11.[113]
Pixtral ноябрь 2024 Mistral AI 123 Неизвестно Неизвестно Mistral Research License Multimodal. There is also a 12B version which is under Apache 2 license.[113]
Phi-4 12 декабря 2024 Microsoft 14[114] 9.8T tokens Неизвестно MIT Microsoft markets them as "small language model".[115]
DeepSeek-V3 декабрь 2024 DeepSeek 671 14.8T tokens 56,000 MIT 2.788M hours on H800 GPUs.[116] Originally released under the DeepSeek License, then re-released under the MIT License as "DeepSeek-V3-0324" in March 2025.[117]
Amazon Nova декабрь 2024 Amazon Неизвестно Неизвестно Неизвестно проприетарная Includes three models, Nova Micro, Nova Lite, and Nova Pro[118]
DeepSeek-R1 январь 2025 DeepSeek 671 Not applicable Неизвестно MIT No pretraining. Reinforcement-learned upon V3-Base.[119][120]
Qwen2.5 январь 2025 Alibaba 72 18T tokens Неизвестно Qwen License 7 dense models, with parameter count from 0.5B to 72B. They also released 2 MoE variants.[121]
MiniMax-Text-01 январь 2025 Minimax 456 4.7T tokens[122] Неизвестно Minimax Model license [123][122]
Gemini 2.0 февраль 2025 Google DeepMind Неизвестно Неизвестно Неизвестно проприетарная Three models released: Flash, Flash-Lite and Pro[124][125][126]
Claude 3.7 24 февраля 2025 Anthropic Неизвестно Неизвестно Неизвестно проприетарная One model, Sonnet 3.7.[127]
YandexGPT 5 Lite Pretrain and Pro 25 февраля 2025 Yandex Неизвестно Неизвестно Неизвестно проприетарная Used in Alice Neural Network chatbot.
GPT-4.5 27 февраля 2025 OpenAI Неизвестно Неизвестно Неизвестно проприетарная Largest non-reasoning model.[128]
Grok 3 февраль 2025 xAI Неизвестно Неизвестно Неизвестно проприетарная Training cost claimed "10x the compute of previous state-of-the-art models".[129]
Gemini 2.5 25 марта 2025 Google DeepMind Неизвестно Неизвестно Неизвестно проприетарная Three models released: Flash, Flash-Lite and Pro[130]
YandexGPT 5 Lite Instruct 31 марта 2025 Yandex Неизвестно Неизвестно Неизвестно проприетарная Used in Alice Neural Network chatbot.
Llama 4 5 апреля 2025 Meta AI 400 40T tokens Неизвестно Llama 4 license [131][132]
OpenAI o3 and o4-mini 16 апреля 2025 OpenAI Неизвестно Неизвестно Неизвестно проприетарная Reasoning models.[133]
Qwen3 апрель 2025 Alibaba Cloud 235 36T tokens Неизвестно Apache 2.0 Multiple sizes, the smallest being 0.6B.[134]
Claude 4 22 мая 2025 Anthropic Неизвестно Неизвестно Неизвестно проприетарная Includes two models, Sonnet and Opus.[135]
Grok 4 9 июля 2025 xAI Неизвестно Неизвестно Неизвестно проприетарная
GLM-4.5 29 июля 2025 Zhipu AI 355 22T tokens Неизвестно MIT Released in 335B and 106B sizes.[136] Corpus size was calculated by combining the 15 trillion tokens and the 7 trillion tokens pre-training mix.[137]
GPT-OSS 5 августа 2025 OpenAI 117 Неизвестно Неизвестно Apache 2.0 Released in 20B and 120B sizes.[138]
Claude 4.1 5 августа 2025 Anthropic Неизвестно Неизвестно Неизвестно проприетарная Includes one model, Opus.[139]
GPT-5 7 августа 2025 OpenAI Неизвестно Неизвестно Неизвестно проприетарная Includes three models, GPT-5, GPT-5 mini, and GPT-5 nano. GPT-5 is available in ChatGPT and API. It includes thinking abilities. [140][141]
DeepSeek-V3.1 21 августа 2025 DeepSeek 671 15.639T MIT Training size: 14.8T tokens, of DeepSeek V3 plus 839B tokens from the extension phases (630B + 209B)[142]It is a hybrid model that can switch between thinking and non-thinking modes.[143]
YandexGPT 5.1 Pro 28 августа 2025 Yandex Неизвестно Неизвестно Неизвестно проприетарная Used in Alice Neural Network chatbot.
Apertus 2 сентября 2025 ETH Zurich and EPF Lausanne 70 15 trillion[144] Неизвестно Apache 2.0 It's said to be the first LLM to be compliant with EU's Artificial Intelligence Act.[145]
Claude Sonnet 4.5 29 сентября 2025 Anthropic Неизвестно Неизвестно Неизвестно проприетарная [146]
DeepSeek-V3.2-Exp 29 сентября 2025 DeepSeek 685 MIT This experimental model built upon v3.1-Terminus uses a custom efficient mechanism tagged DeepSeek Sparse Attention (DSA).[147][148][149]
GLM-4.6 30 сентября 2025 Zhipu AI 357 Apache 2.0 [150][151][152]
Alice AI LLM 1.0 28 октября 2025 Yandex Неизвестно Неизвестно Неизвестно проприетарная Available in Alice AI chatbot.
Gemini 3 18 ноября 2025 Google DeepMind Неизвестно Неизвестно Неизвестно проприетарная Two models released: Deep Think and Pro[153]
Claude Opus 4.5 24 ноября 2025 Anthropic Неизвестно Неизвестно Неизвестно проприетарная The largest model in the Claude family.[154]
GPT 5.2 December 11, 2025 OpenAI Неизвестно Неизвестно Неизвестно проприетарная It was able to solve an open problem in statistical learning theory that had previously remained unresolved by human researchers.[155]

See also

Notes

  1. This is the date that documentation describing the model's architecture was first released.
  2. In many cases, researchers release or report on multiple versions of a model having different sizes. In these cases, the size of the largest model is listed here.
  3. This is the license of the pre-trained model weights. In almost all cases the training code itself is open-source or can be easily replicated. LLMs may be licensed differently from the chatbots that use them; for the licenses of chatbots, see List of chatbots.
  4. The smaller models including 66B are publicly available, while the 175B model is available on request.
  5. Facebook's license and distribution scheme restricted access to approved researchers, but the model weights were leaked and became widely available.
  6. As stated in Technical report: "Given both the competitive landscape and the safety implications of large-scale models like GPT-4, this report contains no further details about the architecture (including model size), hardware, training compute, dataset construction, training method ..."[59]

References

  1. Improving language understanding with unsupervised learning. openai.com (11 июня 2018). Дата обращения: 18 марта 2023. Архивировано 18 марта 2023 года.
  2. finetune-transformer-lm. GitHub. Дата обращения: 2 января 2024. Архивировано 19 мая 2023 года.
  3. Radford, Alec Improving language understanding with unsupervised learning. OpenAI (11 июня 2018). Дата обращения: 18 ноября 2025.
  4. 4,0 4,1 Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton & Toutanova, Kristina (11 October 2018), BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, arΧiv:1810.04805v2 [cs.CL] 
  5. Prickett, Nicole Hemsoth Cerebras Shifts Architecture To Meet Massive AI/ML Models. The Next Platform (24 августа 2021). Дата обращения: 20 июня 2023. Архивировано 20 июня 2023 года.
  6. BERT (13 марта 2023). Дата обращения: 13 марта 2023. Архивировано 13 января 2021 года.
  7. Шаблон:Cite journal
  8. Patel, Ajay; Li, Bryan; Rasooli, Mohammad Sadegh; Constant, Noah; Raffel, Colin & Callison-Burch, Chris (2022), Bidirectional Language Models Are Also Few-shot Learners, arΧiv:2209.14500 [cs.LG] 
  9. Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton & Toutanova, Kristina (11 October 2018), BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, arΧiv:1810.04805v2 [cs.CL] 
  10. 10,0 10,1 Шаблон:Cite journal
  11. google-research/text-to-text-transfer-transformer, Google Research, 2024-04-02, <https://github.com/google-research/text-to-text-transfer-transformer>. Проверено 4 апреля 2024. 
  12. Imagen: Text-to-Image Diffusion Models. imagen.research.google. Дата обращения: 4 апреля 2024. Архивировано 27 марта 2024 года.
  13. Pretrained models — transformers 2.0.0 documentation. huggingface.co. Дата обращения: 5 августа 2024. Архивировано 5 августа 2024 года.
  14. xlnet. GitHub. Дата обращения: 2 января 2024. Архивировано 2 января 2024 года.
  15. Yang, Zhilin; Dai, Zihang; Yang, Yiming; Carbonell, Jaime; Salakhutdinov, Ruslan & Le, Quoc V. (2 January 2020), XLNet: Generalized Autoregressive Pretraining for Language Understanding, arΧiv:1906.08237 [cs.CL] 
  16. GPT-2: 1.5B Release (англ.). OpenAI (5 ноября 2019). Дата обращения: 14 ноября 2019. Архивировано 14 ноября 2019 года.
  17. Better language models and their implications. openai.com. Дата обращения: 13 марта 2023. Архивировано 16 марта 2023 года.
  18. 18,0 18,1 OpenAI's GPT-3 Language Model: A Technical Overview. lambdalabs.com (3 июня 2020). Дата обращения: 13 марта 2023. Архивировано 27 марта 2023 года.
  19. 19,0 19,1 openai-community/gpt2-xl · Hugging Face. huggingface.co. Дата обращения: 24 июля 2024. Архивировано 24 июля 2024 года.
  20. gpt-2. GitHub. Дата обращения: 13 марта 2023. Архивировано 11 марта 2023 года.
  21. Wiggers, Kyle The emerging types of language models and why they matter. TechCrunch (28 апреля 2022). Дата обращения: 9 марта 2023. Архивировано 16 марта 2023 года.
  22. Table D.1 in Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; et al. (May 28, 2020), Language Models are Few-Shot Learners, arΧiv:2005.14165v4 [cs.CL] 
  23. ChatGPT: Optimizing Language Models for Dialogue. OpenAI (30 ноября 2022). Дата обращения: 13 января 2023. Архивировано 30 ноября 2022 года.
  24. GPT Neo (15 марта 2023). Дата обращения: 12 марта 2023. Архивировано 12 марта 2023 года.
  25. 25,0 25,1 25,2 Gao, Leo; Biderman, Stella; Black, Sid; Golding, Laurence; Hoppe, Travis; Foster, Charles; Phang, Jason; He, Horace; et al. (31 December 2020), The Pile: An 800GB Dataset of Diverse Text for Language Modeling, arΧiv:2101.00027 [cs.CL] 
  26. 26,0 26,1 Iyer, Abhishek GPT-3's free alternative GPT-Neo is something to be excited about. VentureBeat (15 мая 2021). Дата обращения: 13 марта 2023. Архивировано 9 марта 2023 года.
  27. GPT-J-6B: An Introduction to the Largest Open Source GPT Model | Forefront. www.forefront.ai. Дата обращения: 28 февраля 2023. Архивировано из оригинала 9 марта 2023 года.
  28. 28,0 28,1 28,2 28,3 Dey, Nolan; Gosal, Gurpreet; Zhiming; Chen; Khachane, Hemant; Marshall, William; Pathria, Ribhu; Tom, Marvin; et al. (2023-04-01), Cerebras-GPT: Open Compute-Optimal Language Models Trained on the Cerebras Wafer-Scale Cluster, arΧiv:2304.03208 [cs.LG] 
  29. Alvi, Ali; Kharya, Paresh Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, the World's Largest and Most Powerful Generative Language Model. Microsoft Research (11 октября 2021). Дата обращения: 13 марта 2023. Архивировано 13 марта 2023 года.
  30. 30,0 30,1 Smith, Shaden; Patwary, Mostofa; Norick, Brandon; LeGresley, Patrick; Rajbhandari, Samyam; Casper, Jared; Liu, Zhun; Prabhumoye, Shrimai; et al. (2022-02-04), Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model, arΧiv:2201.11990 [cs.CL] 
  31. 31,0 31,1 Rajbhandari, Samyam; Li, Conglong; Yao, Zhewei & Zhang, Minjia (2022-07-21), DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale 
  32. Wang, Shuohuan; Sun, Yu; Xiang, Yang; Wu, Zhihua; Ding, Siyu; Gong, Weibao; Feng, Shikun; Shang, Junyuan; et al. (December 23, 2021), ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation, arΧiv:2112.12731 [cs.CL] 
  33. Product. Anthropic. Дата обращения: 14 марта 2023. Архивировано 16 марта 2023 года.
  34. 34,0 34,1 Askell, Amanda; Bai, Yuntao; Chen, Anna; Drain, Dawn; Ganguli, Deep; Henighan, Tom; Jones, Andy; Joseph, Nicholas; et al. (9 December 2021), A General Language Assistant as a Laboratory for Alignment, arΧiv:2112.00861 [cs.CL] 
  35. Bai, Yuntao; Kadavath, Saurav; Kundu, Sandipan; Askell, Amanda; Kernion, Jackson; Jones, Andy; Chen, Anna; Goldie, Anna; et al. (15 December 2022), Constitutional AI: Harmlessness from AI Feedback, arΧiv:2212.08073 [cs.CL] 
  36. 36,0 36,1 36,2 Dai, Andrew M; Du, Nan More Efficient In-Context Learning with GLaM. ai.googleblog.com (9 декабря 2021). Дата обращения: 9 марта 2023. Архивировано 12 марта 2023 года.
  37. Language modelling at scale: Gopher, ethical considerations, and retrieval. www.deepmind.com (8 декабря 2021). Дата обращения: 20 марта 2023. Архивировано 20 марта 2023 года.
  38. 38,0 38,1 38,2 Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur; Buchatskaya, Elena; Cai, Trevor; Rutherford, Eliza; Casas, Diego de Las; Hendricks, Lisa Anne; et al. (29 March 2022), Training Compute-Optimal Large Language Models, arΧiv:2203.15556 [cs.CL] 
  39. 39,0 39,1 39,2 39,3 Table 20 and page 66 of PaLM: Scaling Language Modeling with Pathways Шаблон:Webarchive
  40. 40,0 40,1 Cheng, Heng-Tze; Thoppilan, Romal LaMDA: Towards Safe, Grounded, and High-Quality Dialog Models for Everything. ai.googleblog.com (21 января 2022). Дата обращения: 9 марта 2023. Архивировано 25 марта 2022 года.
  41. Thoppilan, Romal; De Freitas, Daniel; Hall, Jamie; Shazeer, Noam; Kulshreshtha, Apoorv; Cheng, Heng-Tze; Jin, Alicia; Bos, Taylor; et al. (2022-01-01), LaMDA: Language Models for Dialog Applications, arΧiv:2201.08239 [cs.CL] 
  42. Шаблон:Cite conference
  43. 43,0 43,1 43,2 Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur; Sifre, Laurent An empirical analysis of compute-optimal large language model training. Deepmind Blog (12 апреля 2022). Дата обращения: 9 марта 2023. Архивировано 13 апреля 2022 года.
  44. Narang, Sharan; Chowdhery, Aakanksha Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance (англ.). ai.googleblog.com (4 апреля 2022). Дата обращения: 9 марта 2023. Архивировано 4 апреля 2022 года.
  45. Democratizing access to large-scale language models with OPT-175B. ai.facebook.com. Дата обращения: 12 марта 2023. Архивировано 12 марта 2023 года.
  46. Zhang, Susan; Roller, Stephen; Goyal, Naman; Artetxe, Mikel; Chen, Moya; Chen, Shuohui; Dewan, Christopher; Diab, Mona; et al. (21 June 2022), OPT: Open Pre-trained Transformer Language Models, arΧiv:2205.01068 [cs.CL] 
  47. metaseq/projects/OPT/chronicles at main · facebookresearch/metaseq (англ.). GitHub. Дата обращения: 18 октября 2024.
  48. 48,0 48,1 Khrushchev, Mikhail; Vasilev, Ruslan; Petrov, Alexey & Zinov, Nikolay (2022-06-22), YaLM 100B, <https://github.com/yandex/YaLM-100B>. Проверено 18 марта 2023. 
  49. 49,0 49,1 Lewkowycz, Aitor; Andreassen, Anders; Dohan, David; Dyer, Ethan; Michalewski, Henryk; Ramasesh, Vinay; Slone, Ambrose; Anil, Cem; et al. (30 June 2022), Solving Quantitative Reasoning Problems with Language Models, arΧiv:2206.14858 [cs.CL] 
  50. Minerva: Solving Quantitative Reasoning Problems with Language Models. ai.googleblog.com (30 июня 2022). Дата обращения: 20 марта 2023.
  51. Шаблон:Cite journal
  52. bigscience/bloom · Hugging Face. huggingface.co. Дата обращения: 13 марта 2023. Архивировано 12 апреля 2023 года.
  53. Taylor, Ross; Kardas, Marcin; Cucurull, Guillem; Scialom, Thomas; Hartshorn, Anthony; Saravia, Elvis; Poulton, Andrew; Kerkez, Viktor; et al. (16 November 2022), Galactica: A Large Language Model for Science, arΧiv:2211.09085 [cs.CL] 
  54. 20B-parameter Alexa model sets new marks in few-shot learning. Amazon Science (2 августа 2022). Дата обращения: 12 марта 2023. Архивировано 15 марта 2023 года.
  55. Soltan, Saleh; Ananthakrishnan, Shankar; FitzGerald, Jack; Gupta, Rahul; Hamza, Wael; Khan, Haidar; Peris, Charith; Rawls, Stephen; et al. (3 August 2022), AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model, arΧiv:2208.01448 [cs.CL] 
  56. AlexaTM 20B is now available in Amazon SageMaker JumpStart | AWS Machine Learning Blog. aws.amazon.com (17 ноября 2022). Дата обращения: 13 марта 2023. Архивировано 13 марта 2023 года.
  57. 57,0 57,1 57,2 Introducing LLaMA: A foundational, 65-billion-parameter large language model. Meta AI (24 февраля 2023). Дата обращения: 9 марта 2023. Архивировано 3 марта 2023 года.
  58. 58,0 58,1 58,2 The Falcon has landed in the Hugging Face ecosystem. huggingface.co. Дата обращения: 20 июня 2023. Архивировано 20 июня 2023 года.
  59. GPT-4 Technical Report. OpenAI (2023). Дата обращения: 14 марта 2023. Архивировано 14 марта 2023 года.
  60. Schreiner, Maximilian GPT-4 architecture, datasets, costs and more leaked (амер. англ.). THE DECODER (11 июля 2023). Дата обращения: 26 июля 2024. Архивировано 12 июля 2023 года.
  61. Dey, Nolan Cerebras-GPT: A Family of Open, Compute-efficient, Large Language Models. Cerebras (28 марта 2023). Дата обращения: 28 марта 2023. Архивировано 28 марта 2023 года.
  62. Abu Dhabi-based TII launches its own version of ChatGPT. tii.ae. Дата обращения: 3 апреля 2023. Архивировано 3 апреля 2023 года.
  63. Penedo, Guilherme; Malartic, Quentin; Hesslow, Daniel; Cojocaru, Ruxandra; Cappelli, Alessandro; Alobeidli, Hamza; Pannier, Baptiste; Almazrouei, Ebtesam; et al. (2023-06-01), The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only, arΧiv:2306.01116 [cs.CL] 
  64. tiiuae/falcon-40b · Hugging Face. huggingface.co (9 июня 2023). Дата обращения: 20 июня 2023.
  65. UAE's Falcon 40B, World's Top-Ranked AI Model from Technology Innovation Institute, is Now Royalty-Free Шаблон:Webarchive, 31 May 2023
  66. Wu, Shijie; Irsoy, Ozan; Lu, Steven; Dabravolski, Vadim; Dredze, Mark; Gehrmann, Sebastian; Kambadur, Prabhanjan; Rosenberg, David; et al. (March 30, 2023), BloombergGPT: A Large Language Model for Finance, arΧiv:2303.17564 [cs.LG] 
  67. Ren, Xiaozhe; Zhou, Pingyi; Meng, Xinfan; Huang, Xinjing; Wang, Yadao; Wang, Weichao; Li, Pengfei; Zhang, Xiaoda; et al. (March 19, 2023), PanGu-Σ: Towards Trillion Parameter Language Model with Sparse Heterogeneous Computing, arΧiv:2303.10845 [cs.CL] 
  68. Köpf, Andreas; Kilcher, Yannic; von Rütte, Dimitri; Anagnostidis, Sotiris; Tam, Zhi-Rui; Stevens, Keith; Barhoum, Abdullah; Duc, Nguyen Minh; et al. (2023-04-14), OpenAssistant Conversations – Democratizing Large Language Model Alignment, arΧiv:2304.07327 [cs.CL] 
  69. Wrobel, Sharon Tel Aviv startup rolls out new advanced AI language model to rival OpenAI. The Times of Israel. Дата обращения: 24 июля 2023. Архивировано 24 июля 2023 года.
  70. Wiggers, Kyle With Bedrock, Amazon enters the generative AI race. TechCrunch (13 апреля 2023). Дата обращения: 24 июля 2023. Архивировано 24 июля 2023 года.
  71. 71,0 71,1 Elias, Jennifer Google's newest A.I. model uses nearly five times more text data for training than its predecessor. CNBC (16 мая 2023). Дата обращения: 18 мая 2023. Архивировано 16 мая 2023 года.
  72. Introducing PaLM 2. Google (10 мая 2023). Дата обращения: 18 мая 2023. Архивировано 18 мая 2023 года.
  73. 73,0 73,1 Introducing Llama 2: The Next Generation of Our Open Source Large Language Model. Meta AI (2023). Дата обращения: 19 июля 2023. Архивировано 5 января 2024 года.
  74. llama/MODEL_CARD.md at main · meta-llama/llama. GitHub. Дата обращения: 28 мая 2024. Архивировано 28 мая 2024 года.
  75. Claude 2. anthropic.com. Дата обращения: 12 декабря 2023. Архивировано 15 декабря 2023 года.
  76. Nirmal, Dinesh Building AI for business: IBM's Granite foundation models (амер. англ.). IBM Blog (7 сентября 2023). Дата обращения: 11 августа 2024. Архивировано 22 июля 2024 года.
  77. Announcing Mistral 7B. Mistral (2023). Дата обращения: 6 октября 2023. Архивировано 6 января 2024 года.
  78. Introducing Claude 2.1. anthropic.com. Дата обращения: 12 декабря 2023. Архивировано 15 декабря 2023 года.
  79. xai-org/grok-1, xai-org, 2024-03-19, <https://github.com/xai-org/grok-1>. Проверено 19 марта 2024. 
  80. Grok-1 model card. x.ai. Дата обращения: 12 декабря 2023.
  81. Gemini – Google DeepMind. deepmind.google. Дата обращения: 12 декабря 2023. Архивировано 8 декабря 2023 года.
  82. Franzen, Carl Mistral shocks AI community as latest open source model eclipses GPT-3.5 performance. VentureBeat (11 декабря 2023). Дата обращения: 12 декабря 2023. Архивировано 11 декабря 2023 года.
  83. Mixtral of experts. mistral.ai (11 декабря 2023). Дата обращения: 12 декабря 2023. Архивировано 13 февраля 2024 года.
  84. 84,0 84,1 DeepSeek-AI; Bi, Xiao; Chen, Deli & Chen, Guanting (2024-01-05), DeepSeek LLM: Scaling Open-Source Language Models with Longtermism 
  85. 85,0 85,1 Hughes, Alyssa Phi-2: The surprising power of small language models. Microsoft Research (12 декабря 2023). Дата обращения: 13 декабря 2023. Архивировано 12 декабря 2023 года.
  86. Our next-generation model: Gemini 1.5. Google (15 февраля 2024). — «This means 1.5 Pro can process vast amounts of information in one go — including 1 hour of video, 11 hours of audio, codebases with over 30,000 lines of code or over 700,000 words. In our research, we’ve also successfully tested up to 10 million tokens.» Дата обращения: 16 февраля 2024. Архивировано 16 февраля 2024 года.
  87. Gemma.
  88. Introducing the next generation of Claude. www.anthropic.com. Дата обращения: 4 марта 2024. Архивировано 4 марта 2024 года.
  89. Databricks Open Model License. Databricks (27 марта 2024). Дата обращения: 6 августа 2025.
  90. Databricks Open Model Acceptable Use Policy. Databricks (27 марта 2024). Дата обращения: 6 августа 2025.
  91. Fugaku-LLM Terms of Use (23 апреля 2024). Дата обращения: 6 августа 2025.
  92. Fugaku-LLM/Fugaku-LLM-13B · Hugging Face. huggingface.co. Дата обращения: 17 мая 2024. Архивировано 17 мая 2024 года.
  93. Dickson, Ben Meta introduces Chameleon, a state-of-the-art multimodal model. VentureBeat (22 мая 2024).
  94. chameleon/LICENSE at e3b711ef63b0bb3a129cf0cf0918e36a32f26e2c · facebookresearch/chameleon (англ.). Meta Research. Дата обращения: 6 августа 2025.
  95. AI, Mistral Cheaper, Better, Faster, Stronger. mistral.ai (17 апреля 2024). Дата обращения: 5 мая 2024. Архивировано 5 мая 2024 года.
  96. Phi-3. azure.microsoft.com (23 апреля 2024). Дата обращения: 28 апреля 2024. Архивировано 27 апреля 2024 года.
  97. Phi-3 Model Documentation. huggingface.co. Дата обращения: 28 апреля 2024. Архивировано 13 мая 2024 года.
  98. Qwen2. GitHub. Дата обращения: 17 июня 2024. Архивировано 17 июня 2024 года.
  99. DeepSeek-AI; Liu, Aixin; Feng, Bei & Wang, Bin (2024-06-19), DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model 
  100. NVIDIA Open Models License. Nvidia (16 июня 2025). Дата обращения: 6 августа 2025.
  101. Trustworthy AI. Nvidia (27 июня 2024). Дата обращения: 6 августа 2025.
  102. nvidia/Nemotron-4-340B-Base · Hugging Face. huggingface.co (14 июня 2024). Дата обращения: 15 июня 2024. Архивировано 15 июня 2024 года.
  103. Nemotron-4 340B | Research. research.nvidia.com. Дата обращения: 15 июня 2024. Архивировано 15 июня 2024 года.
  104. Introducing Claude 3.5 Sonnet (англ.). www.anthropic.com. Дата обращения: 8 августа 2025.
  105. Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku (англ.). www.anthropic.com. Дата обращения: 8 августа 2025.
  106. "The Llama 3 Herd of Models" (July 23, 2024) Llama Team, AI @ Meta
  107. llama-models/models/llama3_1/MODEL_CARD.md at main · meta-llama/llama-models (англ.). GitHub. Дата обращения: 23 июля 2024. Архивировано 23 июля 2024 года.
  108. LICENSE · xai-org/grok-2 at main (5 ноября 2025). Дата обращения: 18 ноября 2025.
  109. xAI Acceptable Use Policy (англ.). xAI (2 января 2025). Дата обращения: 18 ноября 2025.
  110. Weatherbed, Jess xAI's new Grok-2 chatbots bring AI image generation to X. The Verge (14 августа 2024). Дата обращения: 18 ноября 2025.
  111. Ha, Anthony Elon Musk says xAI has open sourced Grok 2.5. TechCrunch (24 августа 2025). Дата обращения: 18 ноября 2025.
  112. Introducing OpenAI o1. openai.com. Дата обращения: 8 августа 2025.
  113. 113,0 113,1 Models Overview. mistral.ai. Дата обращения: 3 марта 2025.
  114. Phi-4 Model Card. huggingface.co. Дата обращения: 11 ноября 2025.
  115. Introducing Phi-4: Microsoft’s Newest Small Language Model Specializing in Complex Reasoning. techcommunity.microsoft.com. Дата обращения: 11 ноября 2025.
  116. deepseek-ai/DeepSeek-V3, DeepSeek, 2024-12-26, <https://github.com/deepseek-ai/DeepSeek-V3?tab=readme-ov-file>. Проверено 26 декабря 2024. 
  117. Feng, Coco DeepSeek wows coders with more powerful open-source V3 model (англ.). South China Morning Post (25 марта 2025). Дата обращения: 6 апреля 2025.
  118. Amazon Nova Micro, Lite, and Pro - AWS AI Service Cards3, Amazon, 2024-12-27, <https://docs.aws.amazon.com/ai/responsible-ai/nova-micro-lite-pro/overview.html>. Проверено 27 декабря 2024. 
  119. deepseek-ai/DeepSeek-R1, DeepSeek, 2025-01-21, <https://github.com/deepseek-ai/DeepSeek-R1>. Проверено 21 января 2025. 
  120. DeepSeek-AI; Guo, Daya; Yang, Dejian & Zhang, Haowei (2025-01-22), DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 
  121. Qwen; Yang, An; Yang, Baosong & Zhang, Beichen (2025-01-03), Qwen2.5 Technical Report 
  122. 122,0 122,1 MiniMax; Li, Aonian; Gong, Bangwei & Yang, Bo (2025-01-14), MiniMax-01: Scaling Foundation Models with Lightning Attention 
  123. MiniMax-AI/MiniMax-01, MiniMax, 2025-01-26, <https://github.com/MiniMax-AI/MiniMax-01?tab=readme-ov-file>. Проверено 26 января 2025. 
  124. Kavukcuoglu, Koray Gemini 2.0 is now available to everyone. Google (5 февраля 2025). Дата обращения: 6 февраля 2025.
  125. Gemini 2.0: Flash, Flash-Lite and Pro. Google for Developers. Дата обращения: 6 февраля 2025.
  126. Franzen, Carl Google launches Gemini 2.0 Pro, Flash-Lite and connects reasoning model Flash Thinking to YouTube, Maps and Search. VentureBeat (5 февраля 2025). Дата обращения: 6 февраля 2025.
  127. Claude 3.7 Sonnet and Claude Code (англ.). www.anthropic.com. Дата обращения: 8 августа 2025.
  128. Introducing GPT-4.5. openai.com. Дата обращения: 8 августа 2025.
  129. Grok 3 Beta — The Age of Reasoning Agents (англ.). x.ai. Дата обращения: 22 февраля 2025.
  130. Kavukcuoglu, Koray Gemini 2.5: Our most intelligent AI model. Google (25 марта 2025). Дата обращения: 23 сентября 2025.
  131. meta-llama/Llama-4-Maverick-17B-128E · Hugging Face. huggingface.co (5 апреля 2025). Дата обращения: 6 апреля 2025.
  132. The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation (англ.). ai.meta.com. Дата обращения: 5 апреля 2025. Архивировано 5 апреля 2025 года.
  133. Introducing OpenAI o3 and o4-mini. openai.com. Дата обращения: 8 августа 2025.
  134. Team, Qwen Qwen3: Think Deeper, Act Faster (англ.). Qwen (29 апреля 2025). Дата обращения: 29 апреля 2025.
  135. Introducing Claude 4 (англ.). www.anthropic.com. Дата обращения: 8 августа 2025.
  136. zai-org/GLM-4.5 · Hugging Face. huggingface.co (4 августа 2025). Дата обращения: 6 августа 2025.
  137. GLM-4.5: Reasoning, Coding, and Agentic Abililties (англ.). z.ai. Дата обращения: 6 августа 2025.
  138. Whitwam, Ryan OpenAI announces two "gpt-oss" open AI models, and you can download them today (англ.). Ars Technica (5 августа 2025). Дата обращения: 6 августа 2025.
  139. Claude Opus 4.1 (англ.). www.anthropic.com. Дата обращения: 8 августа 2025.
  140. Introducing GPT-5. openai.com (7 августа 2025). Дата обращения: 8 августа 2025.
  141. OpenAI Platform: GPT-5 Model Documentation. openai.com. Дата обращения: 18 августа 2025.
  142. deepseek-ai/DeepSeek-V3.1 · Hugging Face. huggingface.co (21 августа 2025). Дата обращения: 25 августа 2025.
  143. DeepSeek-V3.1 Release | DeepSeek API Docs (англ.). api-docs.deepseek.com. Дата обращения: 25 августа 2025.
  144. Apertus: Ein vollständig offenes, transparentes und mehrsprachiges Sprachmodell (нем.). Zürich: ETH Zürich (2 сентября 2025). Дата обращения: 7 ноября 2025.
  145. Kirchner, Malte Apertus: Schweiz stellt erstes offenes und mehrsprachiges KI-Modell vor (нем.). heise online (2 сентября 2025). Дата обращения: 7 ноября 2025.
  146. Introducing Claude Sonnet 4.5 (англ.). www.anthropic.com. Дата обращения: 29 сентября 2025.
  147. Introducing DeepSeek-V3.2-Exp | DeepSeek API Docs (англ.). api-docs.deepseek.com. Дата обращения: 1 октября 2025.
  148. deepseek-ai/DeepSeek-V3.2-Exp · Hugging Face. huggingface.co (29 сентября 2025). Дата обращения: 1 октября 2025.
  149. DeepSeek-V3.2-Exp/DeepSeek_V3_2.pdf at main · deepseek-ai/DeepSeek-V3.2-Exp (англ.). GitHub. Дата обращения: 1 октября 2025.
  150. GLM-4.6: Advanced Agentic, Reasoning and Coding Capabilities (англ.). z.ai. Дата обращения: 1 октября 2025.
  151. zai-org/GLM-4.6 · Hugging Face. huggingface.co (30 сентября 2025). Дата обращения: 1 октября 2025.
  152. GLM-4.6. modelscope.cn. Дата обращения: 1 октября 2025.
  153. A new era of intelligence with Gemini 3. Google (18 ноября 2025). Дата обращения: 5 января 2026.
  154. Introducing Claude Opus 4.5 (англ.). www.anthropic.com. Дата обращения: 8 января 2026.
  155. Advancing science and math with GPT-5.2. openai.com. Дата обращения: 4 января 2026.

Ссылки

Шаблон:Natural Language Processing Шаблон:Portal bar Шаблон:Authority control