Список больших языковых моделей

Материал из DZWIKI
Перейти к навигации Перейти к поиску

A large language model (LLM) is a type of machine learning model designed for natural language processing tasks such as language generation. LLMs are language models with many parameters, and are trained with self-supervised learning on a vast amount of text.

List

For the training cost column, 1 petaFLOP-day = 1 petaFLOP/sec × 1 day = 8.64E19 FLOP. Also, only the largest model's cost is written.

Шаблон:Table alignment Шаблон:Sort-under

Name Release date[lower-alpha 1] Developer Number of parameters (billion) [lower-alpha 2] Corpus size Training cost (petaFLOP-day) License[lower-alpha 3] Notes
GPT-1 11 июня 2018 OpenAI Шаблон:Sort Шаблон:Unknown 1[1] MIT[2] First GPT model, decoder-only transformer. Trained for 30 days on 8 P600 GPUs.[3]
BERT октябрь 2018 Google Шаблон:Sort[4] Шаблон:Sort words[4] Шаблон:Sort[5] Apache 2.0[6] An early and influential language model.[7]Encoder-only and thus not built to be prompted or generative.[8] Training took 4 days on 64 TPUv2 chips.[9]
T5 октябрь 2019 Google Шаблон:Sort[10] 34 billion tokens[10] Apache 2.0[11] Base model for many Google projects, such as Imagen.[12]
XLNet июнь 2019 Google Шаблон:Sort[13] Шаблон:Sort billion words 330 Apache 2.0[14] An alternative to BERT; designed as encoder-only. Trained on 512 TPU v3 chips for 5.5 days.[15]
GPT-2 февраль 2019 OpenAI Шаблон:Sort[16] 40GB[17] (~Шаблон:Sort tokens)[18] 28[19] MIT[20] Trained on 32 TPUv3 chips for 1 week.[19]
GPT-3 май 2020 OpenAI Шаблон:Sort[21] Шаблон:Sort tokens[18] 3640[22] Шаблон:Proprietary A fine-tuned variant of GPT-3, termed GPT-3.5, was made available to the public through a web interface called ChatGPT in 2022.[23]
GPT-Neo март 2021 EleutherAI Шаблон:Sort[24] 825 GiB[25] Шаблон:Unknown MIT[26] The first of a series of free GPT-3 alternatives released by EleutherAI. GPT-Neo outperformed an equivalent-size GPT-3 model on some benchmarks, but was significantly worse than the largest GPT-3.[26]
GPT-J июнь 2021 EleutherAI Шаблон:Sort[27] 825 GiB[25] 200[28] Apache 2.0 GPT-3-style language model
Megatron-Turing NLG октябрь 2021[29] Microsoft and Nvidia Шаблон:Sort[30] Шаблон:Sort tokens[30] 38000[31] Шаблон:Unreleased Trained for 3 months on over 2000 A100 GPUs on the NVIDIA Selene Supercomputer, for over 3 million GPU-hours[31]
Ernie 3.0 Titan декабрь 2021 Baidu Шаблон:Sort[32] 4TB Шаблон:Unknown Шаблон:Proprietary Chinese-language LLM. Ernie Bot is based on this model.
Claude[33] декабрь 2021 Anthropic Шаблон:Sort[34] Шаблон:Sort tokens[34] Шаблон:Unknown Шаблон:Proprietary Fine-tuned for desirable behavior in conversations.[35]
GLaM (Generalist Language Model) декабрь 2021 Google Шаблон:Sort[36] Шаблон:Sort tokens[36] 5600[36] Шаблон:Proprietary Sparse mixture of experts model, making it more expensive to train but cheaper to run inference compared to GPT-3.
Gopher декабрь 2021 DeepMind Шаблон:Sort[37] Шаблон:Sort tokens[38] 5833[39] Шаблон:Proprietary Later developed into the Chinchilla model.
LaMDA (Language Models for Dialog Applications) январь 2022 Google Шаблон:Sort[40] 1.56T words,[40] Шаблон:Sort tokens[38] 4110[41] Шаблон:Proprietary Specialized for response generation in conversations.
GPT-NeoX февраль 2022 EleutherAI Шаблон:Sort[42] 825 GiB[25] 740[28] Apache 2.0 based on the Megatron architecture
Chinchilla март 2022 DeepMind Шаблон:Sort[43] Шаблон:Sort tokens[43][38] 6805[39] Шаблон:Proprietary Reduced-parameter model trained on more data. Used in the Sparrow bot. Often cited for its neural scaling law.
PaLM (Pathways Language Model) апрель 2022 Google Шаблон:Sort[44] Шаблон:Sort tokens[43] Шаблон:Sort[39] Шаблон:Proprietary Trained for ~60 days on ~6000 TPU v4 chips.[39]
OPT (Open Pretrained Transformer) май 2022 Meta Шаблон:Sort[45] Шаблон:Sort tokens[46] 310[28] Шаблон:Partial success[lower-alpha 4] GPT-3 architecture with some adaptations from Megatron. Uniquely, the training logbook written by the team was published.[47]
YaLM 100B июнь 2022 Yandex Шаблон:Sort[48] 1.7TB[48] Шаблон:Unknown Apache 2.0 English-Russian model based on Microsoft's Megatron-LM
Minerva июнь 2022 Google Шаблон:Sort[49] 38.5B tokens from webpages filtered for mathematical content and from papers submitted to the arXiv preprint server[49] Шаблон:Unknown Шаблон:Proprietary For solving "mathematical and scientific questions using step-by-step reasoning".[50] Initialized from PaLM models, then finetuned on mathematical and scientific data.
BLOOM июль 2022 Large collaboration led by Hugging Face Шаблон:Sort[51] Шаблон:Sort tokens (1.6TB)[52] Шаблон:Unknown Шаблон:Partial success Essentially GPT-3 but trained on a multi-lingual corpus (30% English excluding programming languages)
Galactica ноябрь 2022 Meta Шаблон:Sort Шаблон:Sort tokens[53] Шаблон:Unknown Шаблон:Partial success Trained on scientific text and modalities.
AlexaTM (Teacher Models) ноябрь 2022 Amazon Шаблон:Sort[54] Шаблон:Sort[55] Шаблон:Unknown Шаблон:Proprietary[56] Bidirectional sequence-to-sequence architecture
Llama февраль 2023 Meta AI Шаблон:Sort[57] Шаблон:Sort[57] 6300[58] Шаблон:Partial success[lower-alpha 5] Corpus has 20 languages. "Overtrained" (compared to Chinchilla scaling law) for better performance with fewer parameters.[57]
GPT-4 март 2023 OpenAI Шаблон:Unknown[lower-alpha 6]
(According to rumors: 1760)[60]
Шаблон:Unknown Шаблон:Unknown,
estimated 230,000
Шаблон:Proprietary Available for all ChatGPT users now and used in several products.
Cerebras-GPT март 2023 Cerebras Шаблон:Sort[61] 270[28] Apache 2.0 Trained with Chinchilla formula.
Falcon март 2023 Technology Innovation Institute Шаблон:Sort[62] 1 trillion tokens, from RefinedWeb (filtered web text corpus)[63] plus some "curated corpora".[64] 2800[58] Apache 2.0[65]
BloombergGPT март 2023 Bloomberg L.P. Шаблон:Sort 363 billion token dataset based on Bloomberg's data sources, plus 345 billion tokens from general purpose datasets[66] Шаблон:Unknown Шаблон:Unreleased Trained on financial data from proprietary sources, for financial tasks
PanGu-Σ март 2023 Huawei Шаблон:Sort 329 billion tokens[67] Шаблон:Unknown Шаблон:Proprietary
OpenAssistant[68] март 2023 LAION Шаблон:Sort 1.5 trillion tokens Шаблон:Unknown Apache 2.0 Trained on crowdsourced open data
Jurassic-2[69] март 2023 AI21 Labs Шаблон:Unknown Шаблон:Unknown Шаблон:Unknown Шаблон:Proprietary Multilingual[70]
PaLM 2 (Pathways Language Model 2) май 2023 Google Шаблон:Sort[71] Шаблон:Sort tokens[71] Шаблон:Sort[58] Шаблон:Proprietary Was used in Bard chatbot.[72]
YandexGPT 17 мая 2023 Yandex Шаблон:Unknown Шаблон:Unknown Шаблон:Unknown Шаблон:Proprietary Used in Alice chatbot.
Llama 2 июль 2023 Meta AI Шаблон:Sort[73] Шаблон:Sort tokens[73] Шаблон:Sort Шаблон:Partial success 1.7 million A100-hours.[74]
Claude 2 июль 2023 Anthropic Шаблон:Unknown Шаблон:Unknown Шаблон:Unknown Шаблон:Proprietary Used in Claude chatbot.[75]
Granite 13b июль 2023 IBM Шаблон:Unknown Шаблон:Unknown Шаблон:Unknown Шаблон:Proprietary Used in IBM Watsonx.[76]
Mistral 7B сентябрь 2023 Mistral AI Шаблон:Sort[77] Шаблон:Unknown Шаблон:Unknown Apache 2.0
YandexGPT 2 7 сентября 2023 Yandex Шаблон:Unknown Шаблон:Unknown Шаблон:Unknown Шаблон:Proprietary Used in Alice chatbot.
Claude 2.1 ноябрь 2023 Anthropic Шаблон:Unknown Шаблон:Unknown Шаблон:Unknown Шаблон:Proprietary Used in Claude chatbot. Has a context window of 200,000 tokens, or ~500 pages.[78]
Grok 1[79] ноябрь 2023 xAI 314 Шаблон:Unknown Шаблон:Unknown Apache 2.0 Used in Grok chatbot. Grok 1 has a context length of 8,192 tokens and has access to X (Twitter).[80]
Gemini 1.0 декабрь 2023 Google DeepMind Шаблон:Unknown Шаблон:Unknown Шаблон:Unknown Шаблон:Proprietary Multimodal model, comes in three sizes. Used in the chatbot of the same name.[81]
Mixtral 8x7B декабрь 2023 Mistral AI 46.7 Шаблон:Unknown Шаблон:Unknown Apache 2.0 Outperforms GPT-3.5 and Llama 2 70B on many benchmarks.[82] Mixture of experts model, with 12.9 billion parameters activated per token.[83]
DeepSeek-LLM Шаблон:DTS DeepSeek 67 2T tokens[84]Шаблон:Pg Шаблон:Sort Шаблон:Partial success Trained on English and Chinese text. 1e24 FLOPs for 67B. 1e23 FLOPs for 7B[84]Шаблон:Pg
Phi-2 декабрь 2023 Microsoft 2.7 1.4T tokens 419[85] MIT Trained on real and synthetic "textbook-quality" data, for 14 days on 96 A100 GPUs.[85]
Gemini 1.5 февраль 2024 Google DeepMind Шаблон:Unknown Шаблон:Unknown Шаблон:Unknown Шаблон:Proprietary Multimodal model, based on a Mixture-of-Experts (MoE) architecture. Context window above 1 million tokens.[86]
Gemini Ultra февраль 2024 Google DeepMind Шаблон:Unknown Шаблон:Unknown Шаблон:Unknown Шаблон:Proprietary
Gemma февраль 2024 Google DeepMind 7 6T tokens Шаблон:Unknown Шаблон:Partial success[87]
Claude 3 март 2024 Anthropic Шаблон:Unknown Шаблон:Unknown Шаблон:Unknown Шаблон:Proprietary Includes three models, Haiku, Sonnet, and Opus.[88]
DBRX март 2024 Databricks and Mosaic ML Шаблон:Sort 12T tokens Шаблон:Unknown Шаблон:Partial success[89][90] Training cost 10 million USD
YandexGPT 3 Pro 28 марта 2024 Yandex Шаблон:Unknown Шаблон:Unknown Шаблон:Unknown Шаблон:Proprietary Used in Alice chatbot.
Fugaku-LLM май 2024 Fujitsu, Tokyo Institute of Technology, etc. Шаблон:Sort 380B tokens Шаблон:Unknown Шаблон:Partial success[91] The largest model ever trained on CPU-only, on the Fugaku[92]
Chameleon май 2024 Meta AI Шаблон:Sort[93] Шаблон:Sort Шаблон:Unknown Шаблон:Partial success[94]
Mixtral 8x22B 17 апреля 2024 Mistral AI 141 Шаблон:Unknown Шаблон:Unknown Apache 2.0 [95]
Phi-3 23 апреля 2024 Microsoft 14[96] 4.8T tokens Шаблон:Unknown MIT Microsoft markets them as "small language model".[97]
Granite Code Models май 2024 IBM Шаблон:Unknown Шаблон:Unknown Шаблон:Unknown Apache 2.0
YandexGPT 3 Lite 28 мая 2024 Yandex Шаблон:Unknown Шаблон:Unknown Шаблон:Unknown Шаблон:Proprietary Used in Alice chatbot.
Qwen2 июнь 2024 Alibaba Cloud 72[98] 3T tokens Шаблон:Unknown Шаблон:Partial success Multiple sizes, the smallest being 0.5B.
DeepSeek-V2 Шаблон:DTS DeepSeek 236 8.1T tokens Шаблон:Sort Шаблон:Partial success 1.4M hours on H800.[99]
Nemotron-4 июнь 2024 Nvidia Шаблон:Sort 9T tokens Шаблон:Sort Шаблон:Partial success[100][101] Trained for 1 epoch. Trained on 6144 H100 GPUs between December 2023 and May 2024.[102][103]
Claude 3.5 июнь 2024 Anthropic Шаблон:Unknown Шаблон:Unknown Шаблон:Unknown Шаблон:Proprietary Initially, only one model, Sonnet, was released.[104] In October 2024, Sonnet 3.5 was upgraded, and Haiku 3.5 became available.[105]
Llama 3.1 июль 2024 Meta AI 405 15.6T tokens Шаблон:Sort Шаблон:Partial success 405B version took 31 million hours on H100-80GB, at 3.8E25 FLOPs.[106][107]
Grok-2 14 августа 2024 xAI Шаблон:Unknown Шаблон:Unknown Шаблон:Unknown Шаблон:Partial success Originally closed-source, then re-released as "Grok 2.5" under a source-available license in August 2025.[108][109]
OpenAI o1 12 сентября 2024 OpenAI Шаблон:Unknown Шаблон:Unknown Шаблон:Unknown Шаблон:Proprietary Reasoning model.[110]
YandexGPT 4 Lite and Pro 24 октября 2024 Yandex Шаблон:Unknown Шаблон:Unknown Шаблон:Unknown Шаблон:Proprietary Used in Alice chatbot.
Mistral Large ноябрь 2024 Mistral AI 123 Шаблон:Unknown Шаблон:Unknown Шаблон:Partial success Upgraded over time. The latest version is 24.11.[111]
Pixtral ноябрь 2024 Mistral AI 123 Шаблон:Unknown Шаблон:Unknown Шаблон:Partial success Multimodal. There is also a 12B version which is under Apache 2 license.[111]
Phi-4 12 декабря 2024 Microsoft 14[112] Шаблон:Sort tokens Шаблон:Unknown MIT Microsoft markets them as "small language model".[113]
DeepSeek-V3 декабрь 2024 DeepSeek 671 14.8T tokens Шаблон:Sort MIT 2.788M hours on H800 GPUs.[114] Originally released under the DeepSeek License, then re-released under the MIT License as "DeepSeek-V3-0324" in March 2025.[115]
Amazon Nova декабрь 2024 Amazon Шаблон:Unknown Шаблон:Unknown Шаблон:Unknown Шаблон:Proprietary Includes three models, Nova Micro, Nova Lite, and Nova Pro[116]
DeepSeek-R1 январь 2025 DeepSeek 671 Not applicable Шаблон:Unknown MIT No pretraining. Reinforcement-learned upon V3-Base.[117][118]
Qwen2.5 январь 2025 Alibaba 72 18T tokens Шаблон:Unknown Шаблон:Partial success 7 dense models, with parameter count from 0.5B to 72B. They also released 2 MoE variants.[119]
MiniMax-Text-01 январь 2025 Minimax 456 4.7T tokens[120] Шаблон:Unknown Шаблон:Partial success [121][120]
Gemini 2.0 февраль 2025 Google DeepMind Шаблон:Unknown Шаблон:Unknown Шаблон:Unknown Шаблон:Proprietary Three models released: Flash, Flash-Lite and Pro[122][123][124]
Claude 3.7 24 февраля 2025 Anthropic Шаблон:Unknown Шаблон:Unknown Шаблон:Unknown Шаблон:Proprietary One model, Sonnet 3.7.[125]
YandexGPT 5 Lite Pretrain and Pro 25 февраля 2025 Yandex Шаблон:Unknown Шаблон:Unknown Шаблон:Unknown Шаблон:Proprietary Used in Alice Neural Network chatbot.
GPT-4.5 27 февраля 2025 OpenAI Шаблон:Unknown Шаблон:Unknown Шаблон:Unknown Шаблон:Proprietary Largest non-reasoning model.[126]
Grok 3 февраль 2025 xAI Шаблон:Unknown Шаблон:Unknown Шаблон:Unknown Шаблон:Proprietary Training cost claimed "10x the compute of previous state-of-the-art models".[127]
Gemini 2.5 25 марта 2025 Google DeepMind Шаблон:Unknown Шаблон:Unknown Шаблон:Unknown Шаблон:Proprietary Three models released: Flash, Flash-Lite and Pro[128]
YandexGPT 5 Lite Instruct 31 марта 2025 Yandex Шаблон:Unknown Шаблон:Unknown Шаблон:Unknown Шаблон:Proprietary Used in Alice Neural Network chatbot.
Llama 4 5 апреля 2025 Meta AI Шаблон:Sort Шаблон:Sort Шаблон:Unknown Шаблон:Partial success [129][130]
OpenAI o3 and o4-mini 16 апреля 2025 OpenAI Шаблон:Unknown Шаблон:Unknown Шаблон:Unknown Шаблон:Proprietary Reasoning models.[131]
Qwen3 апрель 2025 Alibaba Cloud 235 Шаблон:Sort Шаблон:Unknown Apache 2.0 Multiple sizes, the smallest being 0.6B.[132]
Claude 4 22 мая 2025 Anthropic Шаблон:Unknown Шаблон:Unknown Шаблон:Unknown Шаблон:Proprietary Includes two models, Sonnet and Opus.[133]
Grok 4 9 июля 2025 xAI Шаблон:Unknown Шаблон:Unknown Шаблон:Unknown Шаблон:Proprietary
GLM-4.5 29 июля 2025 Zhipu AI 355 22T tokens Шаблон:Unknown MIT Released in 335B and 106B sizes.[134] Corpus size was calculated by combining the 15 trillion tokens and the 7 trillion tokens pre-training mix.[135]
GPT-OSS 5 августа 2025 OpenAI 117 Шаблон:Unknown Шаблон:Unknown Apache 2.0 Released in 20B and 120B sizes.[136]
Claude 4.1 5 августа 2025 Anthropic Шаблон:Unknown Шаблон:Unknown Шаблон:Unknown Шаблон:Proprietary Includes one model, Opus.[137]
GPT-5 7 августа 2025 OpenAI Шаблон:Unknown Шаблон:Unknown Шаблон:Unknown Шаблон:Proprietary Includes three models, GPT-5, GPT-5 mini, and GPT-5 nano. GPT-5 is available in ChatGPT and API. It includes thinking abilities. [138][139]
DeepSeek-V3.1 21 августа 2025 DeepSeek 671 15.639T MIT Training size: 14.8T tokens, of DeepSeek V3 plus 839B tokens from the extension phases (630B + 209B)[140]It is a hybrid model that can switch between thinking and non-thinking modes.[141]
YandexGPT 5.1 Pro 28 августа 2025 Yandex Шаблон:Unknown Шаблон:Unknown Шаблон:Unknown Шаблон:Proprietary Used in Alice Neural Network chatbot.
Apertus 2 сентября 2025 ETH Zurich and EPF Lausanne 70 Шаблон:Sort[142] Шаблон:Unknown Apache 2.0 It's said to be the first LLM to be compliant with EU's Artificial Intelligence Act.[143]
Claude Sonnet 4.5 29 сентября 2025 Anthropic Шаблон:Unknown Шаблон:Unknown Шаблон:Unknown Шаблон:Proprietary [144]
DeepSeek-V3.2-Exp 29 сентября 2025 DeepSeek 685 MIT This experimental model built upon v3.1-Terminus uses a custom efficient mechanism tagged DeepSeek Sparse Attention (DSA).[145][146][147]
GLM-4.6 30 сентября 2025 Zhipu AI 357 Apache 2.0 [148][149][150]
Alice AI LLM 1.0 28 октября 2025 Yandex Шаблон:Unknown Шаблон:Unknown Шаблон:Unknown Шаблон:Proprietary Available in Alice AI chatbot.
Gemini 3 18 ноября 2025 Google DeepMind Шаблон:Unknown Шаблон:Unknown Шаблон:Unknown Шаблон:Proprietary Two models released: Deep Think and Pro[151]
Claude Opus 4.5 24 ноября 2025 Anthropic Шаблон:Unknown Шаблон:Unknown Шаблон:Unknown Шаблон:Proprietary The largest model in the Claude family.[152]
GPT 5.2 December 11, 2025 OpenAI Шаблон:Unknown Шаблон:Unknown Шаблон:Unknown Шаблон:Proprietary It was able to solve an open problem in statistical learning theory that had previously remained unresolved by human researchers.[153]

See also

Notes

  1. This is the date that documentation describing the model's architecture was first released.
  2. In many cases, researchers release or report on multiple versions of a model having different sizes. In these cases, the size of the largest model is listed here.
  3. This is the license of the pre-trained model weights. In almost all cases the training code itself is open-source or can be easily replicated. LLMs may be licensed differently from the chatbots that use them; for the licenses of chatbots, see List of chatbots.
  4. The smaller models including 66B are publicly available, while the 175B model is available on request.
  5. Facebook's license and distribution scheme restricted access to approved researchers, but the model weights were leaked and became widely available.
  6. As stated in Technical report: "Given both the competitive landscape and the safety implications of large-scale models like GPT-4, this report contains no further details about the architecture (including model size), hardware, training compute, dataset construction, training method ..."[59]

References

  1. Improving language understanding with unsupervised learning. openai.com (11 июня 2018). Дата обращения: 18 марта 2023. Архивировано 18 марта 2023 года.
  2. finetune-transformer-lm. GitHub. Дата обращения: 2 января 2024. Архивировано 19 мая 2023 года.
  3. Radford, Alec Improving language understanding with unsupervised learning. OpenAI (11 июня 2018). Дата обращения: 18 ноября 2025.
  4. 4,0 4,1 Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton & Toutanova, Kristina (11 October 2018), BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, arΧiv:1810.04805v2 [cs.CL] 
  5. Prickett, Nicole Hemsoth Cerebras Shifts Architecture To Meet Massive AI/ML Models. The Next Platform (24 августа 2021). Дата обращения: 20 июня 2023. Архивировано 20 июня 2023 года.
  6. BERT (13 марта 2023). Дата обращения: 13 марта 2023. Архивировано 13 января 2021 года.
  7. Шаблон:Cite journal
  8. Patel, Ajay; Li, Bryan; Rasooli, Mohammad Sadegh; Constant, Noah; Raffel, Colin & Callison-Burch, Chris (2022), Bidirectional Language Models Are Also Few-shot Learners, arΧiv:2209.14500 [cs.LG] 
  9. Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton & Toutanova, Kristina (11 October 2018), BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, arΧiv:1810.04805v2 [cs.CL] 
  10. 10,0 10,1 Шаблон:Cite journal
  11. google-research/text-to-text-transfer-transformer, Google Research, 2024-04-02, <https://github.com/google-research/text-to-text-transfer-transformer>. Проверено 4 апреля 2024. 
  12. Imagen: Text-to-Image Diffusion Models. imagen.research.google. Дата обращения: 4 апреля 2024. Архивировано 27 марта 2024 года.
  13. Pretrained models — transformers 2.0.0 documentation. huggingface.co. Дата обращения: 5 августа 2024. Архивировано 5 августа 2024 года.
  14. xlnet. GitHub. Дата обращения: 2 января 2024. Архивировано 2 января 2024 года.
  15. Yang, Zhilin; Dai, Zihang; Yang, Yiming; Carbonell, Jaime; Salakhutdinov, Ruslan & Le, Quoc V. (2 January 2020), XLNet: Generalized Autoregressive Pretraining for Language Understanding, arΧiv:1906.08237 [cs.CL] 
  16. GPT-2: 1.5B Release (англ.). OpenAI (5 ноября 2019). Дата обращения: 14 ноября 2019. Архивировано 14 ноября 2019 года.
  17. Better language models and their implications. openai.com. Дата обращения: 13 марта 2023. Архивировано 16 марта 2023 года.
  18. 18,0 18,1 OpenAI's GPT-3 Language Model: A Technical Overview. lambdalabs.com (3 июня 2020). Дата обращения: 13 марта 2023. Архивировано 27 марта 2023 года.
  19. 19,0 19,1 openai-community/gpt2-xl · Hugging Face. huggingface.co. Дата обращения: 24 июля 2024. Архивировано 24 июля 2024 года.
  20. gpt-2. GitHub. Дата обращения: 13 марта 2023. Архивировано 11 марта 2023 года.
  21. Wiggers, Kyle The emerging types of language models and why they matter. TechCrunch (28 апреля 2022). Дата обращения: 9 марта 2023. Архивировано 16 марта 2023 года.
  22. Table D.1 in Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; et al. (May 28, 2020), Language Models are Few-Shot Learners, arΧiv:2005.14165v4 [cs.CL] 
  23. ChatGPT: Optimizing Language Models for Dialogue. OpenAI (30 ноября 2022). Дата обращения: 13 января 2023. Архивировано 30 ноября 2022 года.
  24. GPT Neo (15 марта 2023). Дата обращения: 12 марта 2023. Архивировано 12 марта 2023 года.
  25. 25,0 25,1 25,2 Gao, Leo; Biderman, Stella; Black, Sid; Golding, Laurence; Hoppe, Travis; Foster, Charles; Phang, Jason; He, Horace; et al. (31 December 2020), The Pile: An 800GB Dataset of Diverse Text for Language Modeling, arΧiv:2101.00027 [cs.CL] 
  26. 26,0 26,1 Iyer, Abhishek GPT-3's free alternative GPT-Neo is something to be excited about. VentureBeat (15 мая 2021). Дата обращения: 13 марта 2023. Архивировано 9 марта 2023 года.
  27. GPT-J-6B: An Introduction to the Largest Open Source GPT Model | Forefront. www.forefront.ai. Дата обращения: 28 февраля 2023. Архивировано из оригинала 9 марта 2023 года.
  28. 28,0 28,1 28,2 28,3 Dey, Nolan; Gosal, Gurpreet; Zhiming; Chen; Khachane, Hemant; Marshall, William; Pathria, Ribhu; Tom, Marvin; et al. (2023-04-01), Cerebras-GPT: Open Compute-Optimal Language Models Trained on the Cerebras Wafer-Scale Cluster, arΧiv:2304.03208 [cs.LG] 
  29. Alvi, Ali; Kharya, Paresh Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, the World's Largest and Most Powerful Generative Language Model. Microsoft Research (11 октября 2021). Дата обращения: 13 марта 2023. Архивировано 13 марта 2023 года.
  30. 30,0 30,1 Smith, Shaden; Patwary, Mostofa; Norick, Brandon; LeGresley, Patrick; Rajbhandari, Samyam; Casper, Jared; Liu, Zhun; Prabhumoye, Shrimai; et al. (2022-02-04), Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model, arΧiv:2201.11990 [cs.CL] 
  31. 31,0 31,1 Rajbhandari, Samyam; Li, Conglong; Yao, Zhewei & Zhang, Minjia (2022-07-21), DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale 
  32. Wang, Shuohuan; Sun, Yu; Xiang, Yang; Wu, Zhihua; Ding, Siyu; Gong, Weibao; Feng, Shikun; Shang, Junyuan; et al. (December 23, 2021), ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation, arΧiv:2112.12731 [cs.CL] 
  33. Product. Anthropic. Дата обращения: 14 марта 2023. Архивировано 16 марта 2023 года.
  34. 34,0 34,1 Askell, Amanda; Bai, Yuntao; Chen, Anna; Drain, Dawn; Ganguli, Deep; Henighan, Tom; Jones, Andy; Joseph, Nicholas; et al. (9 December 2021), A General Language Assistant as a Laboratory for Alignment, arΧiv:2112.00861 [cs.CL] 
  35. Bai, Yuntao; Kadavath, Saurav; Kundu, Sandipan; Askell, Amanda; Kernion, Jackson; Jones, Andy; Chen, Anna; Goldie, Anna; et al. (15 December 2022), Constitutional AI: Harmlessness from AI Feedback, arΧiv:2212.08073 [cs.CL] 
  36. 36,0 36,1 36,2 Dai, Andrew M; Du, Nan More Efficient In-Context Learning with GLaM. ai.googleblog.com (9 декабря 2021). Дата обращения: 9 марта 2023. Архивировано 12 марта 2023 года.
  37. Language modelling at scale: Gopher, ethical considerations, and retrieval. www.deepmind.com (8 декабря 2021). Дата обращения: 20 марта 2023. Архивировано 20 марта 2023 года.
  38. 38,0 38,1 38,2 Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur; Buchatskaya, Elena; Cai, Trevor; Rutherford, Eliza; Casas, Diego de Las; Hendricks, Lisa Anne; et al. (29 March 2022), Training Compute-Optimal Large Language Models, arΧiv:2203.15556 [cs.CL] 
  39. 39,0 39,1 39,2 39,3 Table 20 and page 66 of PaLM: Scaling Language Modeling with Pathways Шаблон:Webarchive
  40. 40,0 40,1 Cheng, Heng-Tze; Thoppilan, Romal LaMDA: Towards Safe, Grounded, and High-Quality Dialog Models for Everything. ai.googleblog.com (21 января 2022). Дата обращения: 9 марта 2023. Архивировано 25 марта 2022 года.
  41. Thoppilan, Romal; De Freitas, Daniel; Hall, Jamie; Shazeer, Noam; Kulshreshtha, Apoorv; Cheng, Heng-Tze; Jin, Alicia; Bos, Taylor; et al. (2022-01-01), LaMDA: Language Models for Dialog Applications, arΧiv:2201.08239 [cs.CL] 
  42. Шаблон:Cite conference
  43. 43,0 43,1 43,2 Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur; Sifre, Laurent An empirical analysis of compute-optimal large language model training. Deepmind Blog (12 апреля 2022). Дата обращения: 9 марта 2023. Архивировано 13 апреля 2022 года.
  44. Narang, Sharan; Chowdhery, Aakanksha Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance (англ.). ai.googleblog.com (4 апреля 2022). Дата обращения: 9 марта 2023. Архивировано 4 апреля 2022 года.
  45. Democratizing access to large-scale language models with OPT-175B. ai.facebook.com. Дата обращения: 12 марта 2023. Архивировано 12 марта 2023 года.
  46. Zhang, Susan; Roller, Stephen; Goyal, Naman; Artetxe, Mikel; Chen, Moya; Chen, Shuohui; Dewan, Christopher; Diab, Mona; et al. (21 June 2022), OPT: Open Pre-trained Transformer Language Models, arΧiv:2205.01068 [cs.CL] 
  47. metaseq/projects/OPT/chronicles at main · facebookresearch/metaseq (англ.). GitHub. Дата обращения: 18 октября 2024.
  48. 48,0 48,1 Khrushchev, Mikhail; Vasilev, Ruslan; Petrov, Alexey & Zinov, Nikolay (2022-06-22), YaLM 100B, <https://github.com/yandex/YaLM-100B>. Проверено 18 марта 2023. 
  49. 49,0 49,1 Lewkowycz, Aitor; Andreassen, Anders; Dohan, David; Dyer, Ethan; Michalewski, Henryk; Ramasesh, Vinay; Slone, Ambrose; Anil, Cem; et al. (30 June 2022), Solving Quantitative Reasoning Problems with Language Models, arΧiv:2206.14858 [cs.CL] 
  50. Minerva: Solving Quantitative Reasoning Problems with Language Models. ai.googleblog.com (30 июня 2022). Дата обращения: 20 марта 2023.
  51. Шаблон:Cite journal
  52. bigscience/bloom · Hugging Face. huggingface.co. Дата обращения: 13 марта 2023. Архивировано 12 апреля 2023 года.
  53. Taylor, Ross; Kardas, Marcin; Cucurull, Guillem; Scialom, Thomas; Hartshorn, Anthony; Saravia, Elvis; Poulton, Andrew; Kerkez, Viktor; et al. (16 November 2022), Galactica: A Large Language Model for Science, arΧiv:2211.09085 [cs.CL] 
  54. 20B-parameter Alexa model sets new marks in few-shot learning. Amazon Science (2 августа 2022). Дата обращения: 12 марта 2023. Архивировано 15 марта 2023 года.
  55. Soltan, Saleh; Ananthakrishnan, Shankar; FitzGerald, Jack; Gupta, Rahul; Hamza, Wael; Khan, Haidar; Peris, Charith; Rawls, Stephen; et al. (3 August 2022), AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model, arΧiv:2208.01448 [cs.CL] 
  56. AlexaTM 20B is now available in Amazon SageMaker JumpStart | AWS Machine Learning Blog. aws.amazon.com (17 ноября 2022). Дата обращения: 13 марта 2023. Архивировано 13 марта 2023 года.
  57. 57,0 57,1 57,2 Introducing LLaMA: A foundational, 65-billion-parameter large language model. Meta AI (24 февраля 2023). Дата обращения: 9 марта 2023. Архивировано 3 марта 2023 года.
  58. 58,0 58,1 58,2 The Falcon has landed in the Hugging Face ecosystem. huggingface.co. Дата обращения: 20 июня 2023. Архивировано 20 июня 2023 года.
  59. GPT-4 Technical Report. OpenAI (2023). Дата обращения: 14 марта 2023. Архивировано 14 марта 2023 года.
  60. Schreiner, Maximilian GPT-4 architecture, datasets, costs and more leaked (амер. англ.). THE DECODER (11 июля 2023). Дата обращения: 26 июля 2024. Архивировано 12 июля 2023 года.
  61. Dey, Nolan Cerebras-GPT: A Family of Open, Compute-efficient, Large Language Models. Cerebras (28 марта 2023). Дата обращения: 28 марта 2023. Архивировано 28 марта 2023 года.
  62. Abu Dhabi-based TII launches its own version of ChatGPT. tii.ae. Дата обращения: 3 апреля 2023. Архивировано 3 апреля 2023 года.
  63. Penedo, Guilherme; Malartic, Quentin; Hesslow, Daniel; Cojocaru, Ruxandra; Cappelli, Alessandro; Alobeidli, Hamza; Pannier, Baptiste; Almazrouei, Ebtesam; et al. (2023-06-01), The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only, arΧiv:2306.01116 [cs.CL] 
  64. tiiuae/falcon-40b · Hugging Face. huggingface.co (9 июня 2023). Дата обращения: 20 июня 2023.
  65. UAE's Falcon 40B, World's Top-Ranked AI Model from Technology Innovation Institute, is Now Royalty-Free Шаблон:Webarchive, 31 May 2023
  66. Wu, Shijie; Irsoy, Ozan; Lu, Steven; Dabravolski, Vadim; Dredze, Mark; Gehrmann, Sebastian; Kambadur, Prabhanjan; Rosenberg, David; et al. (March 30, 2023), BloombergGPT: A Large Language Model for Finance, arΧiv:2303.17564 [cs.LG] 
  67. Ren, Xiaozhe; Zhou, Pingyi; Meng, Xinfan; Huang, Xinjing; Wang, Yadao; Wang, Weichao; Li, Pengfei; Zhang, Xiaoda; et al. (March 19, 2023), PanGu-Σ: Towards Trillion Parameter Language Model with Sparse Heterogeneous Computing, arΧiv:2303.10845 [cs.CL] 
  68. Köpf, Andreas; Kilcher, Yannic; von Rütte, Dimitri; Anagnostidis, Sotiris; Tam, Zhi-Rui; Stevens, Keith; Barhoum, Abdullah; Duc, Nguyen Minh; et al. (2023-04-14), OpenAssistant Conversations – Democratizing Large Language Model Alignment, arΧiv:2304.07327 [cs.CL] 
  69. Wrobel, Sharon Tel Aviv startup rolls out new advanced AI language model to rival OpenAI. The Times of Israel. Дата обращения: 24 июля 2023. Архивировано 24 июля 2023 года.
  70. Wiggers, Kyle With Bedrock, Amazon enters the generative AI race. TechCrunch (13 апреля 2023). Дата обращения: 24 июля 2023. Архивировано 24 июля 2023 года.
  71. 71,0 71,1 Elias, Jennifer Google's newest A.I. model uses nearly five times more text data for training than its predecessor. CNBC (16 мая 2023). Дата обращения: 18 мая 2023. Архивировано 16 мая 2023 года.
  72. Introducing PaLM 2. Google (10 мая 2023). Дата обращения: 18 мая 2023. Архивировано 18 мая 2023 года.
  73. 73,0 73,1 Introducing Llama 2: The Next Generation of Our Open Source Large Language Model. Meta AI (2023). Дата обращения: 19 июля 2023. Архивировано 5 января 2024 года.
  74. llama/MODEL_CARD.md at main · meta-llama/llama. GitHub. Дата обращения: 28 мая 2024. Архивировано 28 мая 2024 года.
  75. Claude 2. anthropic.com. Дата обращения: 12 декабря 2023. Архивировано 15 декабря 2023 года.
  76. Nirmal, Dinesh Building AI for business: IBM's Granite foundation models (амер. англ.). IBM Blog (7 сентября 2023). Дата обращения: 11 августа 2024. Архивировано 22 июля 2024 года.
  77. Announcing Mistral 7B. Mistral (2023). Дата обращения: 6 октября 2023. Архивировано 6 января 2024 года.
  78. Introducing Claude 2.1. anthropic.com. Дата обращения: 12 декабря 2023. Архивировано 15 декабря 2023 года.
  79. xai-org/grok-1, xai-org, 2024-03-19, <https://github.com/xai-org/grok-1>. Проверено 19 марта 2024. 
  80. Grok-1 model card. x.ai. Дата обращения: 12 декабря 2023.
  81. Gemini – Google DeepMind. deepmind.google. Дата обращения: 12 декабря 2023. Архивировано 8 декабря 2023 года.
  82. Franzen, Carl Mistral shocks AI community as latest open source model eclipses GPT-3.5 performance. VentureBeat (11 декабря 2023). Дата обращения: 12 декабря 2023. Архивировано 11 декабря 2023 года.
  83. Mixtral of experts. mistral.ai (11 декабря 2023). Дата обращения: 12 декабря 2023. Архивировано 13 февраля 2024 года.
  84. 84,0 84,1 DeepSeek-AI; Bi, Xiao; Chen, Deli & Chen, Guanting (2024-01-05), DeepSeek LLM: Scaling Open-Source Language Models with Longtermism 
  85. 85,0 85,1 Hughes, Alyssa Phi-2: The surprising power of small language models. Microsoft Research (12 декабря 2023). Дата обращения: 13 декабря 2023. Архивировано 12 декабря 2023 года.
  86. Our next-generation model: Gemini 1.5. Google (15 февраля 2024). — «This means 1.5 Pro can process vast amounts of information in one go — including 1 hour of video, 11 hours of audio, codebases with over 30,000 lines of code or over 700,000 words. In our research, we’ve also successfully tested up to 10 million tokens.» Дата обращения: 16 февраля 2024. Архивировано 16 февраля 2024 года.
  87. Gemma.
  88. Introducing the next generation of Claude. www.anthropic.com. Дата обращения: 4 марта 2024. Архивировано 4 марта 2024 года.
  89. Databricks Open Model License. Databricks (27 марта 2024). Дата обращения: 6 августа 2025.
  90. Databricks Open Model Acceptable Use Policy. Databricks (27 марта 2024). Дата обращения: 6 августа 2025.
  91. Fugaku-LLM Terms of Use (23 апреля 2024). Дата обращения: 6 августа 2025.
  92. Fugaku-LLM/Fugaku-LLM-13B · Hugging Face. huggingface.co. Дата обращения: 17 мая 2024. Архивировано 17 мая 2024 года.
  93. Dickson, Ben Meta introduces Chameleon, a state-of-the-art multimodal model. VentureBeat (22 мая 2024).
  94. chameleon/LICENSE at e3b711ef63b0bb3a129cf0cf0918e36a32f26e2c · facebookresearch/chameleon (англ.). Meta Research. Дата обращения: 6 августа 2025.
  95. AI, Mistral Cheaper, Better, Faster, Stronger. mistral.ai (17 апреля 2024). Дата обращения: 5 мая 2024. Архивировано 5 мая 2024 года.
  96. Phi-3. azure.microsoft.com (23 апреля 2024). Дата обращения: 28 апреля 2024. Архивировано 27 апреля 2024 года.
  97. Phi-3 Model Documentation. huggingface.co. Дата обращения: 28 апреля 2024. Архивировано 13 мая 2024 года.
  98. Qwen2. GitHub. Дата обращения: 17 июня 2024. Архивировано 17 июня 2024 года.
  99. DeepSeek-AI; Liu, Aixin; Feng, Bei & Wang, Bin (2024-06-19), DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model 
  100. NVIDIA Open Models License. Nvidia (16 июня 2025). Дата обращения: 6 августа 2025.
  101. Trustworthy AI. Nvidia (27 июня 2024). Дата обращения: 6 августа 2025.
  102. nvidia/Nemotron-4-340B-Base · Hugging Face. huggingface.co (14 июня 2024). Дата обращения: 15 июня 2024. Архивировано 15 июня 2024 года.
  103. Nemotron-4 340B | Research. research.nvidia.com. Дата обращения: 15 июня 2024. Архивировано 15 июня 2024 года.
  104. Introducing Claude 3.5 Sonnet (англ.). www.anthropic.com. Дата обращения: 8 августа 2025.
  105. Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku (англ.). www.anthropic.com. Дата обращения: 8 августа 2025.
  106. "The Llama 3 Herd of Models" (July 23, 2024) Llama Team, AI @ Meta
  107. llama-models/models/llama3_1/MODEL_CARD.md at main · meta-llama/llama-models (англ.). GitHub. Дата обращения: 23 июля 2024. Архивировано 23 июля 2024 года.
  108. Weatherbed, Jess xAI's new Grok-2 chatbots bring AI image generation to X. The Verge (14 августа 2024). Дата обращения: 18 ноября 2025.
  109. Ha, Anthony Elon Musk says xAI has open sourced Grok 2.5. TechCrunch (24 августа 2025). Дата обращения: 18 ноября 2025.
  110. Introducing OpenAI o1. openai.com. Дата обращения: 8 августа 2025.
  111. 111,0 111,1 Models Overview. mistral.ai. Дата обращения: 3 марта 2025.
  112. Phi-4 Model Card. huggingface.co. Дата обращения: 11 ноября 2025.
  113. Introducing Phi-4: Microsoft’s Newest Small Language Model Specializing in Complex Reasoning. techcommunity.microsoft.com. Дата обращения: 11 ноября 2025.
  114. deepseek-ai/DeepSeek-V3, DeepSeek, 2024-12-26, <https://github.com/deepseek-ai/DeepSeek-V3?tab=readme-ov-file>. Проверено 26 декабря 2024. 
  115. Feng, Coco DeepSeek wows coders with more powerful open-source V3 model (англ.). South China Morning Post (25 марта 2025). Дата обращения: 6 апреля 2025.
  116. Amazon Nova Micro, Lite, and Pro - AWS AI Service Cards3, Amazon, 2024-12-27, <https://docs.aws.amazon.com/ai/responsible-ai/nova-micro-lite-pro/overview.html>. Проверено 27 декабря 2024. 
  117. deepseek-ai/DeepSeek-R1, DeepSeek, 2025-01-21, <https://github.com/deepseek-ai/DeepSeek-R1>. Проверено 21 января 2025. 
  118. DeepSeek-AI; Guo, Daya; Yang, Dejian & Zhang, Haowei (2025-01-22), DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 
  119. Qwen; Yang, An; Yang, Baosong & Zhang, Beichen (2025-01-03), Qwen2.5 Technical Report 
  120. 120,0 120,1 MiniMax; Li, Aonian; Gong, Bangwei & Yang, Bo (2025-01-14), MiniMax-01: Scaling Foundation Models with Lightning Attention 
  121. MiniMax-AI/MiniMax-01, MiniMax, 2025-01-26, <https://github.com/MiniMax-AI/MiniMax-01?tab=readme-ov-file>. Проверено 26 января 2025. 
  122. Kavukcuoglu, Koray Gemini 2.0 is now available to everyone. Google (5 февраля 2025). Дата обращения: 6 февраля 2025.
  123. Gemini 2.0: Flash, Flash-Lite and Pro. Google for Developers. Дата обращения: 6 февраля 2025.
  124. Franzen, Carl Google launches Gemini 2.0 Pro, Flash-Lite and connects reasoning model Flash Thinking to YouTube, Maps and Search. VentureBeat (5 февраля 2025). Дата обращения: 6 февраля 2025.
  125. Claude 3.7 Sonnet and Claude Code (англ.). www.anthropic.com. Дата обращения: 8 августа 2025.
  126. Introducing GPT-4.5. openai.com. Дата обращения: 8 августа 2025.
  127. Grok 3 Beta — The Age of Reasoning Agents (англ.). x.ai. Дата обращения: 22 февраля 2025.
  128. Kavukcuoglu, Koray Gemini 2.5: Our most intelligent AI model. Google (25 марта 2025). Дата обращения: 23 сентября 2025.
  129. meta-llama/Llama-4-Maverick-17B-128E · Hugging Face. huggingface.co (5 апреля 2025). Дата обращения: 6 апреля 2025.
  130. The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation (англ.). ai.meta.com. Дата обращения: 5 апреля 2025. Архивировано 5 апреля 2025 года.
  131. Introducing OpenAI o3 and o4-mini. openai.com. Дата обращения: 8 августа 2025.
  132. Team, Qwen Qwen3: Think Deeper, Act Faster (англ.). Qwen (29 апреля 2025). Дата обращения: 29 апреля 2025.
  133. Introducing Claude 4 (англ.). www.anthropic.com. Дата обращения: 8 августа 2025.
  134. zai-org/GLM-4.5 · Hugging Face. huggingface.co (4 августа 2025). Дата обращения: 6 августа 2025.
  135. GLM-4.5: Reasoning, Coding, and Agentic Abililties (англ.). z.ai. Дата обращения: 6 августа 2025.
  136. Whitwam, Ryan OpenAI announces two "gpt-oss" open AI models, and you can download them today (англ.). Ars Technica (5 августа 2025). Дата обращения: 6 августа 2025.
  137. Claude Opus 4.1 (англ.). www.anthropic.com. Дата обращения: 8 августа 2025.
  138. Introducing GPT-5. openai.com (7 августа 2025). Дата обращения: 8 августа 2025.
  139. OpenAI Platform: GPT-5 Model Documentation. openai.com. Дата обращения: 18 августа 2025.
  140. deepseek-ai/DeepSeek-V3.1 · Hugging Face. huggingface.co (21 августа 2025). Дата обращения: 25 августа 2025.
  141. DeepSeek-V3.1 Release | DeepSeek API Docs (англ.). api-docs.deepseek.com. Дата обращения: 25 августа 2025.
  142. Apertus: Ein vollständig offenes, transparentes und mehrsprachiges Sprachmodell (нем.). Zürich: ETH Zürich (2 сентября 2025). Дата обращения: 7 ноября 2025.
  143. Kirchner, Malte Apertus: Schweiz stellt erstes offenes und mehrsprachiges KI-Modell vor (нем.). heise online (2 сентября 2025). Дата обращения: 7 ноября 2025.
  144. Introducing Claude Sonnet 4.5 (англ.). www.anthropic.com. Дата обращения: 29 сентября 2025.
  145. Introducing DeepSeek-V3.2-Exp | DeepSeek API Docs (англ.). api-docs.deepseek.com. Дата обращения: 1 октября 2025.
  146. deepseek-ai/DeepSeek-V3.2-Exp · Hugging Face. huggingface.co (29 сентября 2025). Дата обращения: 1 октября 2025.
  147. DeepSeek-V3.2-Exp/DeepSeek_V3_2.pdf at main · deepseek-ai/DeepSeek-V3.2-Exp (англ.). GitHub. Дата обращения: 1 октября 2025.
  148. GLM-4.6: Advanced Agentic, Reasoning and Coding Capabilities (англ.). z.ai. Дата обращения: 1 октября 2025.
  149. zai-org/GLM-4.6 · Hugging Face. huggingface.co (30 сентября 2025). Дата обращения: 1 октября 2025.
  150. GLM-4.6. modelscope.cn. Дата обращения: 1 октября 2025.
  151. A new era of intelligence with Gemini 3. Google (18 ноября 2025). Дата обращения: 5 января 2026.
  152. Introducing Claude Opus 4.5 (англ.). www.anthropic.com. Дата обращения: 8 января 2026.
  153. Advancing science and math with GPT-5.2. openai.com. Дата обращения: 4 января 2026.

Шаблон:Natural Language Processing Шаблон:Portal bar Шаблон:Authority control