Список больших языковых моделей
Перейти к навигации
Перейти к поиску
A large language model (LLM) is a type of machine learning model designed for natural language processing tasks such as language generation. LLMs are language models with many parameters, and are trained with self-supervised learning on a vast amount of text.
List
For the training cost column, 1 petaFLOP-day = 1 petaFLOP/sec × 1 day = 8.64E19 FLOP. Also, only the largest model's cost is written.
Шаблон:Table alignment Шаблон:Sort-under
| Name | Release date[lower-alpha 1] | Developer | Number of parameters (billion) [lower-alpha 2] | Corpus size | Training cost (petaFLOP- |
License[lower-alpha 3] | Notes |
|---|---|---|---|---|---|---|---|
| GPT-1 | 11 июня 2018 | OpenAI | Шаблон:Sort | Шаблон:Unknown | 1[1] | MIT[2] | First GPT model, decoder-only transformer. Trained for 30 days on 8 P600 GPUs.[3] |
| BERT | октябрь 2018 | Шаблон:Sort[4] | Шаблон:Sort words[4] | Шаблон:Sort[5] | Apache 2.0[6] | An early and influential language model.[7]Encoder-only and thus not built to be prompted or generative.[8] Training took 4 days on 64 TPUv2 chips.[9] | |
| T5 | октябрь 2019 | Шаблон:Sort[10] | 34 billion tokens[10] | Apache 2.0[11] | Base model for many Google projects, such as Imagen.[12] | ||
| XLNet | июнь 2019 | Шаблон:Sort[13] | Шаблон:Sort billion words | 330 | Apache 2.0[14] | An alternative to BERT; designed as encoder-only. Trained on 512 TPU v3 chips for 5.5 days.[15] | |
| GPT-2 | февраль 2019 | OpenAI | Шаблон:Sort[16] | 40GB[17] (~Шаблон:Sort tokens)[18] | 28[19] | MIT[20] | Trained on 32 TPUv3 chips for 1 week.[19] |
| GPT-3 | май 2020 | OpenAI | Шаблон:Sort[21] | Шаблон:Sort tokens[18] | 3640[22] | Шаблон:Proprietary | A fine-tuned variant of GPT-3, termed GPT-3.5, was made available to the public through a web interface called ChatGPT in 2022.[23] |
| GPT-Neo | март 2021 | EleutherAI | Шаблон:Sort[24] | 825 GiB[25] | Шаблон:Unknown | MIT[26] | The first of a series of free GPT-3 alternatives released by EleutherAI. GPT-Neo outperformed an equivalent-size GPT-3 model on some benchmarks, but was significantly worse than the largest GPT-3.[26] |
| GPT-J | июнь 2021 | EleutherAI | Шаблон:Sort[27] | 825 GiB[25] | 200[28] | Apache 2.0 | GPT-3-style language model |
| Megatron-Turing NLG | октябрь 2021[29] | Microsoft and Nvidia | Шаблон:Sort[30] | Шаблон:Sort tokens[30] | 38000[31] | Шаблон:Unreleased | Trained for 3 months on over 2000 A100 GPUs on the NVIDIA Selene Supercomputer, for over 3 million GPU-hours[31] |
| Ernie 3.0 Titan | декабрь 2021 | Baidu | Шаблон:Sort[32] | 4TB | Шаблон:Unknown | Шаблон:Proprietary | Chinese-language LLM. Ernie Bot is based on this model. |
| Claude[33] | декабрь 2021 | Anthropic | Шаблон:Sort[34] | Шаблон:Sort tokens[34] | Шаблон:Unknown | Шаблон:Proprietary | Fine-tuned for desirable behavior in conversations.[35] |
| GLaM (Generalist Language Model) | декабрь 2021 | Шаблон:Sort[36] | Шаблон:Sort tokens[36] | 5600[36] | Шаблон:Proprietary | Sparse mixture of experts model, making it more expensive to train but cheaper to run inference compared to GPT-3. | |
| Gopher | декабрь 2021 | DeepMind | Шаблон:Sort[37] | Шаблон:Sort tokens[38] | 5833[39] | Шаблон:Proprietary | Later developed into the Chinchilla model. |
| LaMDA (Language Models for Dialog Applications) | январь 2022 | Шаблон:Sort[40] | 1.56T words,[40] Шаблон:Sort tokens[38] | 4110[41] | Шаблон:Proprietary | Specialized for response generation in conversations. | |
| GPT-NeoX | февраль 2022 | EleutherAI | Шаблон:Sort[42] | 825 GiB[25] | 740[28] | Apache 2.0 | based on the Megatron architecture |
| Chinchilla | март 2022 | DeepMind | Шаблон:Sort[43] | Шаблон:Sort tokens[43][38] | 6805[39] | Шаблон:Proprietary | Reduced-parameter model trained on more data. Used in the Sparrow bot. Often cited for its neural scaling law. |
| PaLM (Pathways Language Model) | апрель 2022 | Шаблон:Sort[44] | Шаблон:Sort tokens[43] | Шаблон:Sort[39] | Шаблон:Proprietary | Trained for ~60 days on ~6000 TPU v4 chips.[39] | |
| OPT (Open Pretrained Transformer) | май 2022 | Meta | Шаблон:Sort[45] | Шаблон:Sort tokens[46] | 310[28] | Шаблон:Partial success[lower-alpha 4] | GPT-3 architecture with some adaptations from Megatron. Uniquely, the training logbook written by the team was published.[47] |
| YaLM 100B | июнь 2022 | Yandex | Шаблон:Sort[48] | 1.7TB[48] | Шаблон:Unknown | Apache 2.0 | English-Russian model based on Microsoft's Megatron-LM |
| Minerva | июнь 2022 | Шаблон:Sort[49] | 38.5B tokens from webpages filtered for mathematical content and from papers submitted to the arXiv preprint server[49] | Шаблон:Unknown | Шаблон:Proprietary | For solving "mathematical and scientific questions using step-by-step reasoning".[50] Initialized from PaLM models, then finetuned on mathematical and scientific data. | |
| BLOOM | июль 2022 | Large collaboration led by Hugging Face | Шаблон:Sort[51] | Шаблон:Sort tokens (1.6TB)[52] | Шаблон:Unknown | Шаблон:Partial success | Essentially GPT-3 but trained on a multi-lingual corpus (30% English excluding programming languages) |
| Galactica | ноябрь 2022 | Meta | Шаблон:Sort | Шаблон:Sort tokens[53] | Шаблон:Unknown | Шаблон:Partial success | Trained on scientific text and modalities. |
| AlexaTM (Teacher Models) | ноябрь 2022 | Amazon | Шаблон:Sort[54] | Шаблон:Sort[55] | Шаблон:Unknown | Шаблон:Proprietary[56] | Bidirectional sequence-to-sequence architecture |
| Llama | февраль 2023 | Meta AI | Шаблон:Sort[57] | Шаблон:Sort[57] | 6300[58] | Шаблон:Partial success[lower-alpha 5] | Corpus has 20 languages. "Overtrained" (compared to Chinchilla scaling law) for better performance with fewer parameters.[57] |
| GPT-4 | март 2023 | OpenAI | Шаблон:Unknown[lower-alpha 6] (According to rumors: 1760)[60] |
Шаблон:Unknown | Шаблон:Unknown, estimated 230,000 |
Шаблон:Proprietary | Available for all ChatGPT users now and used in several products. |
| Cerebras-GPT | март 2023 | Cerebras | Шаблон:Sort[61] | 270[28] | Apache 2.0 | Trained with Chinchilla formula. | |
| Falcon | март 2023 | Technology Innovation Institute | Шаблон:Sort[62] | 1 trillion tokens, from RefinedWeb (filtered web text corpus)[63] plus some "curated corpora".[64] | 2800[58] | Apache 2.0[65] | |
| BloombergGPT | март 2023 | Bloomberg L.P. | Шаблон:Sort | 363 billion token dataset based on Bloomberg's data sources, plus 345 billion tokens from general purpose datasets[66] | Шаблон:Unknown | Шаблон:Unreleased | Trained on financial data from proprietary sources, for financial tasks |
| PanGu-Σ | март 2023 | Huawei | Шаблон:Sort | 329 billion tokens[67] | Шаблон:Unknown | Шаблон:Proprietary | |
| OpenAssistant[68] | март 2023 | LAION | Шаблон:Sort | 1.5 trillion tokens | Шаблон:Unknown | Apache 2.0 | Trained on crowdsourced open data |
| Jurassic-2[69] | март 2023 | AI21 Labs | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Proprietary | Multilingual[70] |
| PaLM 2 (Pathways Language Model 2) | май 2023 | Шаблон:Sort[71] | Шаблон:Sort tokens[71] | Шаблон:Sort[58] | Шаблон:Proprietary | Was used in Bard chatbot.[72] | |
| YandexGPT | 17 мая 2023 | Yandex | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Proprietary | Used in Alice chatbot. |
| Llama 2 | июль 2023 | Meta AI | Шаблон:Sort[73] | Шаблон:Sort tokens[73] | Шаблон:Sort | Шаблон:Partial success | 1.7 million A100-hours.[74] |
| Claude 2 | июль 2023 | Anthropic | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Proprietary | Used in Claude chatbot.[75] |
| Granite 13b | июль 2023 | IBM | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Proprietary | Used in IBM Watsonx.[76] |
| Mistral 7B | сентябрь 2023 | Mistral AI | Шаблон:Sort[77] | Шаблон:Unknown | Шаблон:Unknown | Apache 2.0 | |
| YandexGPT 2 | 7 сентября 2023 | Yandex | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Proprietary | Used in Alice chatbot. |
| Claude 2.1 | ноябрь 2023 | Anthropic | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Proprietary | Used in Claude chatbot. Has a context window of 200,000 tokens, or ~500 pages.[78] |
| Grok 1[79] | ноябрь 2023 | xAI | 314 | Шаблон:Unknown | Шаблон:Unknown | Apache 2.0 | Used in Grok chatbot. Grok 1 has a context length of 8,192 tokens and has access to X (Twitter).[80] |
| Gemini 1.0 | декабрь 2023 | Google DeepMind | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Proprietary | Multimodal model, comes in three sizes. Used in the chatbot of the same name.[81] |
| Mixtral 8x7B | декабрь 2023 | Mistral AI | 46.7 | Шаблон:Unknown | Шаблон:Unknown | Apache 2.0 | Outperforms GPT-3.5 and Llama 2 70B on many benchmarks.[82] Mixture of experts model, with 12.9 billion parameters activated per token.[83] |
| DeepSeek-LLM | Шаблон:DTS | DeepSeek | 67 | 2T tokens[84]Шаблон:Pg | Шаблон:Sort | Шаблон:Partial success | Trained on English and Chinese text. 1e24 FLOPs for 67B. 1e23 FLOPs for 7B[84]Шаблон:Pg |
| Phi-2 | декабрь 2023 | Microsoft | 2.7 | 1.4T tokens | 419[85] | MIT | Trained on real and synthetic "textbook-quality" data, for 14 days on 96 A100 GPUs.[85] |
| Gemini 1.5 | февраль 2024 | Google DeepMind | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Proprietary | Multimodal model, based on a Mixture-of-Experts (MoE) architecture. Context window above 1 million tokens.[86] |
| Gemini Ultra | февраль 2024 | Google DeepMind | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Proprietary | |
| Gemma | февраль 2024 | Google DeepMind | 7 | 6T tokens | Шаблон:Unknown | Шаблон:Partial success[87] | |
| Claude 3 | март 2024 | Anthropic | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Proprietary | Includes three models, Haiku, Sonnet, and Opus.[88] |
| DBRX | март 2024 | Databricks and Mosaic ML | Шаблон:Sort | 12T tokens | Шаблон:Unknown | Шаблон:Partial success[89][90] | Training cost 10 million USD |
| YandexGPT 3 Pro | 28 марта 2024 | Yandex | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Proprietary | Used in Alice chatbot. |
| Fugaku-LLM | май 2024 | Fujitsu, Tokyo Institute of Technology, etc. | Шаблон:Sort | 380B tokens | Шаблон:Unknown | Шаблон:Partial success[91] | The largest model ever trained on CPU-only, on the Fugaku[92] |
| Chameleon | май 2024 | Meta AI | Шаблон:Sort[93] | Шаблон:Sort | Шаблон:Unknown | Шаблон:Partial success[94] | |
| Mixtral 8x22B | 17 апреля 2024 | Mistral AI | 141 | Шаблон:Unknown | Шаблон:Unknown | Apache 2.0 | [95] |
| Phi-3 | 23 апреля 2024 | Microsoft | 14[96] | 4.8T tokens | Шаблон:Unknown | MIT | Microsoft markets them as "small language model".[97] |
| Granite Code Models | май 2024 | IBM | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Unknown | Apache 2.0 | |
| YandexGPT 3 Lite | 28 мая 2024 | Yandex | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Proprietary | Used in Alice chatbot. |
| Qwen2 | июнь 2024 | Alibaba Cloud | 72[98] | 3T tokens | Шаблон:Unknown | Шаблон:Partial success | Multiple sizes, the smallest being 0.5B. |
| DeepSeek-V2 | Шаблон:DTS | DeepSeek | 236 | 8.1T tokens | Шаблон:Sort | Шаблон:Partial success | 1.4M hours on H800.[99] |
| Nemotron-4 | июнь 2024 | Nvidia | Шаблон:Sort | 9T tokens | Шаблон:Sort | Шаблон:Partial success[100][101] | Trained for 1 epoch. Trained on 6144 H100 GPUs between December 2023 and May 2024.[102][103] |
| Claude 3.5 | июнь 2024 | Anthropic | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Proprietary | Initially, only one model, Sonnet, was released.[104] In October 2024, Sonnet 3.5 was upgraded, and Haiku 3.5 became available.[105] |
| Llama 3.1 | июль 2024 | Meta AI | 405 | 15.6T tokens | Шаблон:Sort | Шаблон:Partial success | 405B version took 31 million hours on H100-80GB, at 3.8E25 FLOPs.[106][107] |
| Grok-2 | 14 августа 2024 | xAI | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Partial success | Originally closed-source, then re-released as "Grok 2.5" under a source-available license in August 2025.[108][109] |
| OpenAI o1 | 12 сентября 2024 | OpenAI | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Proprietary | Reasoning model.[110] |
| YandexGPT 4 Lite and Pro | 24 октября 2024 | Yandex | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Proprietary | Used in Alice chatbot. |
| Mistral Large | ноябрь 2024 | Mistral AI | 123 | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Partial success | Upgraded over time. The latest version is 24.11.[111] |
| Pixtral | ноябрь 2024 | Mistral AI | 123 | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Partial success | Multimodal. There is also a 12B version which is under Apache 2 license.[111] |
| Phi-4 | 12 декабря 2024 | Microsoft | 14[112] | Шаблон:Sort tokens | Шаблон:Unknown | MIT | Microsoft markets them as "small language model".[113] |
| DeepSeek-V3 | декабрь 2024 | DeepSeek | 671 | 14.8T tokens | Шаблон:Sort | MIT | 2.788M hours on H800 GPUs.[114] Originally released under the DeepSeek License, then re-released under the MIT License as "DeepSeek-V3-0324" in March 2025.[115] |
| Amazon Nova | декабрь 2024 | Amazon | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Proprietary | Includes three models, Nova Micro, Nova Lite, and Nova Pro[116] |
| DeepSeek-R1 | январь 2025 | DeepSeek | 671 | Not applicable | Шаблон:Unknown | MIT | No pretraining. Reinforcement-learned upon V3-Base.[117][118] |
| Qwen2.5 | январь 2025 | Alibaba | 72 | 18T tokens | Шаблон:Unknown | Шаблон:Partial success | 7 dense models, with parameter count from 0.5B to 72B. They also released 2 MoE variants.[119] |
| MiniMax-Text-01 | январь 2025 | Minimax | 456 | 4.7T tokens[120] | Шаблон:Unknown | Шаблон:Partial success | [121][120] |
| Gemini 2.0 | февраль 2025 | Google DeepMind | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Proprietary | Three models released: Flash, Flash-Lite and Pro[122][123][124] |
| Claude 3.7 | 24 февраля 2025 | Anthropic | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Proprietary | One model, Sonnet 3.7.[125] |
| YandexGPT 5 Lite Pretrain and Pro | 25 февраля 2025 | Yandex | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Proprietary | Used in Alice Neural Network chatbot. |
| GPT-4.5 | 27 февраля 2025 | OpenAI | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Proprietary | Largest non-reasoning model.[126] |
| Grok 3 | февраль 2025 | xAI | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Proprietary | Training cost claimed "10x the compute of previous state-of-the-art models".[127] |
| Gemini 2.5 | 25 марта 2025 | Google DeepMind | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Proprietary | Three models released: Flash, Flash-Lite and Pro[128] |
| YandexGPT 5 Lite Instruct | 31 марта 2025 | Yandex | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Proprietary | Used in Alice Neural Network chatbot. |
| Llama 4 | 5 апреля 2025 | Meta AI | Шаблон:Sort | Шаблон:Sort | Шаблон:Unknown | Шаблон:Partial success | [129][130] |
| OpenAI o3 and o4-mini | 16 апреля 2025 | OpenAI | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Proprietary | Reasoning models.[131] |
| Qwen3 | апрель 2025 | Alibaba Cloud | 235 | Шаблон:Sort | Шаблон:Unknown | Apache 2.0 | Multiple sizes, the smallest being 0.6B.[132] |
| Claude 4 | 22 мая 2025 | Anthropic | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Proprietary | Includes two models, Sonnet and Opus.[133] |
| Grok 4 | 9 июля 2025 | xAI | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Proprietary | |
| GLM-4.5 | 29 июля 2025 | Zhipu AI | 355 | 22T tokens | Шаблон:Unknown | MIT | Released in 335B and 106B sizes.[134] Corpus size was calculated by combining the 15 trillion tokens and the 7 trillion tokens pre-training mix.[135] |
| GPT-OSS | 5 августа 2025 | OpenAI | 117 | Шаблон:Unknown | Шаблон:Unknown | Apache 2.0 | Released in 20B and 120B sizes.[136] |
| Claude 4.1 | 5 августа 2025 | Anthropic | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Proprietary | Includes one model, Opus.[137] |
| GPT-5 | 7 августа 2025 | OpenAI | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Proprietary | Includes three models, GPT-5, GPT-5 mini, and GPT-5 nano. GPT-5 is available in ChatGPT and API. It includes thinking abilities. [138][139] |
| DeepSeek-V3.1 | 21 августа 2025 | DeepSeek | 671 | 15.639T | MIT | Training size: 14.8T tokens, of DeepSeek V3 plus 839B tokens from the extension phases (630B + 209B)[140]It is a hybrid model that can switch between thinking and non-thinking modes.[141] | |
| YandexGPT 5.1 Pro | 28 августа 2025 | Yandex | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Proprietary | Used in Alice Neural Network chatbot. |
| Apertus | 2 сентября 2025 | ETH Zurich and EPF Lausanne | 70 | Шаблон:Sort[142] | Шаблон:Unknown | Apache 2.0 | It's said to be the first LLM to be compliant with EU's Artificial Intelligence Act.[143] |
| Claude Sonnet 4.5 | 29 сентября 2025 | Anthropic | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Proprietary | [144] |
| DeepSeek-V3.2-Exp | 29 сентября 2025 | DeepSeek | 685 | MIT | This experimental model built upon v3.1-Terminus uses a custom efficient mechanism tagged DeepSeek Sparse Attention (DSA).[145][146][147] | ||
| GLM-4.6 | 30 сентября 2025 | Zhipu AI | 357 | Apache 2.0 | [148][149][150] | ||
| Alice AI LLM 1.0 | 28 октября 2025 | Yandex | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Proprietary | Available in Alice AI chatbot. |
| Gemini 3 | 18 ноября 2025 | Google DeepMind | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Proprietary | Two models released: Deep Think and Pro[151] |
| Claude Opus 4.5 | 24 ноября 2025 | Anthropic | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Proprietary | The largest model in the Claude family.[152] |
| GPT 5.2 | December 11, 2025 | OpenAI | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Unknown | Шаблон:Proprietary | It was able to solve an open problem in statistical learning theory that had previously remained unresolved by human researchers.[153] |
See also
Notes
- ↑ This is the date that documentation describing the model's architecture was first released.
- ↑ In many cases, researchers release or report on multiple versions of a model having different sizes. In these cases, the size of the largest model is listed here.
- ↑ This is the license of the pre-trained model weights. In almost all cases the training code itself is open-source or can be easily replicated. LLMs may be licensed differently from the chatbots that use them; for the licenses of chatbots, see List of chatbots.
- ↑ The smaller models including 66B are publicly available, while the 175B model is available on request.
- ↑ Facebook's license and distribution scheme restricted access to approved researchers, but the model weights were leaked and became widely available.
- ↑ As stated in Technical report: "Given both the competitive landscape and the safety implications of large-scale models like GPT-4, this report contains no further details about the architecture (including model size), hardware, training compute, dataset construction, training method ..."[59]
References
- ↑ Improving language understanding with unsupervised learning. openai.com (11 июня 2018). Дата обращения: 18 марта 2023. Архивировано 18 марта 2023 года.
- ↑ finetune-transformer-lm. GitHub. Дата обращения: 2 января 2024. Архивировано 19 мая 2023 года.
- ↑ Radford, Alec Improving language understanding with unsupervised learning. OpenAI (11 июня 2018). Дата обращения: 18 ноября 2025.
- ↑ 4,0 4,1 Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton & Toutanova, Kristina (11 October 2018), BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, arΧiv:1810.04805v2 [cs.CL]
- ↑ Prickett, Nicole Hemsoth Cerebras Shifts Architecture To Meet Massive AI/ML Models. The Next Platform (24 августа 2021). Дата обращения: 20 июня 2023. Архивировано 20 июня 2023 года.
- ↑ BERT (13 марта 2023). Дата обращения: 13 марта 2023. Архивировано 13 января 2021 года.
- ↑ Шаблон:Cite journal
- ↑ Patel, Ajay; Li, Bryan; Rasooli, Mohammad Sadegh; Constant, Noah; Raffel, Colin & Callison-Burch, Chris (2022), Bidirectional Language Models Are Also Few-shot Learners, arΧiv:2209.14500 [cs.LG]
- ↑ Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton & Toutanova, Kristina (11 October 2018), BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, arΧiv:1810.04805v2 [cs.CL]
- ↑ 10,0 10,1 Шаблон:Cite journal
- ↑ google-research/text-to-text-transfer-transformer, Google Research, 2024-04-02, <https://github.com/google-research/text-to-text-transfer-transformer>. Проверено 4 апреля 2024.
- ↑ Imagen: Text-to-Image Diffusion Models. imagen.research.google. Дата обращения: 4 апреля 2024. Архивировано 27 марта 2024 года.
- ↑ Pretrained models — transformers 2.0.0 documentation. huggingface.co. Дата обращения: 5 августа 2024. Архивировано 5 августа 2024 года.
- ↑ xlnet. GitHub. Дата обращения: 2 января 2024. Архивировано 2 января 2024 года.
- ↑ Yang, Zhilin; Dai, Zihang; Yang, Yiming; Carbonell, Jaime; Salakhutdinov, Ruslan & Le, Quoc V. (2 January 2020), XLNet: Generalized Autoregressive Pretraining for Language Understanding, arΧiv:1906.08237 [cs.CL]
- ↑ GPT-2: 1.5B Release (англ.). OpenAI (5 ноября 2019). Дата обращения: 14 ноября 2019. Архивировано 14 ноября 2019 года.
- ↑ Better language models and their implications. openai.com. Дата обращения: 13 марта 2023. Архивировано 16 марта 2023 года.
- ↑ 18,0 18,1 OpenAI's GPT-3 Language Model: A Technical Overview. lambdalabs.com (3 июня 2020). Дата обращения: 13 марта 2023. Архивировано 27 марта 2023 года.
- ↑ 19,0 19,1 openai-community/gpt2-xl · Hugging Face. huggingface.co. Дата обращения: 24 июля 2024. Архивировано 24 июля 2024 года.
- ↑ gpt-2. GitHub. Дата обращения: 13 марта 2023. Архивировано 11 марта 2023 года.
- ↑ Wiggers, Kyle The emerging types of language models and why they matter. TechCrunch (28 апреля 2022). Дата обращения: 9 марта 2023. Архивировано 16 марта 2023 года.
- ↑ Table D.1 in Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; et al. (May 28, 2020), Language Models are Few-Shot Learners, arΧiv:2005.14165v4 [cs.CL]
- ↑ ChatGPT: Optimizing Language Models for Dialogue. OpenAI (30 ноября 2022). Дата обращения: 13 января 2023. Архивировано 30 ноября 2022 года.
- ↑ GPT Neo (15 марта 2023). Дата обращения: 12 марта 2023. Архивировано 12 марта 2023 года.
- ↑ 25,0 25,1 25,2 Gao, Leo; Biderman, Stella; Black, Sid; Golding, Laurence; Hoppe, Travis; Foster, Charles; Phang, Jason; He, Horace; et al. (31 December 2020), The Pile: An 800GB Dataset of Diverse Text for Language Modeling, arΧiv:2101.00027 [cs.CL]
- ↑ 26,0 26,1 Iyer, Abhishek GPT-3's free alternative GPT-Neo is something to be excited about. VentureBeat (15 мая 2021). Дата обращения: 13 марта 2023. Архивировано 9 марта 2023 года.
- ↑ GPT-J-6B: An Introduction to the Largest Open Source GPT Model | Forefront. www.forefront.ai. Дата обращения: 28 февраля 2023. Архивировано из оригинала 9 марта 2023 года.
- ↑ 28,0 28,1 28,2 28,3 Dey, Nolan; Gosal, Gurpreet; Zhiming; Chen; Khachane, Hemant; Marshall, William; Pathria, Ribhu; Tom, Marvin; et al. (2023-04-01), Cerebras-GPT: Open Compute-Optimal Language Models Trained on the Cerebras Wafer-Scale Cluster, arΧiv:2304.03208 [cs.LG]
- ↑ Alvi, Ali; Kharya, Paresh Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, the World's Largest and Most Powerful Generative Language Model. Microsoft Research (11 октября 2021). Дата обращения: 13 марта 2023. Архивировано 13 марта 2023 года.
- ↑ 30,0 30,1 Smith, Shaden; Patwary, Mostofa; Norick, Brandon; LeGresley, Patrick; Rajbhandari, Samyam; Casper, Jared; Liu, Zhun; Prabhumoye, Shrimai; et al. (2022-02-04), Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model, arΧiv:2201.11990 [cs.CL]
- ↑ 31,0 31,1 Rajbhandari, Samyam; Li, Conglong; Yao, Zhewei & Zhang, Minjia (2022-07-21), DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale
- ↑ Wang, Shuohuan; Sun, Yu; Xiang, Yang; Wu, Zhihua; Ding, Siyu; Gong, Weibao; Feng, Shikun; Shang, Junyuan; et al. (December 23, 2021), ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation, arΧiv:2112.12731 [cs.CL]
- ↑ Product. Anthropic. Дата обращения: 14 марта 2023. Архивировано 16 марта 2023 года.
- ↑ 34,0 34,1 Askell, Amanda; Bai, Yuntao; Chen, Anna; Drain, Dawn; Ganguli, Deep; Henighan, Tom; Jones, Andy; Joseph, Nicholas; et al. (9 December 2021), A General Language Assistant as a Laboratory for Alignment, arΧiv:2112.00861 [cs.CL]
- ↑ Bai, Yuntao; Kadavath, Saurav; Kundu, Sandipan; Askell, Amanda; Kernion, Jackson; Jones, Andy; Chen, Anna; Goldie, Anna; et al. (15 December 2022), Constitutional AI: Harmlessness from AI Feedback, arΧiv:2212.08073 [cs.CL]
- ↑ 36,0 36,1 36,2 Dai, Andrew M; Du, Nan More Efficient In-Context Learning with GLaM. ai.googleblog.com (9 декабря 2021). Дата обращения: 9 марта 2023. Архивировано 12 марта 2023 года.
- ↑ Language modelling at scale: Gopher, ethical considerations, and retrieval. www.deepmind.com (8 декабря 2021). Дата обращения: 20 марта 2023. Архивировано 20 марта 2023 года.
- ↑ 38,0 38,1 38,2 Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur; Buchatskaya, Elena; Cai, Trevor; Rutherford, Eliza; Casas, Diego de Las; Hendricks, Lisa Anne; et al. (29 March 2022), Training Compute-Optimal Large Language Models, arΧiv:2203.15556 [cs.CL]
- ↑ 39,0 39,1 39,2 39,3 Table 20 and page 66 of PaLM: Scaling Language Modeling with Pathways Шаблон:Webarchive
- ↑ 40,0 40,1 Cheng, Heng-Tze; Thoppilan, Romal LaMDA: Towards Safe, Grounded, and High-Quality Dialog Models for Everything. ai.googleblog.com (21 января 2022). Дата обращения: 9 марта 2023. Архивировано 25 марта 2022 года.
- ↑ Thoppilan, Romal; De Freitas, Daniel; Hall, Jamie; Shazeer, Noam; Kulshreshtha, Apoorv; Cheng, Heng-Tze; Jin, Alicia; Bos, Taylor; et al. (2022-01-01), LaMDA: Language Models for Dialog Applications, arΧiv:2201.08239 [cs.CL]
- ↑ Шаблон:Cite conference
- ↑ 43,0 43,1 43,2 Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur; Sifre, Laurent An empirical analysis of compute-optimal large language model training. Deepmind Blog (12 апреля 2022). Дата обращения: 9 марта 2023. Архивировано 13 апреля 2022 года.
- ↑ Narang, Sharan; Chowdhery, Aakanksha Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance (англ.). ai.googleblog.com (4 апреля 2022). Дата обращения: 9 марта 2023. Архивировано 4 апреля 2022 года.
- ↑ Democratizing access to large-scale language models with OPT-175B. ai.facebook.com. Дата обращения: 12 марта 2023. Архивировано 12 марта 2023 года.
- ↑ Zhang, Susan; Roller, Stephen; Goyal, Naman; Artetxe, Mikel; Chen, Moya; Chen, Shuohui; Dewan, Christopher; Diab, Mona; et al. (21 June 2022), OPT: Open Pre-trained Transformer Language Models, arΧiv:2205.01068 [cs.CL]
- ↑ metaseq/projects/OPT/chronicles at main · facebookresearch/metaseq (англ.). GitHub. Дата обращения: 18 октября 2024.
- ↑ 48,0 48,1 Khrushchev, Mikhail; Vasilev, Ruslan; Petrov, Alexey & Zinov, Nikolay (2022-06-22), YaLM 100B, <https://github.com/yandex/YaLM-100B>. Проверено 18 марта 2023.
- ↑ 49,0 49,1 Lewkowycz, Aitor; Andreassen, Anders; Dohan, David; Dyer, Ethan; Michalewski, Henryk; Ramasesh, Vinay; Slone, Ambrose; Anil, Cem; et al. (30 June 2022), Solving Quantitative Reasoning Problems with Language Models, arΧiv:2206.14858 [cs.CL]
- ↑ Minerva: Solving Quantitative Reasoning Problems with Language Models. ai.googleblog.com (30 июня 2022). Дата обращения: 20 марта 2023.
- ↑ Шаблон:Cite journal
- ↑ bigscience/bloom · Hugging Face. huggingface.co. Дата обращения: 13 марта 2023. Архивировано 12 апреля 2023 года.
- ↑ Taylor, Ross; Kardas, Marcin; Cucurull, Guillem; Scialom, Thomas; Hartshorn, Anthony; Saravia, Elvis; Poulton, Andrew; Kerkez, Viktor; et al. (16 November 2022), Galactica: A Large Language Model for Science, arΧiv:2211.09085 [cs.CL]
- ↑ 20B-parameter Alexa model sets new marks in few-shot learning. Amazon Science (2 августа 2022). Дата обращения: 12 марта 2023. Архивировано 15 марта 2023 года.
- ↑ Soltan, Saleh; Ananthakrishnan, Shankar; FitzGerald, Jack; Gupta, Rahul; Hamza, Wael; Khan, Haidar; Peris, Charith; Rawls, Stephen; et al. (3 August 2022), AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model, arΧiv:2208.01448 [cs.CL]
- ↑ AlexaTM 20B is now available in Amazon SageMaker JumpStart | AWS Machine Learning Blog. aws.amazon.com (17 ноября 2022). Дата обращения: 13 марта 2023. Архивировано 13 марта 2023 года.
- ↑ 57,0 57,1 57,2 Introducing LLaMA: A foundational, 65-billion-parameter large language model. Meta AI (24 февраля 2023). Дата обращения: 9 марта 2023. Архивировано 3 марта 2023 года.
- ↑ 58,0 58,1 58,2 The Falcon has landed in the Hugging Face ecosystem. huggingface.co. Дата обращения: 20 июня 2023. Архивировано 20 июня 2023 года.
- ↑ GPT-4 Technical Report. OpenAI (2023). Дата обращения: 14 марта 2023. Архивировано 14 марта 2023 года.
- ↑ Schreiner, Maximilian GPT-4 architecture, datasets, costs and more leaked (амер. англ.). THE DECODER (11 июля 2023). Дата обращения: 26 июля 2024. Архивировано 12 июля 2023 года.
- ↑ Dey, Nolan Cerebras-GPT: A Family of Open, Compute-efficient, Large Language Models. Cerebras (28 марта 2023). Дата обращения: 28 марта 2023. Архивировано 28 марта 2023 года.
- ↑ Abu Dhabi-based TII launches its own version of ChatGPT. tii.ae. Дата обращения: 3 апреля 2023. Архивировано 3 апреля 2023 года.
- ↑ Penedo, Guilherme; Malartic, Quentin; Hesslow, Daniel; Cojocaru, Ruxandra; Cappelli, Alessandro; Alobeidli, Hamza; Pannier, Baptiste; Almazrouei, Ebtesam; et al. (2023-06-01), The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only, arΧiv:2306.01116 [cs.CL]
- ↑ tiiuae/falcon-40b · Hugging Face. huggingface.co (9 июня 2023). Дата обращения: 20 июня 2023.
- ↑ UAE's Falcon 40B, World's Top-Ranked AI Model from Technology Innovation Institute, is Now Royalty-Free Шаблон:Webarchive, 31 May 2023
- ↑ Wu, Shijie; Irsoy, Ozan; Lu, Steven; Dabravolski, Vadim; Dredze, Mark; Gehrmann, Sebastian; Kambadur, Prabhanjan; Rosenberg, David; et al. (March 30, 2023), BloombergGPT: A Large Language Model for Finance, arΧiv:2303.17564 [cs.LG]
- ↑ Ren, Xiaozhe; Zhou, Pingyi; Meng, Xinfan; Huang, Xinjing; Wang, Yadao; Wang, Weichao; Li, Pengfei; Zhang, Xiaoda; et al. (March 19, 2023), PanGu-Σ: Towards Trillion Parameter Language Model with Sparse Heterogeneous Computing, arΧiv:2303.10845 [cs.CL]
- ↑ Köpf, Andreas; Kilcher, Yannic; von Rütte, Dimitri; Anagnostidis, Sotiris; Tam, Zhi-Rui; Stevens, Keith; Barhoum, Abdullah; Duc, Nguyen Minh; et al. (2023-04-14), OpenAssistant Conversations – Democratizing Large Language Model Alignment, arΧiv:2304.07327 [cs.CL]
- ↑ Wrobel, Sharon Tel Aviv startup rolls out new advanced AI language model to rival OpenAI. The Times of Israel. Дата обращения: 24 июля 2023. Архивировано 24 июля 2023 года.
- ↑ Wiggers, Kyle With Bedrock, Amazon enters the generative AI race. TechCrunch (13 апреля 2023). Дата обращения: 24 июля 2023. Архивировано 24 июля 2023 года.
- ↑ 71,0 71,1 Elias, Jennifer Google's newest A.I. model uses nearly five times more text data for training than its predecessor. CNBC (16 мая 2023). Дата обращения: 18 мая 2023. Архивировано 16 мая 2023 года.
- ↑ Introducing PaLM 2. Google (10 мая 2023). Дата обращения: 18 мая 2023. Архивировано 18 мая 2023 года.
- ↑ 73,0 73,1 Introducing Llama 2: The Next Generation of Our Open Source Large Language Model. Meta AI (2023). Дата обращения: 19 июля 2023. Архивировано 5 января 2024 года.
- ↑ llama/MODEL_CARD.md at main · meta-llama/llama. GitHub. Дата обращения: 28 мая 2024. Архивировано 28 мая 2024 года.
- ↑ Claude 2. anthropic.com. Дата обращения: 12 декабря 2023. Архивировано 15 декабря 2023 года.
- ↑ Nirmal, Dinesh Building AI for business: IBM's Granite foundation models (амер. англ.). IBM Blog (7 сентября 2023). Дата обращения: 11 августа 2024. Архивировано 22 июля 2024 года.
- ↑ Announcing Mistral 7B. Mistral (2023). Дата обращения: 6 октября 2023. Архивировано 6 января 2024 года.
- ↑ Introducing Claude 2.1. anthropic.com. Дата обращения: 12 декабря 2023. Архивировано 15 декабря 2023 года.
- ↑ xai-org/grok-1, xai-org, 2024-03-19, <https://github.com/xai-org/grok-1>. Проверено 19 марта 2024.
- ↑ Grok-1 model card. x.ai. Дата обращения: 12 декабря 2023.
- ↑ Gemini – Google DeepMind. deepmind.google. Дата обращения: 12 декабря 2023. Архивировано 8 декабря 2023 года.
- ↑ Franzen, Carl Mistral shocks AI community as latest open source model eclipses GPT-3.5 performance. VentureBeat (11 декабря 2023). Дата обращения: 12 декабря 2023. Архивировано 11 декабря 2023 года.
- ↑ Mixtral of experts. mistral.ai (11 декабря 2023). Дата обращения: 12 декабря 2023. Архивировано 13 февраля 2024 года.
- ↑ 84,0 84,1 DeepSeek-AI; Bi, Xiao; Chen, Deli & Chen, Guanting (2024-01-05), DeepSeek LLM: Scaling Open-Source Language Models with Longtermism
- ↑ 85,0 85,1 Hughes, Alyssa Phi-2: The surprising power of small language models. Microsoft Research (12 декабря 2023). Дата обращения: 13 декабря 2023. Архивировано 12 декабря 2023 года.
- ↑ Our next-generation model: Gemini 1.5. Google (15 февраля 2024). — «This means 1.5 Pro can process vast amounts of information in one go — including 1 hour of video, 11 hours of audio, codebases with over 30,000 lines of code or over 700,000 words. In our research, we’ve also successfully tested up to 10 million tokens.» Дата обращения: 16 февраля 2024. Архивировано 16 февраля 2024 года.
- ↑ Gemma.
- ↑ Introducing the next generation of Claude. www.anthropic.com. Дата обращения: 4 марта 2024. Архивировано 4 марта 2024 года.
- ↑ Databricks Open Model License. Databricks (27 марта 2024). Дата обращения: 6 августа 2025.
- ↑ Databricks Open Model Acceptable Use Policy. Databricks (27 марта 2024). Дата обращения: 6 августа 2025.
- ↑ Fugaku-LLM Terms of Use (23 апреля 2024). Дата обращения: 6 августа 2025.
- ↑ Fugaku-LLM/Fugaku-LLM-13B · Hugging Face. huggingface.co. Дата обращения: 17 мая 2024. Архивировано 17 мая 2024 года.
- ↑ Dickson, Ben Meta introduces Chameleon, a state-of-the-art multimodal model. VentureBeat (22 мая 2024).
- ↑ chameleon/LICENSE at e3b711ef63b0bb3a129cf0cf0918e36a32f26e2c · facebookresearch/chameleon (англ.). Meta Research. Дата обращения: 6 августа 2025.
- ↑ AI, Mistral Cheaper, Better, Faster, Stronger. mistral.ai (17 апреля 2024). Дата обращения: 5 мая 2024. Архивировано 5 мая 2024 года.
- ↑ Phi-3. azure.microsoft.com (23 апреля 2024). Дата обращения: 28 апреля 2024. Архивировано 27 апреля 2024 года.
- ↑ Phi-3 Model Documentation. huggingface.co. Дата обращения: 28 апреля 2024. Архивировано 13 мая 2024 года.
- ↑ Qwen2. GitHub. Дата обращения: 17 июня 2024. Архивировано 17 июня 2024 года.
- ↑ DeepSeek-AI; Liu, Aixin; Feng, Bei & Wang, Bin (2024-06-19), DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
- ↑ NVIDIA Open Models License. Nvidia (16 июня 2025). Дата обращения: 6 августа 2025.
- ↑ Trustworthy AI. Nvidia (27 июня 2024). Дата обращения: 6 августа 2025.
- ↑ nvidia/Nemotron-4-340B-Base · Hugging Face. huggingface.co (14 июня 2024). Дата обращения: 15 июня 2024. Архивировано 15 июня 2024 года.
- ↑ Nemotron-4 340B | Research. research.nvidia.com. Дата обращения: 15 июня 2024. Архивировано 15 июня 2024 года.
- ↑ Introducing Claude 3.5 Sonnet (англ.). www.anthropic.com. Дата обращения: 8 августа 2025.
- ↑ Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku (англ.). www.anthropic.com. Дата обращения: 8 августа 2025.
- ↑ "The Llama 3 Herd of Models" (July 23, 2024) Llama Team, AI @ Meta
- ↑ llama-models/models/llama3_1/MODEL_CARD.md at main · meta-llama/llama-models (англ.). GitHub. Дата обращения: 23 июля 2024. Архивировано 23 июля 2024 года.
- ↑ Weatherbed, Jess xAI's new Grok-2 chatbots bring AI image generation to X. The Verge (14 августа 2024). Дата обращения: 18 ноября 2025.
- ↑ Ha, Anthony Elon Musk says xAI has open sourced Grok 2.5. TechCrunch (24 августа 2025). Дата обращения: 18 ноября 2025.
- ↑ Introducing OpenAI o1. openai.com. Дата обращения: 8 августа 2025.
- ↑ 111,0 111,1 Models Overview. mistral.ai. Дата обращения: 3 марта 2025.
- ↑ Phi-4 Model Card. huggingface.co. Дата обращения: 11 ноября 2025.
- ↑ Introducing Phi-4: Microsoft’s Newest Small Language Model Specializing in Complex Reasoning. techcommunity.microsoft.com. Дата обращения: 11 ноября 2025.
- ↑ deepseek-ai/DeepSeek-V3, DeepSeek, 2024-12-26, <https://github.com/deepseek-ai/DeepSeek-V3?tab=readme-ov-file>. Проверено 26 декабря 2024.
- ↑ Feng, Coco DeepSeek wows coders with more powerful open-source V3 model (англ.). South China Morning Post (25 марта 2025). Дата обращения: 6 апреля 2025.
- ↑ Amazon Nova Micro, Lite, and Pro - AWS AI Service Cards3, Amazon, 2024-12-27, <https://docs.aws.amazon.com/ai/responsible-ai/nova-micro-lite-pro/overview.html>. Проверено 27 декабря 2024.
- ↑ deepseek-ai/DeepSeek-R1, DeepSeek, 2025-01-21, <https://github.com/deepseek-ai/DeepSeek-R1>. Проверено 21 января 2025.
- ↑ DeepSeek-AI; Guo, Daya; Yang, Dejian & Zhang, Haowei (2025-01-22), DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
- ↑ Qwen; Yang, An; Yang, Baosong & Zhang, Beichen (2025-01-03), Qwen2.5 Technical Report
- ↑ 120,0 120,1 MiniMax; Li, Aonian; Gong, Bangwei & Yang, Bo (2025-01-14), MiniMax-01: Scaling Foundation Models with Lightning Attention
- ↑ MiniMax-AI/MiniMax-01, MiniMax, 2025-01-26, <https://github.com/MiniMax-AI/MiniMax-01?tab=readme-ov-file>. Проверено 26 января 2025.
- ↑ Kavukcuoglu, Koray Gemini 2.0 is now available to everyone. Google (5 февраля 2025). Дата обращения: 6 февраля 2025.
- ↑ Gemini 2.0: Flash, Flash-Lite and Pro. Google for Developers. Дата обращения: 6 февраля 2025.
- ↑ Franzen, Carl Google launches Gemini 2.0 Pro, Flash-Lite and connects reasoning model Flash Thinking to YouTube, Maps and Search. VentureBeat (5 февраля 2025). Дата обращения: 6 февраля 2025.
- ↑ Claude 3.7 Sonnet and Claude Code (англ.). www.anthropic.com. Дата обращения: 8 августа 2025.
- ↑ Introducing GPT-4.5. openai.com. Дата обращения: 8 августа 2025.
- ↑ Grok 3 Beta — The Age of Reasoning Agents (англ.). x.ai. Дата обращения: 22 февраля 2025.
- ↑ Kavukcuoglu, Koray Gemini 2.5: Our most intelligent AI model. Google (25 марта 2025). Дата обращения: 23 сентября 2025.
- ↑ meta-llama/Llama-4-Maverick-17B-128E · Hugging Face. huggingface.co (5 апреля 2025). Дата обращения: 6 апреля 2025.
- ↑ The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation (англ.). ai.meta.com. Дата обращения: 5 апреля 2025. Архивировано 5 апреля 2025 года.
- ↑ Introducing OpenAI o3 and o4-mini. openai.com. Дата обращения: 8 августа 2025.
- ↑ Team, Qwen Qwen3: Think Deeper, Act Faster (англ.). Qwen (29 апреля 2025). Дата обращения: 29 апреля 2025.
- ↑ Introducing Claude 4 (англ.). www.anthropic.com. Дата обращения: 8 августа 2025.
- ↑ zai-org/GLM-4.5 · Hugging Face. huggingface.co (4 августа 2025). Дата обращения: 6 августа 2025.
- ↑ GLM-4.5: Reasoning, Coding, and Agentic Abililties (англ.). z.ai. Дата обращения: 6 августа 2025.
- ↑ Whitwam, Ryan OpenAI announces two "gpt-oss" open AI models, and you can download them today (англ.). Ars Technica (5 августа 2025). Дата обращения: 6 августа 2025.
- ↑ Claude Opus 4.1 (англ.). www.anthropic.com. Дата обращения: 8 августа 2025.
- ↑ Introducing GPT-5. openai.com (7 августа 2025). Дата обращения: 8 августа 2025.
- ↑ OpenAI Platform: GPT-5 Model Documentation. openai.com. Дата обращения: 18 августа 2025.
- ↑ deepseek-ai/DeepSeek-V3.1 · Hugging Face. huggingface.co (21 августа 2025). Дата обращения: 25 августа 2025.
- ↑ DeepSeek-V3.1 Release | DeepSeek API Docs (англ.). api-docs.deepseek.com. Дата обращения: 25 августа 2025.
- ↑ Apertus: Ein vollständig offenes, transparentes und mehrsprachiges Sprachmodell (нем.). Zürich: ETH Zürich (2 сентября 2025). Дата обращения: 7 ноября 2025.
- ↑ Kirchner, Malte Apertus: Schweiz stellt erstes offenes und mehrsprachiges KI-Modell vor (нем.). heise online (2 сентября 2025). Дата обращения: 7 ноября 2025.
- ↑ Introducing Claude Sonnet 4.5 (англ.). www.anthropic.com. Дата обращения: 29 сентября 2025.
- ↑ Introducing DeepSeek-V3.2-Exp | DeepSeek API Docs (англ.). api-docs.deepseek.com. Дата обращения: 1 октября 2025.
- ↑ deepseek-ai/DeepSeek-V3.2-Exp · Hugging Face. huggingface.co (29 сентября 2025). Дата обращения: 1 октября 2025.
- ↑ DeepSeek-V3.2-Exp/DeepSeek_V3_2.pdf at main · deepseek-ai/DeepSeek-V3.2-Exp (англ.). GitHub. Дата обращения: 1 октября 2025.
- ↑ GLM-4.6: Advanced Agentic, Reasoning and Coding Capabilities (англ.). z.ai. Дата обращения: 1 октября 2025.
- ↑ zai-org/GLM-4.6 · Hugging Face. huggingface.co (30 сентября 2025). Дата обращения: 1 октября 2025.
- ↑ GLM-4.6. modelscope.cn. Дата обращения: 1 октября 2025.
- ↑ A new era of intelligence with Gemini 3. Google (18 ноября 2025). Дата обращения: 5 января 2026.
- ↑ Introducing Claude Opus 4.5 (англ.). www.anthropic.com. Дата обращения: 8 января 2026.
- ↑ Advancing science and math with GPT-5.2. openai.com. Дата обращения: 4 января 2026.
Шаблон:Natural Language Processing Шаблон:Portal bar Шаблон:Authority control