Список больших языковых моделей

A large language model (LLM) is a type of machine learning model designed for natural language processing tasks such as language generation. LLMs are language models with many parameters, and are trained with self-supervised learning on a vast amount of text.

Список

For the training cost column, 1 petaFLOP-day = 1 petaFLOP/sec × 1 day = 8.64E19 FLOP. Also, only the largest model's cost is written.

Шаблон:Table alignment Шаблон:Sort-under

Name	Release date^{[lower-alpha 1]}	Developer	Number of parameters (billion) ^{[lower-alpha 2]}	Corpus size	Training cost (petaFLOP-day)	License^{[lower-alpha 3]}	Notes
GPT-1	11 июня 2018	OpenAI	0.117	Неизвестно	1^[1]	MIT^[2]	First GPT model, decoder-only transformer. Trained for 30 days on 8 P600 GPUs.^[3]
BERT	октябрь 2018	Google	0.340^[4]	3.3 billion words^[4]	9^[5]	Apache 2.0^[6]	An early and influential language model.^[7]Encoder-only and thus not built to be prompted or generative.^[8] Training took 4 days on 64 TPUv2 chips.^[9]
T5	октябрь 2019	Google	11^[10]	34 billion tokens^[10]		Apache 2.0^[11]	Base model for many Google projects, such as Imagen.^[12]
XLNet	июнь 2019	Google	0.340^[13]	33 billion words	330	Apache 2.0^[14]	An alternative to BERT; designed as encoder-only. Trained on 512 TPU v3 chips for 5.5 days.^[15]
GPT-2	февраль 2019	OpenAI	1.5^[16]	40GB^[17] (~10 billion tokens)^[18]	28^[19]	MIT^[20]	Trained on 32 TPUv3 chips for 1 week.^[19]
GPT-3	май 2020	OpenAI	175^[21]	300 billion tokens^[18]	3640^[22]	проприетарная	A fine-tuned variant of GPT-3, termed GPT-3.5, was made available to the public through a web interface called ChatGPT in 2022.^[23]
GPT-Neo	март 2021	EleutherAI	2.7^[24]	825 GiB^[25]	Неизвестно	MIT^[26]	The first of a series of free GPT-3 alternatives released by EleutherAI. GPT-Neo outperformed an equivalent-size GPT-3 model on some benchmarks, but was significantly worse than the largest GPT-3.^[26]
GPT-J	июнь 2021	EleutherAI	6^[27]	825 GiB^[25]	200^[28]	Apache 2.0	GPT-3-style language model
Megatron-Turing NLG	октябрь 2021^[29]	Microsoft and Nvidia	530^[30]	338.6 billion tokens^[30]	38000^[31]	Неизвестно	Trained for 3 months on over 2000 A100 GPUs on the NVIDIA Selene Supercomputer, for over 3 million GPU-hours^[31]
Ernie 3.0 Titan	декабрь 2021	Baidu	260^[32]	4TB	Неизвестно	проприетарная	Chinese-language LLM. Ernie Bot is based on this model.
Claude^[33]	декабрь 2021	Anthropic	52^[34]	400 billion tokens^[34]	Неизвестно	проприетарная	Fine-tuned for desirable behavior in conversations.^[35]
GLaM (Generalist Language Model)	декабрь 2021	Google	1200^[36]	1.6 trillion tokens^[36]	5600^[36]	проприетарная	Sparse mixture of experts model, making it more expensive to train but cheaper to run inference compared to GPT-3.
Gopher	декабрь 2021	DeepMind	280^[37]	300 billion tokens^[38]	5833^[39]	проприетарная	Later developed into the Chinchilla model.
LaMDA (Language Models for Dialog Applications)	январь 2022	Google	137^[40]	1.56T words,^[40] 168 billion tokens^[38]	4110^[41]	проприетарная	Specialized for response generation in conversations.
GPT-NeoX	февраль 2022	EleutherAI	20^[42]	825 GiB^[25]	740^[28]	Apache 2.0	based on the Megatron architecture
Chinchilla	март 2022	DeepMind	70^[43]	1.4 trillion tokens^[43]^[38]	6805^[39]	проприетарная	Reduced-parameter model trained on more data. Used in the Sparrow bot. Often cited for its neural scaling law.
PaLM (Pathways Language Model)	апрель 2022	Google	540^[44]	768 billion tokens^[43]	29,250^[39]	проприетарная	Trained for ~60 days on ~6000 TPU v4 chips.^[39]
OPT (Open Pretrained Transformer)	май 2022	Meta	175^[45]	180 billion tokens^[46]	310^[28]	Non-commercial research^{[lower-alpha 4]}	GPT-3 architecture with some adaptations from Megatron. Uniquely, the training logbook written by the team was published.^[47]
YaLM 100B	июнь 2022	Yandex	100^[48]	1.7TB^[48]	Неизвестно	Apache 2.0	English-Russian model based on Microsoft's Megatron-LM
Minerva	июнь 2022	Google	540^[49]	38.5B tokens from webpages filtered for mathematical content and from papers submitted to the arXiv preprint server^[49]	Неизвестно	проприетарная	For solving "mathematical and scientific questions using step-by-step reasoning".^[50] Initialized from PaLM models, then finetuned on mathematical and scientific data.
BLOOM	июль 2022	Large collaboration led by Hugging Face	175^[51]	350 billion tokens (1.6TB)^[52]	Неизвестно	Responsible AI	Essentially GPT-3 but trained on a multi-lingual corpus (30% English excluding programming languages)
Galactica	ноябрь 2022	Meta	120	106 billion tokens^[53]	Неизвестно	CC-BY-NC-4.0	Trained on scientific text and modalities.
AlexaTM (Teacher Models)	ноябрь 2022	Amazon	20^[54]	1.3 trillion^[55]	Неизвестно	проприетарная^[56]	Bidirectional sequence-to-sequence architecture
Llama	февраль 2023	Meta AI	65^[57]	1.4 trillion^[57]	6300^[58]	Non-commercial research^{[lower-alpha 5]}	Corpus has 20 languages. "Overtrained" (compared to Chinchilla scaling law) for better performance with fewer parameters.^[57]
GPT-4	март 2023	OpenAI	Неизвестно^{[lower-alpha 6]} (According to rumors: 1760)^[60]	Неизвестно	Неизвестно, estimated 230,000	проприетарная	Available for all ChatGPT users now and used in several products.
Cerebras-GPT	март 2023	Cerebras	13^[61]		270^[28]	Apache 2.0	Trained with Chinchilla formula.
Falcon	март 2023	Technology Innovation Institute	40^[62]	1 trillion tokens, from RefinedWeb (filtered web text corpus)^[63] plus some "curated corpora".^[64]	2800^[58]	Apache 2.0^[65]
BloombergGPT	март 2023	Bloomberg L.P.	50	363 billion token dataset based on Bloomberg's data sources, plus 345 billion tokens from general purpose datasets^[66]	Неизвестно	Неизвестно	Trained on financial data from proprietary sources, for financial tasks
PanGu-Σ	март 2023	Huawei	1085	329 billion tokens^[67]	Неизвестно	проприетарная
OpenAssistant^[68]	март 2023	LAION	17	1.5 trillion tokens	Неизвестно	Apache 2.0	Trained on crowdsourced open data
Jurassic-2^[69]	март 2023	AI21 Labs	Неизвестно	Неизвестно	Неизвестно	проприетарная	Multilingual^[70]
PaLM 2 (Pathways Language Model 2)	май 2023	Google	340^[71]	3.6 trillion tokens^[71]	85,000^[58]	проприетарная	Was used in Bard chatbot.^[72]
YandexGPT	17 мая 2023	Yandex	Неизвестно	Неизвестно	Неизвестно	проприетарная	Used in Alice chatbot.
Llama 2	июль 2023	Meta AI	70^[73]	2 trillion tokens^[73]	21,000	Llama 2 license	1.7 million A100-hours.^[74]
Claude 2	июль 2023	Anthropic	Неизвестно	Неизвестно	Неизвестно	проприетарная	Used in Claude chatbot.^[75]
Granite 13b	июль 2023	IBM	Неизвестно	Неизвестно	Неизвестно	проприетарная	Used in IBM Watsonx.^[76]
Mistral 7B	сентябрь 2023	Mistral AI	7.3^[77]	Неизвестно	Неизвестно	Apache 2.0
YandexGPT 2	7 сентября 2023	Yandex	Неизвестно	Неизвестно	Неизвестно	проприетарная	Used in Alice chatbot.
Claude 2.1	ноябрь 2023	Anthropic	Неизвестно	Неизвестно	Неизвестно	проприетарная	Used in Claude chatbot. Has a context window of 200,000 tokens, or ~500 pages.^[78]
Grok 1^[79]	ноябрь 2023	xAI	314	Неизвестно	Неизвестно	Apache 2.0	Used in Grok chatbot. Grok 1 has a context length of 8,192 tokens and has access to X (Twitter).^[80]
Gemini 1.0	декабрь 2023	Google DeepMind	Неизвестно	Неизвестно	Неизвестно	проприетарная	Multimodal model, comes in three sizes. Used in the chatbot of the same name.^[81]
Mixtral 8x7B	декабрь 2023	Mistral AI	46.7	Неизвестно	Неизвестно	Apache 2.0	Outperforms GPT-3.5 and Llama 2 70B on many benchmarks.^[82] Mixture of experts model, with 12.9 billion parameters activated per token.^[83]
DeepSeek-LLM	Шаблон:DTS	DeepSeek	67	2T tokens^[84]Шаблон:Pg	12,000	DeepSeek License	Trained on English and Chinese text. 1e24 FLOPs for 67B. 1e23 FLOPs for 7B^[84]Шаблон:Pg
Phi-2	декабрь 2023	Microsoft	2.7	1.4T tokens	419^[85]	MIT	Trained on real and synthetic "textbook-quality" data, for 14 days on 96 A100 GPUs.^[85]
Gemini 1.5	февраль 2024	Google DeepMind	Неизвестно	Неизвестно	Неизвестно	проприетарная	Multimodal model, based on a Mixture-of-Experts (MoE) architecture. Context window above 1 million tokens.^[86]
Gemini Ultra	февраль 2024	Google DeepMind	Неизвестно	Неизвестно	Неизвестно	проприетарная
Gemma	февраль 2024	Google DeepMind	7	6T tokens	Неизвестно	Gemma Terms of Use^[87]
Claude 3	март 2024	Anthropic	Неизвестно	Неизвестно	Неизвестно	проприетарная	Includes three models, Haiku, Sonnet, and Opus.^[88]
DBRX	март 2024	Databricks and Mosaic ML	136	12T tokens	Неизвестно	Databricks Open Model License^[89]^[90]	Training cost 10 million USD
YandexGPT 3 Pro	28 марта 2024	Yandex	Неизвестно	Неизвестно	Неизвестно	проприетарная	Used in Alice chatbot.
Fugaku-LLM	май 2024	Fujitsu, Tokyo Institute of Technology, etc.	13	380B tokens	Неизвестно	Fugaku-LLM Terms of Use^[91]	The largest model ever trained on CPU-only, on the Fugaku^[92]
Chameleon	май 2024	Meta AI	34^[93]	4.4 trillion	Неизвестно	Non-commercial research^[94]
Mixtral 8x22B	17 апреля 2024	Mistral AI	141	Неизвестно	Неизвестно	Apache 2.0	^[95]
Phi-3	23 апреля 2024	Microsoft	14^[96]	4.8T tokens	Неизвестно	MIT	Microsoft markets them as "small language model".^[97]
Granite Code Models	май 2024	IBM	Неизвестно	Неизвестно	Неизвестно	Apache 2.0
YandexGPT 3 Lite	28 мая 2024	Yandex	Неизвестно	Неизвестно	Неизвестно	проприетарная	Used in Alice chatbot.
Qwen2	июнь 2024	Alibaba Cloud	72^[98]	3T tokens	Неизвестно	Qwen License	Multiple sizes, the smallest being 0.5B.
DeepSeek-V2	Шаблон:DTS	DeepSeek	236	8.1T tokens	28,000	DeepSeek License	1.4M hours on H800.^[99]
Nemotron-4	июнь 2024	Nvidia	340	9T tokens	200,000	NVIDIA Open Model License^[100]^[101]	Trained for 1 epoch. Trained on 6144 H100 GPUs between December 2023 and May 2024.^[102]^[103]
Claude 3.5	июнь 2024	Anthropic	Неизвестно	Неизвестно	Неизвестно	проприетарная	Initially, only one model, Sonnet, was released.^[104] In October 2024, Sonnet 3.5 was upgraded, and Haiku 3.5 became available.^[105]
Llama 3.1	июль 2024	Meta AI	405	15.6T tokens	440,000	Llama 3 license	405B version took 31 million hours on H100-80GB, at 3.8E25 FLOPs.^[106]^[107]
Grok-2	14 августа 2024	xAI	Неизвестно	Неизвестно	Неизвестно	xAI Community License Agreement^[108]^[109]	Originally closed-source, then re-released as "Grok 2.5" under a source-available license in August 2025.^[110]^[111]
OpenAI o1	12 сентября 2024	OpenAI	Неизвестно	Неизвестно	Неизвестно	проприетарная	Reasoning model.^[112]
YandexGPT 4 Lite and Pro	24 октября 2024	Yandex	Неизвестно	Неизвестно	Неизвестно	проприетарная	Used in Alice chatbot.
Mistral Large	ноябрь 2024	Mistral AI	123	Неизвестно	Неизвестно	Mistral Research License	Upgraded over time. The latest version is 24.11.^[113]
Pixtral	ноябрь 2024	Mistral AI	123	Неизвестно	Неизвестно	Mistral Research License	Multimodal. There is also a 12B version which is under Apache 2 license.^[113]
Phi-4	12 декабря 2024	Microsoft	14^[114]	9.8T tokens	Неизвестно	MIT	Microsoft markets them as "small language model".^[115]
DeepSeek-V3	декабрь 2024	DeepSeek	671	14.8T tokens	56,000	MIT	2.788M hours on H800 GPUs.^[116] Originally released under the DeepSeek License, then re-released under the MIT License as "DeepSeek-V3-0324" in March 2025.^[117]
Amazon Nova	декабрь 2024	Amazon	Неизвестно	Неизвестно	Неизвестно	проприетарная	Includes three models, Nova Micro, Nova Lite, and Nova Pro^[118]
DeepSeek-R1	январь 2025	DeepSeek	671	Not applicable	Неизвестно	MIT	No pretraining. Reinforcement-learned upon V3-Base.^[119]^[120]
Qwen2.5	январь 2025	Alibaba	72	18T tokens	Неизвестно	Qwen License	7 dense models, with parameter count from 0.5B to 72B. They also released 2 MoE variants.^[121]
MiniMax-Text-01	январь 2025	Minimax	456	4.7T tokens^[122]	Неизвестно	Minimax Model license	^[123]^[122]
Gemini 2.0	февраль 2025	Google DeepMind	Неизвестно	Неизвестно	Неизвестно	проприетарная	Three models released: Flash, Flash-Lite and Pro^[124]^[125]^[126]
Claude 3.7	24 февраля 2025	Anthropic	Неизвестно	Неизвестно	Неизвестно	проприетарная	One model, Sonnet 3.7.^[127]
YandexGPT 5 Lite Pretrain and Pro	25 февраля 2025	Yandex	Неизвестно	Неизвестно	Неизвестно	проприетарная	Used in Alice Neural Network chatbot.
GPT-4.5	27 февраля 2025	OpenAI	Неизвестно	Неизвестно	Неизвестно	проприетарная	Largest non-reasoning model.^[128]
Grok 3	февраль 2025	xAI	Неизвестно	Неизвестно	Неизвестно	проприетарная	Training cost claimed "10x the compute of previous state-of-the-art models".^[129]
Gemini 2.5	25 марта 2025	Google DeepMind	Неизвестно	Неизвестно	Неизвестно	проприетарная	Three models released: Flash, Flash-Lite and Pro^[130]
YandexGPT 5 Lite Instruct	31 марта 2025	Yandex	Неизвестно	Неизвестно	Неизвестно	проприетарная	Used in Alice Neural Network chatbot.
Llama 4	5 апреля 2025	Meta AI	400	40T tokens	Неизвестно	Llama 4 license	^[131]^[132]
OpenAI o3 and o4-mini	16 апреля 2025	OpenAI	Неизвестно	Неизвестно	Неизвестно	проприетарная	Reasoning models.^[133]
Qwen3	апрель 2025	Alibaba Cloud	235	36T tokens	Неизвестно	Apache 2.0	Multiple sizes, the smallest being 0.6B.^[134]
Claude 4	22 мая 2025	Anthropic	Неизвестно	Неизвестно	Неизвестно	проприетарная	Includes two models, Sonnet and Opus.^[135]
Grok 4	9 июля 2025	xAI	Неизвестно	Неизвестно	Неизвестно	проприетарная
GLM-4.5	29 июля 2025	Zhipu AI	355	22T tokens	Неизвестно	MIT	Released in 335B and 106B sizes.^[136] Corpus size was calculated by combining the 15 trillion tokens and the 7 trillion tokens pre-training mix.^[137]
GPT-OSS	5 августа 2025	OpenAI	117	Неизвестно	Неизвестно	Apache 2.0	Released in 20B and 120B sizes.^[138]
Claude 4.1	5 августа 2025	Anthropic	Неизвестно	Неизвестно	Неизвестно	проприетарная	Includes one model, Opus.^[139]
GPT-5	7 августа 2025	OpenAI	Неизвестно	Неизвестно	Неизвестно	проприетарная	Includes three models, GPT-5, GPT-5 mini, and GPT-5 nano. GPT-5 is available in ChatGPT and API. It includes thinking abilities. ^[140]^[141]
DeepSeek-V3.1	21 августа 2025	DeepSeek	671	15.639T		MIT	Training size: 14.8T tokens, of DeepSeek V3 plus 839B tokens from the extension phases (630B + 209B)^[142]It is a hybrid model that can switch between thinking and non-thinking modes.^[143]
YandexGPT 5.1 Pro	28 августа 2025	Yandex	Неизвестно	Неизвестно	Неизвестно	проприетарная	Used in Alice Neural Network chatbot.
Apertus	2 сентября 2025	ETH Zurich and EPF Lausanne	70	15 trillion^[144]	Неизвестно	Apache 2.0	It's said to be the first LLM to be compliant with EU's Artificial Intelligence Act.^[145]
Claude Sonnet 4.5	29 сентября 2025	Anthropic	Неизвестно	Неизвестно	Неизвестно	проприетарная	^[146]
DeepSeek-V3.2-Exp	29 сентября 2025	DeepSeek	685			MIT	This experimental model built upon v3.1-Terminus uses a custom efficient mechanism tagged DeepSeek Sparse Attention (DSA).^[147]^[148]^[149]
GLM-4.6	30 сентября 2025	Zhipu AI	357			Apache 2.0	^[150]^[151]^[152]
Alice AI LLM 1.0	28 октября 2025	Yandex	Неизвестно	Неизвестно	Неизвестно	проприетарная	Available in Alice AI chatbot.
Gemini 3	18 ноября 2025	Google DeepMind	Неизвестно	Неизвестно	Неизвестно	проприетарная	Two models released: Deep Think and Pro^[153]
Claude Opus 4.5	24 ноября 2025	Anthropic	Неизвестно	Неизвестно	Неизвестно	проприетарная	The largest model in the Claude family.^[154]
GPT 5.2	December 11, 2025	OpenAI	Неизвестно	Неизвестно	Неизвестно	проприетарная	It was able to solve an open problem in statistical learning theory that had previously remained unresolved by human researchers.^[155]

Notes

↑ This is the date that documentation describing the model's architecture was first released.
↑ In many cases, researchers release or report on multiple versions of a model having different sizes. In these cases, the size of the largest model is listed here.
↑ This is the license of the pre-trained model weights. In almost all cases the training code itself is open-source or can be easily replicated. LLMs may be licensed differently from the chatbots that use them; for the licenses of chatbots, see List of chatbots.
↑ The smaller models including 66B are publicly available, while the 175B model is available on request.
↑ Facebook's license and distribution scheme restricted access to approved researchers, but the model weights were leaked and became widely available.
↑ As stated in Technical report: "Given both the competitive landscape and the safety implications of large-scale models like GPT-4, this report contains no further details about the architecture (including model size), hardware, training compute, dataset construction, training method ..."^[59]

References

↑ Improving language understanding with unsupervised learning (неопр.). openai.com (11 июня 2018). Дата обращения: 18 марта 2023. Архивировано 18 марта 2023 года.
↑ finetune-transformer-lm (неопр.). GitHub. Дата обращения: 2 января 2024. Архивировано 19 мая 2023 года.
↑ Radford, Alec Improving language understanding with unsupervised learning (неопр.). OpenAI (11 июня 2018). Дата обращения: 18 ноября 2025.
↑ ^4,0 ^4,1 Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton & Toutanova, Kristina (11 October 2018), BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, arΧiv:1810.04805v2 [cs.CL]
↑ Prickett, Nicole Hemsoth Cerebras Shifts Architecture To Meet Massive AI/ML Models (неопр.). The Next Platform (24 августа 2021). Дата обращения: 20 июня 2023. Архивировано 20 июня 2023 года.
↑ BERT (неопр.) (13 марта 2023). Дата обращения: 13 марта 2023. Архивировано 13 января 2021 года.
↑ Шаблон:Cite journal
↑ Patel, Ajay; Li, Bryan; Rasooli, Mohammad Sadegh; Constant, Noah; Raffel, Colin & Callison-Burch, Chris (2022), Bidirectional Language Models Are Also Few-shot Learners, arΧiv:2209.14500 [cs.LG]
↑ Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton & Toutanova, Kristina (11 October 2018), BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, arΧiv:1810.04805v2 [cs.CL]
↑ ^10,0 ^10,1 Шаблон:Cite journal
↑ google-research/text-to-text-transfer-transformer, Google Research, 2024-04-02, <https://github.com/google-research/text-to-text-transfer-transformer>. Проверено 4 апреля 2024.
↑ Imagen: Text-to-Image Diffusion Models (неопр.). imagen.research.google. Дата обращения: 4 апреля 2024. Архивировано 27 марта 2024 года.
↑ Pretrained models — transformers 2.0.0 documentation (неопр.). huggingface.co. Дата обращения: 5 августа 2024. Архивировано 5 августа 2024 года.
↑ xlnet (неопр.). GitHub. Дата обращения: 2 января 2024. Архивировано 2 января 2024 года.
↑ Yang, Zhilin; Dai, Zihang; Yang, Yiming; Carbonell, Jaime; Salakhutdinov, Ruslan & Le, Quoc V. (2 January 2020), XLNet: Generalized Autoregressive Pretraining for Language Understanding, arΧiv:1906.08237 [cs.CL]
↑ GPT-2: 1.5B Release (англ.). OpenAI (5 ноября 2019). Дата обращения: 14 ноября 2019. Архивировано 14 ноября 2019 года.
↑ Better language models and their implications (неопр.). openai.com. Дата обращения: 13 марта 2023. Архивировано 16 марта 2023 года.
↑ ^18,0 ^18,1 OpenAI's GPT-3 Language Model: A Technical Overview (неопр.). lambdalabs.com (3 июня 2020). Дата обращения: 13 марта 2023. Архивировано 27 марта 2023 года.
↑ ^19,0 ^19,1 openai-community/gpt2-xl · Hugging Face (неопр.). huggingface.co. Дата обращения: 24 июля 2024. Архивировано 24 июля 2024 года.
↑ gpt-2 (неопр.). GitHub. Дата обращения: 13 марта 2023. Архивировано 11 марта 2023 года.
↑ Wiggers, Kyle The emerging types of language models and why they matter (неопр.). TechCrunch (28 апреля 2022). Дата обращения: 9 марта 2023. Архивировано 16 марта 2023 года.
↑ Table D.1 in Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; et al. (May 28, 2020), Language Models are Few-Shot Learners, arΧiv:2005.14165v4 [cs.CL]
↑ ChatGPT: Optimizing Language Models for Dialogue (неопр.). OpenAI (30 ноября 2022). Дата обращения: 13 января 2023. Архивировано 30 ноября 2022 года.
↑ GPT Neo (неопр.) (15 марта 2023). Дата обращения: 12 марта 2023. Архивировано 12 марта 2023 года.
↑ ^25,0 ^25,1 ^25,2 Gao, Leo; Biderman, Stella; Black, Sid; Golding, Laurence; Hoppe, Travis; Foster, Charles; Phang, Jason; He, Horace; et al. (31 December 2020), The Pile: An 800GB Dataset of Diverse Text for Language Modeling, arΧiv:2101.00027 [cs.CL]
↑ ^26,0 ^26,1 Iyer, Abhishek GPT-3's free alternative GPT-Neo is something to be excited about (неопр.). VentureBeat (15 мая 2021). Дата обращения: 13 марта 2023. Архивировано 9 марта 2023 года.
↑ GPT-J-6B: An Introduction to the Largest Open Source GPT Model | Forefront (неопр.). www.forefront.ai. Дата обращения: 28 февраля 2023. Архивировано из оригинала 9 марта 2023 года.
↑ ^28,0 ^28,1 ^28,2 ^28,3 Dey, Nolan; Gosal, Gurpreet; Zhiming; Chen; Khachane, Hemant; Marshall, William; Pathria, Ribhu; Tom, Marvin; et al. (2023-04-01), Cerebras-GPT: Open Compute-Optimal Language Models Trained on the Cerebras Wafer-Scale Cluster, arΧiv:2304.03208 [cs.LG]
↑ Alvi, Ali; Kharya, Paresh Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, the World's Largest and Most Powerful Generative Language Model (неопр.). Microsoft Research (11 октября 2021). Дата обращения: 13 марта 2023. Архивировано 13 марта 2023 года.
↑ ^30,0 ^30,1 Smith, Shaden; Patwary, Mostofa; Norick, Brandon; LeGresley, Patrick; Rajbhandari, Samyam; Casper, Jared; Liu, Zhun; Prabhumoye, Shrimai; et al. (2022-02-04), Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model, arΧiv:2201.11990 [cs.CL]
↑ ^31,0 ^31,1 Rajbhandari, Samyam; Li, Conglong; Yao, Zhewei & Zhang, Minjia (2022-07-21), DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale
↑ Wang, Shuohuan; Sun, Yu; Xiang, Yang; Wu, Zhihua; Ding, Siyu; Gong, Weibao; Feng, Shikun; Shang, Junyuan; et al. (December 23, 2021), ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation, arΧiv:2112.12731 [cs.CL]
↑ Product (неопр.). Anthropic. Дата обращения: 14 марта 2023. Архивировано 16 марта 2023 года.
↑ ^34,0 ^34,1 Askell, Amanda; Bai, Yuntao; Chen, Anna; Drain, Dawn; Ganguli, Deep; Henighan, Tom; Jones, Andy; Joseph, Nicholas; et al. (9 December 2021), A General Language Assistant as a Laboratory for Alignment, arΧiv:2112.00861 [cs.CL]
↑ Bai, Yuntao; Kadavath, Saurav; Kundu, Sandipan; Askell, Amanda; Kernion, Jackson; Jones, Andy; Chen, Anna; Goldie, Anna; et al. (15 December 2022), Constitutional AI: Harmlessness from AI Feedback, arΧiv:2212.08073 [cs.CL]
↑ ^36,0 ^36,1 ^36,2 Dai, Andrew M; Du, Nan More Efficient In-Context Learning with GLaM (неопр.). ai.googleblog.com (9 декабря 2021). Дата обращения: 9 марта 2023. Архивировано 12 марта 2023 года.
↑ Language modelling at scale: Gopher, ethical considerations, and retrieval (неопр.). www.deepmind.com (8 декабря 2021). Дата обращения: 20 марта 2023. Архивировано 20 марта 2023 года.
↑ ^38,0 ^38,1 ^38,2 Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur; Buchatskaya, Elena; Cai, Trevor; Rutherford, Eliza; Casas, Diego de Las; Hendricks, Lisa Anne; et al. (29 March 2022), Training Compute-Optimal Large Language Models, arΧiv:2203.15556 [cs.CL]
↑ ^39,0 ^39,1 ^39,2 ^39,3 Table 20 and page 66 of PaLM: Scaling Language Modeling with Pathways Шаблон:Webarchive
↑ ^40,0 ^40,1 Cheng, Heng-Tze; Thoppilan, Romal LaMDA: Towards Safe, Grounded, and High-Quality Dialog Models for Everything (неопр.). ai.googleblog.com (21 января 2022). Дата обращения: 9 марта 2023. Архивировано 25 марта 2022 года.
↑ Thoppilan, Romal; De Freitas, Daniel; Hall, Jamie; Shazeer, Noam; Kulshreshtha, Apoorv; Cheng, Heng-Tze; Jin, Alicia; Bos, Taylor; et al. (2022-01-01), LaMDA: Language Models for Dialog Applications, arΧiv:2201.08239 [cs.CL]
↑ Шаблон:Cite conference
↑ ^43,0 ^43,1 ^43,2 Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur; Sifre, Laurent An empirical analysis of compute-optimal large language model training (неопр.). Deepmind Blog (12 апреля 2022). Дата обращения: 9 марта 2023. Архивировано 13 апреля 2022 года.
↑ Narang, Sharan; Chowdhery, Aakanksha Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance (англ.). ai.googleblog.com (4 апреля 2022). Дата обращения: 9 марта 2023. Архивировано 4 апреля 2022 года.
↑ Democratizing access to large-scale language models with OPT-175B (неопр.). ai.facebook.com. Дата обращения: 12 марта 2023. Архивировано 12 марта 2023 года.
↑ Zhang, Susan; Roller, Stephen; Goyal, Naman; Artetxe, Mikel; Chen, Moya; Chen, Shuohui; Dewan, Christopher; Diab, Mona; et al. (21 June 2022), OPT: Open Pre-trained Transformer Language Models, arΧiv:2205.01068 [cs.CL]
↑ metaseq/projects/OPT/chronicles at main · facebookresearch/metaseq (англ.). GitHub. Дата обращения: 18 октября 2024.
↑ ^48,0 ^48,1 Khrushchev, Mikhail; Vasilev, Ruslan; Petrov, Alexey & Zinov, Nikolay (2022-06-22), YaLM 100B, <https://github.com/yandex/YaLM-100B>. Проверено 18 марта 2023.
↑ ^49,0 ^49,1 Lewkowycz, Aitor; Andreassen, Anders; Dohan, David; Dyer, Ethan; Michalewski, Henryk; Ramasesh, Vinay; Slone, Ambrose; Anil, Cem; et al. (30 June 2022), Solving Quantitative Reasoning Problems with Language Models, arΧiv:2206.14858 [cs.CL]
↑ Minerva: Solving Quantitative Reasoning Problems with Language Models (неопр.). ai.googleblog.com (30 июня 2022). Дата обращения: 20 марта 2023.
↑ Шаблон:Cite journal
↑ bigscience/bloom · Hugging Face (неопр.). huggingface.co. Дата обращения: 13 марта 2023. Архивировано 12 апреля 2023 года.
↑ Taylor, Ross; Kardas, Marcin; Cucurull, Guillem; Scialom, Thomas; Hartshorn, Anthony; Saravia, Elvis; Poulton, Andrew; Kerkez, Viktor; et al. (16 November 2022), Galactica: A Large Language Model for Science, arΧiv:2211.09085 [cs.CL]
↑ 20B-parameter Alexa model sets new marks in few-shot learning (неопр.). Amazon Science (2 августа 2022). Дата обращения: 12 марта 2023. Архивировано 15 марта 2023 года.
↑ Soltan, Saleh; Ananthakrishnan, Shankar; FitzGerald, Jack; Gupta, Rahul; Hamza, Wael; Khan, Haidar; Peris, Charith; Rawls, Stephen; et al. (3 August 2022), AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model, arΧiv:2208.01448 [cs.CL]
↑ AlexaTM 20B is now available in Amazon SageMaker JumpStart | AWS Machine Learning Blog (неопр.). aws.amazon.com (17 ноября 2022). Дата обращения: 13 марта 2023. Архивировано 13 марта 2023 года.
↑ ^57,0 ^57,1 ^57,2 Introducing LLaMA: A foundational, 65-billion-parameter large language model (неопр.). Meta AI (24 февраля 2023). Дата обращения: 9 марта 2023. Архивировано 3 марта 2023 года.
↑ ^58,0 ^58,1 ^58,2 The Falcon has landed in the Hugging Face ecosystem (неопр.). huggingface.co. Дата обращения: 20 июня 2023. Архивировано 20 июня 2023 года.
↑ GPT-4 Technical Report (неопр.). OpenAI (2023). Дата обращения: 14 марта 2023. Архивировано 14 марта 2023 года.
↑ Schreiner, Maximilian GPT-4 architecture, datasets, costs and more leaked (амер. англ.). THE DECODER (11 июля 2023). Дата обращения: 26 июля 2024. Архивировано 12 июля 2023 года.
↑ Dey, Nolan Cerebras-GPT: A Family of Open, Compute-efficient, Large Language Models (неопр.). Cerebras (28 марта 2023). Дата обращения: 28 марта 2023. Архивировано 28 марта 2023 года.
↑ Abu Dhabi-based TII launches its own version of ChatGPT (неопр.). tii.ae. Дата обращения: 3 апреля 2023. Архивировано 3 апреля 2023 года.
↑ Penedo, Guilherme; Malartic, Quentin; Hesslow, Daniel; Cojocaru, Ruxandra; Cappelli, Alessandro; Alobeidli, Hamza; Pannier, Baptiste; Almazrouei, Ebtesam; et al. (2023-06-01), The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only, arΧiv:2306.01116 [cs.CL]
↑ tiiuae/falcon-40b · Hugging Face (неопр.). huggingface.co (9 июня 2023). Дата обращения: 20 июня 2023.
↑ UAE's Falcon 40B, World's Top-Ranked AI Model from Technology Innovation Institute, is Now Royalty-Free Шаблон:Webarchive, 31 May 2023
↑ Wu, Shijie; Irsoy, Ozan; Lu, Steven; Dabravolski, Vadim; Dredze, Mark; Gehrmann, Sebastian; Kambadur, Prabhanjan; Rosenberg, David; et al. (March 30, 2023), BloombergGPT: A Large Language Model for Finance, arΧiv:2303.17564 [cs.LG]
↑ Ren, Xiaozhe; Zhou, Pingyi; Meng, Xinfan; Huang, Xinjing; Wang, Yadao; Wang, Weichao; Li, Pengfei; Zhang, Xiaoda; et al. (March 19, 2023), PanGu-Σ: Towards Trillion Parameter Language Model with Sparse Heterogeneous Computing, arΧiv:2303.10845 [cs.CL]
↑ Köpf, Andreas; Kilcher, Yannic; von Rütte, Dimitri; Anagnostidis, Sotiris; Tam, Zhi-Rui; Stevens, Keith; Barhoum, Abdullah; Duc, Nguyen Minh; et al. (2023-04-14), OpenAssistant Conversations – Democratizing Large Language Model Alignment, arΧiv:2304.07327 [cs.CL]
↑ Wrobel, Sharon Tel Aviv startup rolls out new advanced AI language model to rival OpenAI (неопр.). The Times of Israel. Дата обращения: 24 июля 2023. Архивировано 24 июля 2023 года.
↑ Wiggers, Kyle With Bedrock, Amazon enters the generative AI race (неопр.). TechCrunch (13 апреля 2023). Дата обращения: 24 июля 2023. Архивировано 24 июля 2023 года.
↑ ^71,0 ^71,1 Elias, Jennifer Google's newest A.I. model uses nearly five times more text data for training than its predecessor (неопр.). CNBC (16 мая 2023). Дата обращения: 18 мая 2023. Архивировано 16 мая 2023 года.
↑ Introducing PaLM 2 (неопр.). Google (10 мая 2023). Дата обращения: 18 мая 2023. Архивировано 18 мая 2023 года.
↑ ^73,0 ^73,1 Introducing Llama 2: The Next Generation of Our Open Source Large Language Model (неопр.). Meta AI (2023). Дата обращения: 19 июля 2023. Архивировано 5 января 2024 года.
↑ llama/MODEL_CARD.md at main · meta-llama/llama (неопр.). GitHub. Дата обращения: 28 мая 2024. Архивировано 28 мая 2024 года.
↑ Claude 2 (неопр.). anthropic.com. Дата обращения: 12 декабря 2023. Архивировано 15 декабря 2023 года.
↑ Nirmal, Dinesh Building AI for business: IBM's Granite foundation models (амер. англ.). IBM Blog (7 сентября 2023). Дата обращения: 11 августа 2024. Архивировано 22 июля 2024 года.
↑ Announcing Mistral 7B (неопр.). Mistral (2023). Дата обращения: 6 октября 2023. Архивировано 6 января 2024 года.
↑ Introducing Claude 2.1 (неопр.). anthropic.com. Дата обращения: 12 декабря 2023. Архивировано 15 декабря 2023 года.
↑ xai-org/grok-1, xai-org, 2024-03-19, <https://github.com/xai-org/grok-1>. Проверено 19 марта 2024.
↑ Grok-1 model card (неопр.). x.ai. Дата обращения: 12 декабря 2023.
↑ Gemini – Google DeepMind (неопр.). deepmind.google. Дата обращения: 12 декабря 2023. Архивировано 8 декабря 2023 года.
↑ Franzen, Carl Mistral shocks AI community as latest open source model eclipses GPT-3.5 performance (неопр.). VentureBeat (11 декабря 2023). Дата обращения: 12 декабря 2023. Архивировано 11 декабря 2023 года.
↑ Mixtral of experts (неопр.). mistral.ai (11 декабря 2023). Дата обращения: 12 декабря 2023. Архивировано 13 февраля 2024 года.
↑ ^84,0 ^84,1 DeepSeek-AI; Bi, Xiao; Chen, Deli & Chen, Guanting (2024-01-05), DeepSeek LLM: Scaling Open-Source Language Models with Longtermism
↑ ^85,0 ^85,1 Hughes, Alyssa Phi-2: The surprising power of small language models (неопр.). Microsoft Research (12 декабря 2023). Дата обращения: 13 декабря 2023. Архивировано 12 декабря 2023 года.
↑ Our next-generation model: Gemini 1.5 (неопр.). Google (15 февраля 2024). — «This means 1.5 Pro can process vast amounts of information in one go — including 1 hour of video, 11 hours of audio, codebases with over 30,000 lines of code or over 700,000 words. In our research, we’ve also successfully tested up to 10 million tokens.» Дата обращения: 16 февраля 2024. Архивировано 16 февраля 2024 года.
↑ Gemma (неопр.).
↑ Introducing the next generation of Claude (неопр.). www.anthropic.com. Дата обращения: 4 марта 2024. Архивировано 4 марта 2024 года.
↑ Databricks Open Model License (неопр.). Databricks (27 марта 2024). Дата обращения: 6 августа 2025.
↑ Databricks Open Model Acceptable Use Policy (неопр.). Databricks (27 марта 2024). Дата обращения: 6 августа 2025.
↑ Fugaku-LLM Terms of Use (неопр.) (23 апреля 2024). Дата обращения: 6 августа 2025.
↑ Fugaku-LLM/Fugaku-LLM-13B · Hugging Face (неопр.). huggingface.co. Дата обращения: 17 мая 2024. Архивировано 17 мая 2024 года.
↑ Dickson, Ben Meta introduces Chameleon, a state-of-the-art multimodal model (неопр.). VentureBeat (22 мая 2024).
↑ chameleon/LICENSE at e3b711ef63b0bb3a129cf0cf0918e36a32f26e2c · facebookresearch/chameleon (англ.). Meta Research. Дата обращения: 6 августа 2025.
↑ AI, Mistral Cheaper, Better, Faster, Stronger (неопр.). mistral.ai (17 апреля 2024). Дата обращения: 5 мая 2024. Архивировано 5 мая 2024 года.
↑ Phi-3 (неопр.). azure.microsoft.com (23 апреля 2024). Дата обращения: 28 апреля 2024. Архивировано 27 апреля 2024 года.
↑ Phi-3 Model Documentation (неопр.). huggingface.co. Дата обращения: 28 апреля 2024. Архивировано 13 мая 2024 года.
↑ Qwen2 (неопр.). GitHub. Дата обращения: 17 июня 2024. Архивировано 17 июня 2024 года.
↑ DeepSeek-AI; Liu, Aixin; Feng, Bei & Wang, Bin (2024-06-19), DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
↑ NVIDIA Open Models License (неопр.). Nvidia (16 июня 2025). Дата обращения: 6 августа 2025.
↑ Trustworthy AI (неопр.). Nvidia (27 июня 2024). Дата обращения: 6 августа 2025.
↑ nvidia/Nemotron-4-340B-Base · Hugging Face (неопр.). huggingface.co (14 июня 2024). Дата обращения: 15 июня 2024. Архивировано 15 июня 2024 года.
↑ Nemotron-4 340B | Research (неопр.). research.nvidia.com. Дата обращения: 15 июня 2024. Архивировано 15 июня 2024 года.
↑ Introducing Claude 3.5 Sonnet (англ.). www.anthropic.com. Дата обращения: 8 августа 2025.
↑ Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku (англ.). www.anthropic.com. Дата обращения: 8 августа 2025.
↑ "The Llama 3 Herd of Models" (July 23, 2024) Llama Team, AI @ Meta
↑ llama-models/models/llama3_1/MODEL_CARD.md at main · meta-llama/llama-models (англ.). GitHub. Дата обращения: 23 июля 2024. Архивировано 23 июля 2024 года.
↑ LICENSE · xai-org/grok-2 at main (неопр.) (5 ноября 2025). Дата обращения: 18 ноября 2025.
↑ xAI Acceptable Use Policy (англ.). xAI (2 января 2025). Дата обращения: 18 ноября 2025.
↑ Weatherbed, Jess xAI's new Grok-2 chatbots bring AI image generation to X (неопр.). The Verge (14 августа 2024). Дата обращения: 18 ноября 2025.
↑ Ha, Anthony Elon Musk says xAI has open sourced Grok 2.5 (неопр.). TechCrunch (24 августа 2025). Дата обращения: 18 ноября 2025.
↑ Introducing OpenAI o1 (неопр.). openai.com. Дата обращения: 8 августа 2025.
↑ ^113,0 ^113,1 Models Overview (неопр.). mistral.ai. Дата обращения: 3 марта 2025.
↑ Phi-4 Model Card (неопр.). huggingface.co. Дата обращения: 11 ноября 2025.
↑ Introducing Phi-4: Microsoft’s Newest Small Language Model Specializing in Complex Reasoning (неопр.). techcommunity.microsoft.com. Дата обращения: 11 ноября 2025.
↑ deepseek-ai/DeepSeek-V3, DeepSeek, 2024-12-26, <https://github.com/deepseek-ai/DeepSeek-V3?tab=readme-ov-file>. Проверено 26 декабря 2024.
↑ Feng, Coco DeepSeek wows coders with more powerful open-source V3 model (англ.). South China Morning Post (25 марта 2025). Дата обращения: 6 апреля 2025.
↑ Amazon Nova Micro, Lite, and Pro - AWS AI Service Cards3, Amazon, 2024-12-27, <https://docs.aws.amazon.com/ai/responsible-ai/nova-micro-lite-pro/overview.html>. Проверено 27 декабря 2024.
↑ deepseek-ai/DeepSeek-R1, DeepSeek, 2025-01-21, <https://github.com/deepseek-ai/DeepSeek-R1>. Проверено 21 января 2025.
↑ DeepSeek-AI; Guo, Daya; Yang, Dejian & Zhang, Haowei (2025-01-22), DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
↑ Qwen; Yang, An; Yang, Baosong & Zhang, Beichen (2025-01-03), Qwen2.5 Technical Report
↑ ^122,0 ^122,1 MiniMax; Li, Aonian; Gong, Bangwei & Yang, Bo (2025-01-14), MiniMax-01: Scaling Foundation Models with Lightning Attention
↑ MiniMax-AI/MiniMax-01, MiniMax, 2025-01-26, <https://github.com/MiniMax-AI/MiniMax-01?tab=readme-ov-file>. Проверено 26 января 2025.
↑ Kavukcuoglu, Koray Gemini 2.0 is now available to everyone (неопр.). Google (5 февраля 2025). Дата обращения: 6 февраля 2025.
↑ Gemini 2.0: Flash, Flash-Lite and Pro (неопр.). Google for Developers. Дата обращения: 6 февраля 2025.
↑ Franzen, Carl Google launches Gemini 2.0 Pro, Flash-Lite and connects reasoning model Flash Thinking to YouTube, Maps and Search (неопр.). VentureBeat (5 февраля 2025). Дата обращения: 6 февраля 2025.
↑ Claude 3.7 Sonnet and Claude Code (англ.). www.anthropic.com. Дата обращения: 8 августа 2025.
↑ Introducing GPT-4.5 (неопр.). openai.com. Дата обращения: 8 августа 2025.
↑ Grok 3 Beta — The Age of Reasoning Agents (англ.). x.ai. Дата обращения: 22 февраля 2025.
↑ Kavukcuoglu, Koray Gemini 2.5: Our most intelligent AI model (неопр.). Google (25 марта 2025). Дата обращения: 23 сентября 2025.
↑ meta-llama/Llama-4-Maverick-17B-128E · Hugging Face (неопр.). huggingface.co (5 апреля 2025). Дата обращения: 6 апреля 2025.
↑ The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation (англ.). ai.meta.com. Дата обращения: 5 апреля 2025. Архивировано 5 апреля 2025 года.
↑ Introducing OpenAI o3 and o4-mini (неопр.). openai.com. Дата обращения: 8 августа 2025.
↑ Team, Qwen Qwen3: Think Deeper, Act Faster (англ.). Qwen (29 апреля 2025). Дата обращения: 29 апреля 2025.
↑ Introducing Claude 4 (англ.). www.anthropic.com. Дата обращения: 8 августа 2025.
↑ zai-org/GLM-4.5 · Hugging Face (неопр.). huggingface.co (4 августа 2025). Дата обращения: 6 августа 2025.
↑ GLM-4.5: Reasoning, Coding, and Agentic Abililties (англ.). z.ai. Дата обращения: 6 августа 2025.
↑ Whitwam, Ryan OpenAI announces two "gpt-oss" open AI models, and you can download them today (англ.). Ars Technica (5 августа 2025). Дата обращения: 6 августа 2025.
↑ Claude Opus 4.1 (англ.). www.anthropic.com. Дата обращения: 8 августа 2025.
↑ Introducing GPT-5 (неопр.). openai.com (7 августа 2025). Дата обращения: 8 августа 2025.
↑ OpenAI Platform: GPT-5 Model Documentation (неопр.). openai.com. Дата обращения: 18 августа 2025.
↑ deepseek-ai/DeepSeek-V3.1 · Hugging Face (неопр.). huggingface.co (21 августа 2025). Дата обращения: 25 августа 2025.
↑ DeepSeek-V3.1 Release | DeepSeek API Docs (англ.). api-docs.deepseek.com. Дата обращения: 25 августа 2025.
↑ Apertus: Ein vollständig offenes, transparentes und mehrsprachiges Sprachmodell (нем.). Zürich: ETH Zürich (2 сентября 2025). Дата обращения: 7 ноября 2025.
↑ Kirchner, Malte Apertus: Schweiz stellt erstes offenes und mehrsprachiges KI-Modell vor (нем.). heise online (2 сентября 2025). Дата обращения: 7 ноября 2025.
↑ Introducing Claude Sonnet 4.5 (англ.). www.anthropic.com. Дата обращения: 29 сентября 2025.
↑ Introducing DeepSeek-V3.2-Exp | DeepSeek API Docs (англ.). api-docs.deepseek.com. Дата обращения: 1 октября 2025.
↑ deepseek-ai/DeepSeek-V3.2-Exp · Hugging Face (неопр.). huggingface.co (29 сентября 2025). Дата обращения: 1 октября 2025.
↑ DeepSeek-V3.2-Exp/DeepSeek_V3_2.pdf at main · deepseek-ai/DeepSeek-V3.2-Exp (англ.). GitHub. Дата обращения: 1 октября 2025.
↑ GLM-4.6: Advanced Agentic, Reasoning and Coding Capabilities (англ.). z.ai. Дата обращения: 1 октября 2025.
↑ zai-org/GLM-4.6 · Hugging Face (неопр.). huggingface.co (30 сентября 2025). Дата обращения: 1 октября 2025.
↑ GLM-4.6 (неопр.). modelscope.cn. Дата обращения: 1 октября 2025.
↑ A new era of intelligence with Gemini 3 (неопр.). Google (18 ноября 2025). Дата обращения: 5 января 2026.
↑ Introducing Claude Opus 4.5 (англ.). www.anthropic.com. Дата обращения: 8 января 2026.
↑ Advancing science and math with GPT-5.2 (неопр.). openai.com. Дата обращения: 4 января 2026.

Ссылки

В Английской Википедии есть страница «List of large language models».

Шаблон:Natural Language Processing Шаблон:Portal bar Шаблон:Authority control

[1] This is the date that documentation describing the model's architecture was first released.

[2] In many cases, researchers release or report on multiple versions of a model having different sizes. In these cases, the size of the largest model is listed here.

[3] This is the license of the pre-trained model weights. In almost all cases the training code itself is open-source or can be easily replicated. LLMs may be licensed differently from the chatbots that use them; for the licenses of chatbots, see List of chatbots.

[50] The smaller models including 66B are publicly available, while the 175B model is available on request.

[63] Facebook's license and distribution scheme restricted access to approved researchers, but the model weights were leaked and became widely available.

[65] As stated in Technical report: "Given both the competitive landscape and the safety implications of large-scale models like GPT-4, this report contains no further details about the architecture (including model size), hardware, training compute, dataset construction, training method ..."^[59]

[oai-unsup-4] Improving language understanding with unsupervised learning (неопр.). openai.com (11 июня 2018). Дата обращения: 18 марта 2023. Архивировано 18 марта 2023 года.

[5] tune-transformer-lm (неопр.). GitHub. Дата обращения: 2 января 2024. Архивировано 19 мая 2023 года.

[6] Radford, Alec Improving language understanding with unsupervised learning (неопр.). OpenAI (11 июня 2018). Дата обращения: 18 ноября 2025.

[bert-paper-7] 4,0 ^4,1 Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton & Toutanova, Kristina (11 October 2018), BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, arΧiv:1810.04805v2 [cs.CL]

[bHZJ2-8] Prickett, Nicole Hemsoth Cerebras Shifts Architecture To Meet Massive AI/ML Models (неопр.). The Next Platform (24 августа 2021). Дата обращения: 20 июня 2023. Архивировано 20 июня 2023 года.

[bert-web-9] BERT (неопр.) (13 марта 2023). Дата обращения: 13 марта 2023. Архивировано 13 января 2021 года.

[Manning-2022-10] Шаблон:Cite journal

[Ir545-11] Patel, Ajay; Li, Bryan; Rasooli, Mohammad Sadegh; Constant, Noah; Raffel, Colin & Callison-Burch, Chris (2022), Bidirectional Language Models Are Also Few-shot Learners, arΧiv:2209.14500 [cs.LG]

[:02-12] Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton & Toutanova, Kristina (11 October 2018), BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, arΧiv:1810.04805v2 [cs.CL]

[:6-13] 10,0 ^10,1 Шаблон:Cite journal

[14] google-research/text-to-text-transfer-transformer, Google Research, 2024-04-02, <https://github.com/google-research/text-to-text-transfer-transformer>. Проверено 4 апреля 2024.

[15] Imagen: Text-to-Image Diffusion Models (неопр.). imagen.research.google. Дата обращения: 4 апреля 2024. Архивировано 27 марта 2024 года.

[16] Pretrained models — transformers 2.0.0 documentation (неопр.). huggingface.co. Дата обращения: 5 августа 2024. Архивировано 5 августа 2024 года.

[xlnet-17] xlnet (неопр.). GitHub. Дата обращения: 2 января 2024. Архивировано 2 января 2024 года.

[LX3rI-18] Yang, Zhilin; Dai, Zihang; Yang, Yiming; Carbonell, Jaime; Salakhutdinov, Ruslan & Le, Quoc V. (2 January 2020), XLNet: Generalized Autoregressive Pretraining for Language Understanding, arΧiv:1906.08237 [cs.CL]

[15Brelease-19] GPT-2: 1.5B Release (англ.). OpenAI (5 ноября 2019). Дата обращения: 14 ноября 2019. Архивировано 14 ноября 2019 года.

[5T8u5-20] Better language models and their implications (неопр.). openai.com. Дата обращения: 13 марта 2023. Архивировано 16 марта 2023 года.

[LambdaLabs-21] 18,0 ^18,1 OpenAI's GPT-3 Language Model: A Technical Overview (неопр.). lambdalabs.com (3 июня 2020). Дата обращения: 13 марта 2023. Архивировано 27 марта 2023 года.

[:10-22] 19,0 ^19,1 openai-community/gpt2-xl · Hugging Face (неопр.). huggingface.co. Дата обращения: 24 июля 2024. Архивировано 24 июля 2024 года.

[Sudbe-23] t-2 (неопр.). GitHub. Дата обращения: 13 марта 2023. Архивировано 11 марта 2023 года.

[Wiggers-24] Wiggers, Kyle The emerging types of language models and why they matter (неопр.). TechCrunch (28 апреля 2022). Дата обращения: 9 марта 2023. Архивировано 16 марта 2023 года.

[:2-25] Table D.1 in Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; et al. (May 28, 2020), Language Models are Few-Shot Learners, arΧiv:2005.14165v4 [cs.CL]

[chatgpt-blog-26] ChatGPT: Optimizing Language Models for Dialogue (неопр.). OpenAI (30 ноября 2022). Дата обращения: 13 января 2023. Архивировано 30 ноября 2022 года.

[gpt-neo-27] GPT Neo (неопр.) (15 марта 2023). Дата обращения: 12 марта 2023. Архивировано 12 марта 2023 года.

[Pile-28] 25,0 ^25,1 ^25,2 Gao, Leo; Biderman, Stella; Black, Sid; Golding, Laurence; Hoppe, Travis; Foster, Charles; Phang, Jason; He, Horace; et al. (31 December 2020), The Pile: An 800GB Dataset of Diverse Text for Language Modeling, arΧiv:2101.00027 [cs.CL]

[vb-gpt-neo-29] 26,0 ^26,1 Iyer, Abhishek GPT-3's free alternative GPT-Neo is something to be excited about (неопр.). VentureBeat (15 мая 2021). Дата обращения: 13 марта 2023. Архивировано 9 марта 2023 года.

[JxohJ-30] GPT-J-6B: An Introduction to the Largest Open Source GPT Model | Forefront (неопр.). www.forefront.ai. Дата обращения: 28 февраля 2023. Архивировано из оригинала 9 марта 2023 года.

[:3-31] 28,0 ^28,1 ^28,2 ^28,3 Dey, Nolan; Gosal, Gurpreet; Zhiming; Chen; Khachane, Hemant; Marshall, William; Pathria, Ribhu; Tom, Marvin; et al. (2023-04-01), Cerebras-GPT: Open Compute-Optimal Language Models Trained on the Cerebras Wafer-Scale Cluster, arΧiv:2304.03208 [cs.LG]

[BwnW5-32] Alvi, Ali; Kharya, Paresh Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, the World's Largest and Most Powerful Generative Language Model (неопр.). Microsoft Research (11 октября 2021). Дата обращения: 13 марта 2023. Архивировано 13 марта 2023 года.

[mtnlg-preprint-33] 30,0 ^30,1 Smith, Shaden; Patwary, Mostofa; Norick, Brandon; LeGresley, Patrick; Rajbhandari, Samyam; Casper, Jared; Liu, Zhun; Prabhumoye, Shrimai; et al. (2022-02-04), Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model, arΧiv:2201.11990 [cs.CL]

[:11-34] 31,0 ^31,1 Rajbhandari, Samyam; Li, Conglong; Yao, Zhewei & Zhang, Minjia (2022-07-21), DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale

[qeOB8-35] Wang, Shuohuan; Sun, Yu; Xiang, Yang; Wu, Zhihua; Ding, Siyu; Gong, Weibao; Feng, Shikun; Shang, Junyuan; et al. (December 23, 2021), ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation, arΧiv:2112.12731 [cs.CL]

[i8jc4-36] Product (неопр.). Anthropic. Дата обращения: 14 марта 2023. Архивировано 16 марта 2023 года.

[AnthroArch-37] 34,0 ^34,1 Askell, Amanda; Bai, Yuntao; Chen, Anna; Drain, Dawn; Ganguli, Deep; Henighan, Tom; Jones, Andy; Joseph, Nicholas; et al. (9 December 2021), A General Language Assistant as a Laboratory for Alignment, arΧiv:2112.00861 [cs.CL]

[RZqhw-38] Bai, Yuntao; Kadavath, Saurav; Kundu, Sandipan; Askell, Amanda; Kernion, Jackson; Jones, Andy; Chen, Anna; Goldie, Anna; et al. (15 December 2022), Constitutional AI: Harmlessness from AI Feedback, arΧiv:2212.08073 [cs.CL]

[glam-blog-39] 36,0 ^36,1 ^36,2 Dai, Andrew M; Du, Nan More Efficient In-Context Learning with GLaM (неопр.). ai.googleblog.com (9 декабря 2021). Дата обращения: 9 марта 2023. Архивировано 12 марта 2023 года.

[mD5eE-40] Language modelling at scale: Gopher, ethical considerations, and retrieval (неопр.). www.deepmind.com (8 декабря 2021). Дата обращения: 20 марта 2023. Архивировано 20 марта 2023 года.

[hoffman-41] 38,0 ^38,1 ^38,2 Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur; Buchatskaya, Elena; Cai, Trevor; Rutherford, Eliza; Casas, Diego de Las; Hendricks, Lisa Anne; et al. (29 March 2022), Training Compute-Optimal Large Language Models, arΧiv:2203.15556 [cs.CL]

[:4-42] 39,0 ^39,1 ^39,2 ^39,3 Table 20 and page 66 of PaLM: Scaling Language Modeling with Pathways Шаблон:Webarchive

[lamda-blog-43] 40,0 ^40,1 Cheng, Heng-Tze; Thoppilan, Romal LaMDA: Towards Safe, Grounded, and High-Quality Dialog Models for Everything (неопр.). ai.googleblog.com (21 января 2022). Дата обращения: 9 марта 2023. Архивировано 25 марта 2022 года.

[DMs9Z-44] Thoppilan, Romal; De Freitas, Daniel; Hall, Jamie; Shazeer, Noam; Kulshreshtha, Apoorv; Cheng, Heng-Tze; Jin, Alicia; Bos, Taylor; et al. (2022-01-01), LaMDA: Language Models for Dialog Applications, arΧiv:2201.08239 [cs.CL]

[gpt-neox-20b-45] Шаблон:Cite conference

[chinchilla-blog-46] 43,0 ^43,1 ^43,2 Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur; Sifre, Laurent An empirical analysis of compute-optimal large language model training (неопр.). Deepmind Blog (12 апреля 2022). Дата обращения: 9 марта 2023. Архивировано 13 апреля 2022 года.

[palm-blog-47] Narang, Sharan; Chowdhery, Aakanksha Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance (англ.). ai.googleblog.com (4 апреля 2022). Дата обращения: 9 марта 2023. Архивировано 4 апреля 2022 года.

[jlof8-48] Democratizing access to large-scale language models with OPT-175B (неопр.). ai.facebook.com. Дата обращения: 12 марта 2023. Архивировано 12 марта 2023 года.

[QjTIc-49] Zhang, Susan; Roller, Stephen; Goyal, Naman; Artetxe, Mikel; Chen, Moya; Chen, Shuohui; Dewan, Christopher; Diab, Mona; et al. (21 June 2022), OPT: Open Pre-trained Transformer Language Models, arΧiv:2205.01068 [cs.CL]

[51] taseq/projects/OPT/chronicles at main · facebookresearch/metaseq (англ.). GitHub. Дата обращения: 18 октября 2024.

[yalm-repo-52] 48,0 ^48,1 Khrushchev, Mikhail; Vasilev, Ruslan; Petrov, Alexey & Zinov, Nikolay (2022-06-22), YaLM 100B, <https://github.com/yandex/YaLM-100B>. Проверено 18 марта 2023.

[minerva-paper-53] 49,0 ^49,1 Lewkowycz, Aitor; Andreassen, Anders; Dohan, David; Dyer, Ethan; Michalewski, Henryk; Ramasesh, Vinay; Slone, Ambrose; Anil, Cem; et al. (30 June 2022), Solving Quantitative Reasoning Problems with Language Models, arΧiv:2206.14858 [cs.CL]

[FfCNK-54] Minerva: Solving Quantitative Reasoning Problems with Language Models (неопр.). ai.googleblog.com (30 июня 2022). Дата обращения: 20 марта 2023.

[bigger-better-55] Шаблон:Cite journal

[B8wB2-56] science/bloom · Hugging Face (неопр.). huggingface.co. Дата обращения: 13 марта 2023. Архивировано 12 апреля 2023 года.

[37sY6-57] Taylor, Ross; Kardas, Marcin; Cucurull, Guillem; Scialom, Thomas; Hartshorn, Anthony; Saravia, Elvis; Poulton, Andrew; Kerkez, Viktor; et al. (16 November 2022), Galactica: A Large Language Model for Science, arΧiv:2211.09085 [cs.CL]

[u5szh-58] 20B-parameter Alexa model sets new marks in few-shot learning (неопр.). Amazon Science (2 августа 2022). Дата обращения: 12 марта 2023. Архивировано 15 марта 2023 года.

[HaA7l-59] Soltan, Saleh; Ananthakrishnan, Shankar; FitzGerald, Jack; Gupta, Rahul; Hamza, Wael; Khan, Haidar; Peris, Charith; Rawls, Stephen; et al. (3 August 2022), AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model, arΧiv:2208.01448 [cs.CL]

[rpehM-60] AlexaTM 20B is now available in Amazon SageMaker JumpStart | AWS Machine Learning Blog (неопр.). aws.amazon.com (17 ноября 2022). Дата обращения: 13 марта 2023. Архивировано 13 марта 2023 года.

[llama-blog-61] 57,0 ^57,1 ^57,2 Introducing LLaMA: A foundational, 65-billion-parameter large language model (неопр.). Meta AI (24 февраля 2023). Дата обращения: 9 марта 2023. Архивировано 3 марта 2023 года.

[:5-62] 58,0 ^58,1 ^58,2 The Falcon has landed in the Hugging Face ecosystem (неопр.). huggingface.co. Дата обращения: 20 июня 2023. Архивировано 20 июня 2023 года.

[GPT4Tech-64] GPT-4 Technical Report (неопр.). OpenAI (2023). Дата обращения: 14 марта 2023. Архивировано 14 марта 2023 года.

[66] Schreiner, Maximilian GPT-4 architecture, datasets, costs and more leaked (амер. англ.). THE DECODER (11 июля 2023). Дата обращения: 26 июля 2024. Архивировано 12 июля 2023 года.

[D0k2a-67] Dey, Nolan Cerebras-GPT: A Family of Open, Compute-efficient, Large Language Models (неопр.). Cerebras (28 марта 2023). Дата обращения: 28 марта 2023. Архивировано 28 марта 2023 года.

[falcon-68] Abu Dhabi-based TII launches its own version of ChatGPT (неопр.). tii.ae. Дата обращения: 3 апреля 2023. Архивировано 3 апреля 2023 года.

[Xb1gq-69] Penedo, Guilherme; Malartic, Quentin; Hesslow, Daniel; Cojocaru, Ruxandra; Cappelli, Alessandro; Alobeidli, Hamza; Pannier, Baptiste; Almazrouei, Ebtesam; et al. (2023-06-01), The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only, arΧiv:2306.01116 [cs.CL]

[gzTNw-70] tiiuae/falcon-40b · Hugging Face (неопр.). huggingface.co (9 июня 2023). Дата обращения: 20 июня 2023.

[Wmlcs-71] UAE's Falcon 40B, World's Top-Ranked AI Model from Technology Innovation Institute, is Now Royalty-Free Шаблон:Webarchive, 31 May 2023

[nGOSu-72] Wu, Shijie; Irsoy, Ozan; Lu, Steven; Dabravolski, Vadim; Dredze, Mark; Gehrmann, Sebastian; Kambadur, Prabhanjan; Rosenberg, David; et al. (March 30, 2023), BloombergGPT: A Large Language Model for Finance, arΧiv:2303.17564 [cs.LG]

[9WSFw-73] Ren, Xiaozhe; Zhou, Pingyi; Meng, Xinfan; Huang, Xinjing; Wang, Yadao; Wang, Weichao; Li, Pengfei; Zhang, Xiaoda; et al. (March 19, 2023), PanGu-Σ: Towards Trillion Parameter Language Model with Sparse Heterogeneous Computing, arΧiv:2303.10845 [cs.CL]

[JiOl8-74] Köpf, Andreas; Kilcher, Yannic; von Rütte, Dimitri; Anagnostidis, Sotiris; Tam, Zhi-Rui; Stevens, Keith; Barhoum, Abdullah; Duc, Nguyen Minh; et al. (2023-04-14), OpenAssistant Conversations – Democratizing Large Language Model Alignment, arΧiv:2304.07327 [cs.CL]

[75] Wrobel, Sharon Tel Aviv startup rolls out new advanced AI language model to rival OpenAI (неопр.). The Times of Israel. Дата обращения: 24 июля 2023. Архивировано 24 июля 2023 года.

[76] Wiggers, Kyle With Bedrock, Amazon enters the generative AI race (неопр.). TechCrunch (13 апреля 2023). Дата обращения: 24 июля 2023. Архивировано 24 июля 2023 года.

[cnbc-20230516-77] 71,0 ^71,1 Elias, Jennifer Google's newest A.I. model uses nearly five times more text data for training than its predecessor (неопр.). CNBC (16 мая 2023). Дата обращения: 18 мая 2023. Архивировано 16 мая 2023 года.

[pWyLA-78] Introducing PaLM 2 (неопр.). Google (10 мая 2023). Дата обращения: 18 мая 2023. Архивировано 18 мая 2023 года.

[meta-20230719-79] 73,0 ^73,1 Introducing Llama 2: The Next Generation of Our Open Source Large Language Model (неопр.). Meta AI (2023). Дата обращения: 19 июля 2023. Архивировано 5 января 2024 года.

[80] /MODEL_CARD.md at main · meta-llama/llama (неопр.). GitHub. Дата обращения: 28 мая 2024. Архивировано 28 мая 2024 года.

[81] Claude 2 (неопр.). anthropic.com. Дата обращения: 12 декабря 2023. Архивировано 15 декабря 2023 года.

[82] Nirmal, Dinesh Building AI for business: IBM's Granite foundation models (амер. англ.). IBM Blog (7 сентября 2023). Дата обращения: 11 августа 2024. Архивировано 22 июля 2024 года.

[mistral-20230927-83] Announcing Mistral 7B (неопр.). Mistral (2023). Дата обращения: 6 октября 2023. Архивировано 6 января 2024 года.

[84] Introducing Claude 2.1 (неопр.). anthropic.com. Дата обращения: 12 декабря 2023. Архивировано 15 декабря 2023 года.

[85] xai-org/grok-1, xai-org, 2024-03-19, <https://github.com/xai-org/grok-1>. Проверено 19 марта 2024.

[86] Grok-1 model card (неопр.). x.ai. Дата обращения: 12 декабря 2023.

[87] Gemini – Google DeepMind (неопр.). deepmind.google. Дата обращения: 12 декабря 2023. Архивировано 8 декабря 2023 года.

[88] Franzen, Carl Mistral shocks AI community as latest open source model eclipses GPT-3.5 performance (неопр.). VentureBeat (11 декабря 2023). Дата обращения: 12 декабря 2023. Архивировано 11 декабря 2023 года.

[89] Mixtral of experts (неопр.). mistral.ai (11 декабря 2023). Дата обращения: 12 декабря 2023. Архивировано 13 февраля 2024 года.

[:1-90] 84,0 ^84,1 DeepSeek-AI; Bi, Xiao; Chen, Deli & Chen, Guanting (2024-01-05), DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

[:9-91] 85,0 ^85,1 Hughes, Alyssa Phi-2: The surprising power of small language models (неопр.). Microsoft Research (12 декабря 2023). Дата обращения: 13 декабря 2023. Архивировано 12 декабря 2023 года.

[92] Our next-generation model: Gemini 1.5 (неопр.). Google (15 февраля 2024). — «This means 1.5 Pro can process vast amounts of information in one go — including 1 hour of video, 11 hours of audio, codebases with over 30,000 lines of code or over 700,000 words. In our research, we’ve also successfully tested up to 10 million tokens.» Дата обращения: 16 февраля 2024. Архивировано 16 февраля 2024 года.

[gemma-93] Gemma (неопр.).

[94] Introducing the next generation of Claude (неопр.). www.anthropic.com. Дата обращения: 4 марта 2024. Архивировано 4 марта 2024 года.

[95] Databricks Open Model License (неопр.). Databricks (27 марта 2024). Дата обращения: 6 августа 2025.

[96] Databricks Open Model Acceptable Use Policy (неопр.). Databricks (27 марта 2024). Дата обращения: 6 августа 2025.

[97] Fugaku-LLM Terms of Use (неопр.) (23 апреля 2024). Дата обращения: 6 августа 2025.

[98] Fugaku-LLM/Fugaku-LLM-13B · Hugging Face (неопр.). huggingface.co. Дата обращения: 17 мая 2024. Архивировано 17 мая 2024 года.

[99] Dickson, Ben Meta introduces Chameleon, a state-of-the-art multimodal model (неопр.). VentureBeat (22 мая 2024).

[100] /LICENSE at e3b711ef63b0bb3a129cf0cf0918e36a32f26e2c · facebookresearch/chameleon (англ.). Meta Research. Дата обращения: 6 августа 2025.

[101] AI, Mistral Cheaper, Better, Faster, Stronger (неопр.). mistral.ai (17 апреля 2024). Дата обращения: 5 мая 2024. Архивировано 5 мая 2024 года.

[102] Phi-3 (неопр.). azure.microsoft.com (23 апреля 2024). Дата обращения: 28 апреля 2024. Архивировано 27 апреля 2024 года.

[103] Phi-3 Model Documentation (неопр.). huggingface.co. Дата обращения: 28 апреля 2024. Архивировано 13 мая 2024 года.

[104] Qwen2 (неопр.). GitHub. Дата обращения: 17 июня 2024. Архивировано 17 июня 2024 года.

[105] DeepSeek-AI; Liu, Aixin; Feng, Bei & Wang, Bin (2024-06-19), DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

[106] NVIDIA Open Models License (неопр.). Nvidia (16 июня 2025). Дата обращения: 6 августа 2025.

[107] Trustworthy AI (неопр.). Nvidia (27 июня 2024). Дата обращения: 6 августа 2025.

[108] vidia/Nemotron-4-340B-Base · Hugging Face (неопр.). huggingface.co (14 июня 2024). Дата обращения: 15 июня 2024. Архивировано 15 июня 2024 года.

[109] Nemotron-4 340B | Research (неопр.). research.nvidia.com. Дата обращения: 15 июня 2024. Архивировано 15 июня 2024 года.

[110] Introducing Claude 3.5 Sonnet (англ.). www.anthropic.com. Дата обращения: 8 августа 2025.

[111] Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku (англ.). www.anthropic.com. Дата обращения: 8 августа 2025.

[112] "The Llama 3 Herd of Models" (July 23, 2024) Llama Team, AI @ Meta

[113] -models/models/llama3_1/MODEL_CARD.md at main · meta-llama/llama-models (англ.). GitHub. Дата обращения: 23 июля 2024. Архивировано 23 июля 2024 года.

[114] LICENSE · xai-org/grok-2 at main (неопр.) (5 ноября 2025). Дата обращения: 18 ноября 2025.

[115] xAI Acceptable Use Policy (англ.). xAI (2 января 2025). Дата обращения: 18 ноября 2025.

[116] Weatherbed, Jess xAI's new Grok-2 chatbots bring AI image generation to X (неопр.). The Verge (14 августа 2024). Дата обращения: 18 ноября 2025.

[117] Ha, Anthony Elon Musk says xAI has open sourced Grok 2.5 (неопр.). TechCrunch (24 августа 2025). Дата обращения: 18 ноября 2025.

[118] Introducing OpenAI o1 (неопр.). openai.com. Дата обращения: 8 августа 2025.

[Mistral_models_overview-119] 113,0 ^113,1 Models Overview (неопр.). mistral.ai. Дата обращения: 3 марта 2025.

[120] Phi-4 Model Card (неопр.). huggingface.co. Дата обращения: 11 ноября 2025.

[121] Introducing Phi-4: Microsoft’s Newest Small Language Model Specializing in Complex Reasoning (неопр.). techcommunity.microsoft.com. Дата обращения: 11 ноября 2025.

[122] deepseek-ai/DeepSeek-V3, DeepSeek, 2024-12-26, <https://github.com/deepseek-ai/DeepSeek-V3?tab=readme-ov-file>. Проверено 26 декабря 2024.

[123] Feng, Coco DeepSeek wows coders with more powerful open-source V3 model (англ.). South China Morning Post (25 марта 2025). Дата обращения: 6 апреля 2025.

[124] Amazon Nova Micro, Lite, and Pro - AWS AI Service Cards3, Amazon, 2024-12-27, <https://docs.aws.amazon.com/ai/responsible-ai/nova-micro-lite-pro/overview.html>. Проверено 27 декабря 2024.

[125] deepseek-ai/DeepSeek-R1, DeepSeek, 2025-01-21, <https://github.com/deepseek-ai/DeepSeek-R1>. Проверено 21 января 2025.

[126] DeepSeek-AI; Guo, Daya; Yang, Dejian & Zhang, Haowei (2025-01-22), DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

[127] Qwen; Yang, An; Yang, Baosong & Zhang, Beichen (2025-01-03), Qwen2.5 Technical Report

[:0-128] 122,0 ^122,1 MiniMax; Li, Aonian; Gong, Bangwei & Yang, Bo (2025-01-14), MiniMax-01: Scaling Foundation Models with Lightning Attention

[129] MiniMax-AI/MiniMax-01, MiniMax, 2025-01-26, <https://github.com/MiniMax-AI/MiniMax-01?tab=readme-ov-file>. Проверено 26 января 2025.

[130] Kavukcuoglu, Koray Gemini 2.0 is now available to everyone (неопр.). Google (5 февраля 2025). Дата обращения: 6 февраля 2025.

[131] Gemini 2.0: Flash, Flash-Lite and Pro (неопр.). Google for Developers. Дата обращения: 6 февраля 2025.

[132] Franzen, Carl Google launches Gemini 2.0 Pro, Flash-Lite and connects reasoning model Flash Thinking to YouTube, Maps and Search (неопр.). VentureBeat (5 февраля 2025). Дата обращения: 6 февраля 2025.

[133] Claude 3.7 Sonnet and Claude Code (англ.). www.anthropic.com. Дата обращения: 8 августа 2025.

[134] Introducing GPT-4.5 (неопр.). openai.com. Дата обращения: 8 августа 2025.

[135] Grok 3 Beta — The Age of Reasoning Agents (англ.). x.ai. Дата обращения: 22 февраля 2025.

[136] Kavukcuoglu, Koray Gemini 2.5: Our most intelligent AI model (неопр.). Google (25 марта 2025). Дата обращения: 23 сентября 2025.

[137] ta-llama/Llama-4-Maverick-17B-128E · Hugging Face (неопр.). huggingface.co (5 апреля 2025). Дата обращения: 6 апреля 2025.

[138] The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation (англ.). ai.meta.com. Дата обращения: 5 апреля 2025. Архивировано 5 апреля 2025 года.

[139] Introducing OpenAI o3 and o4-mini (неопр.). openai.com. Дата обращения: 8 августа 2025.

[140] Team, Qwen Qwen3: Think Deeper, Act Faster (англ.). Qwen (29 апреля 2025). Дата обращения: 29 апреля 2025.

[141] Introducing Claude 4 (англ.). www.anthropic.com. Дата обращения: 8 августа 2025.

[142] zai-org/GLM-4.5 · Hugging Face (неопр.). huggingface.co (4 августа 2025). Дата обращения: 6 августа 2025.

[143] GLM-4.5: Reasoning, Coding, and Agentic Abililties (англ.). z.ai. Дата обращения: 6 августа 2025.

[144] Whitwam, Ryan OpenAI announces two "gpt-oss" open AI models, and you can download them today (англ.). Ars Technica (5 августа 2025). Дата обращения: 6 августа 2025.

[145] Claude Opus 4.1 (англ.). www.anthropic.com. Дата обращения: 8 августа 2025.

[146] Introducing GPT-5 (неопр.). openai.com (7 августа 2025). Дата обращения: 8 августа 2025.

[147] OpenAI Platform: GPT-5 Model Documentation (неопр.). openai.com. Дата обращения: 18 августа 2025.

[148] seek-ai/DeepSeek-V3.1 · Hugging Face (неопр.). huggingface.co (21 августа 2025). Дата обращения: 25 августа 2025.

[149] DeepSeek-V3.1 Release | DeepSeek API Docs (англ.). api-docs.deepseek.com. Дата обращения: 25 августа 2025.

[150] Apertus: Ein vollständig offenes, transparentes und mehrsprachiges Sprachmodell (нем.). Zürich: ETH Zürich (2 сентября 2025). Дата обращения: 7 ноября 2025.

[151] Kirchner, Malte Apertus: Schweiz stellt erstes offenes und mehrsprachiges KI-Modell vor (нем.). heise online (2 сентября 2025). Дата обращения: 7 ноября 2025.

[152] Introducing Claude Sonnet 4.5 (англ.). www.anthropic.com. Дата обращения: 29 сентября 2025.

[153] Introducing DeepSeek-V3.2-Exp | DeepSeek API Docs (англ.). api-docs.deepseek.com. Дата обращения: 1 октября 2025.

[154] seek-ai/DeepSeek-V3.2-Exp · Hugging Face (неопр.). huggingface.co (29 сентября 2025). Дата обращения: 1 октября 2025.

[155] DeepSeek-V3.2-Exp/DeepSeek_V3_2.pdf at main · deepseek-ai/DeepSeek-V3.2-Exp (англ.). GitHub. Дата обращения: 1 октября 2025.

[156] GLM-4.6: Advanced Agentic, Reasoning and Coding Capabilities (англ.). z.ai. Дата обращения: 1 октября 2025.

[157] zai-org/GLM-4.6 · Hugging Face (неопр.). huggingface.co (30 сентября 2025). Дата обращения: 1 октября 2025.

[158] GLM-4.6 (неопр.). modelscope.cn. Дата обращения: 1 октября 2025.

[159] A new era of intelligence with Gemini 3 (неопр.). Google (18 ноября 2025). Дата обращения: 5 января 2026.

[160] Introducing Claude Opus 4.5 (англ.). www.anthropic.com. Дата обращения: 8 января 2026.

[161] Advancing science and math with GPT-5.2 (неопр.). openai.com. Дата обращения: 4 января 2026.

[lower-alpha 1]

[lower-alpha 2]

[lower-alpha 3]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[lower-alpha 4]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[lower-alpha 5]

[lower-alpha 6]

[60]

[61]

[62]

[63]

[64]

[65]

[66]

[67]

[68]

[69]

[70]

[71]

[72]

[73]

[74]

[75]

[76]

[77]

[78]

[79]

[80]

[81]

[82]

[83]

[84]

[85]

[86]

[87]

[88]

[89]

[90]

[91]

[92]

[93]

[94]

[95]

Список больших языковых моделей

Содержание

Список

See also

Notes

References

Ссылки

Навигация

Список больших языковых моделей

Список

See also

Notes

References

Ссылки

Навигация

Поиск