Stable Diffusion: различия между версиями

Stable Diffusion
Stable Diffusion
	Ошибка Lua в Модуль:Wikidata на строке 1098: attempt to index field 'wikibase' (a nil value).
	Изображение, сгенерированное Stable Diffusion; Изображение, сгенерированное Stable Diffusion
Тип	Text-to-image model
Автор	Ошибка Lua в Модуль:Wikidata на строке 1098: attempt to index field 'wikibase' (a nil value).
Разработчик	StabilityAI
Написана на	Python
Операционная система	Все, поддерживающие ядра CUDA
Первый выпуск	Август 22, 2022
Последняя версия	Ошибка Lua в Модуль:Wikidata на строке 1098: attempt to index field 'wikibase' (a nil value).
Кандидат в релизы	Ошибка Lua в Модуль:Wikidata на строке 1098: attempt to index field 'wikibase' (a nil value).
Бета-версия	Ошибка Lua в Модуль:Wikidata на строке 1098: attempt to index field 'wikibase' (a nil value).
Альфа-версия	Ошибка Lua в Модуль:Wikidata на строке 1098: attempt to index field 'wikibase' (a nil value).
Тестовая версия	Ошибка Lua в Модуль:Wikidata на строке 1098: attempt to index field 'wikibase' (a nil value).
Репозиторий	github.com/CompVis/stable-diffusion
Лицензия	Creative ML OpenRAIL-M
Сайт	stability.ai

Версия от 04:29, 19 февраля 2024

Stable Diffusion (дословно «Стабильная диффузия^[en]») — программное обеспечение, создающее изображения по текстовым описаниям, с открытым исходным кодом^[2]. Выпущено в 2022 году. Разработано группой компаний CompVis в Мюнхенском университете. Кроме того, в разработке участвовали Runway, EleutherAI и LAION.

Технические особенности

Модель может работать на центральном процессоре, но лучшая производительность достигается при помощи видеокарты с объёмом видеопамяти не менее 2 ГБ, начиная с GeForce GTX 750Ti.

Далее хуёвый перевод

Stable Diffusion (дословно «Стабильная диффузия^[en]») — глубокое изучение, модель текста к изображению, опубликованная запуском StabilityAI в 2022. В первую очередь он используется для создания подробных изображений на основе текстовых описаний, но также может применяться и к другим задачам, таким как ввод, вывод и создание переводов «изображение-изображение» с помощью текстового запроса.^[3]

Stable Diffusion — латентная диффузионная модель, разнообразная генеративная нейронная сеть, разработанная исследователями из LMU Munich. Он был разработан Stability AI в сотрудничестве с LMU и Runway при поддержке EleutherAI и LAION.^[4]^[5]^[6] Stability AI ведёт переговоры о привлечении капитала по оценке до одного миллиарда долларов по состоянию на сентябрь 2022 года.^[7]

Код и вес модели Stable Diffusion были опубликованы публично, и они могут работать на большинстве потребительских аппаратных средств домашних ПК, оснащённых скромным графическим процессором. Это означало отход от предыдущих запатентованных моделей преобразования текста в изображение, таких как DALL-E и Midjourney, которые были доступны только через облачные сервисы.^[8]^[9]

Архитектура

Stable Diffusion является формой диффузионной модели (DM). Внедрённые в 2015 году диффузионные модели обучаются с целью удаления последовательных применений гауссова шума к обучающим изображениям, и их можно рассматривать как последовательность денуазирующих автокодеров. Stable Diffusion использует вариант, известный как «латентная диффузионная модель» (LDM). Вместо обучения обесшумлению данных изображения (в «пиксельном пространстве») автокодер обучается преобразованию изображений в более низкоразмерное латентное пространство. Процесс добавления и удаления шума применяется к этому скрытому представлению, при этом конечный деноизируемый выходной сигнал затем декодируется в пиксельное пространство. Каждый этап деноизирования выполняется архитектурой U-Net. Исследователи указывают на снижение вычислительных требований к обучению и генерации как на преимущество LDM.^[4]^[10]

Этап отрицания может быть обусловлен строкой текста, изображением или некоторыми другими данными. Кодирование кондиционирующих данных подвергают воздействию деноизлучающих U-сетей посредством механизма перекрёстного внимания.^[10]

Файл:Stable Diffusion architecture.png

Diagram of the latent diffusion architecture used by Stable Diffusion.

Использование

Модель Stable Diffusion поддерживает возможность создания новых изображений с нуля посредством использования текстового запроса, описывающего элементы, которые должны быть включены или опущены из выходных данных,^[5] и перерисовки существующих изображений, которые включают новые элементы, описанные в текстовом запросе.^[11] Кроме того, модель также позволяет использовать подсказки для частичного изменения существующих изображений посредством ввода и вывода, при использовании с соответствующим пользовательским интерфейсом, поддерживающим такие особенности, из которых существуют многочисленные различные реализации с открытым исходным кодом^[12].

Стабильную диффузию рекомендуется запускать с 10 ГБ или более VRAM, однако пользователи с меньшим количеством VRAM могут использовать для загрузки весов с точностью float16 вместо значения по умолчанию float32, чтобы снизить использование VRAM.^[13]

Создание текста для изображения

Сценарий выборки текста для изображения в рамках стабильной диффузии, известный как «txt2img», использует текстовую подсказку в дополнение к различным параметрам опций, охватывающим типы выборки, выходные размеры изображения и начальные значения, а также вывод файла изображения на основе интерпретации подсказки моделью.^[5] Сгенерированные изображения помечаются невидимым цифровым водяным знаком, что позволяет пользователям идентифицировать изображение, сформированное при помощи функции «Стабильная диффузия»,^[5] Хотя этот водяной знак теряет свою эффективность, если изображение изменяется или поворачивается.^[14] Модель стабильной диффузии обучается на наборе данных, состоящем из изображений с разрешением 512 × 512,^[5]^[15] означает, что выходные изображения txt2img оптимально сконфигурированы для генерации с разрешением 512 × 512, и отклонение от этого размера может привести к некачественным выходам генерации^[13].

Каждое формирование txt2img будет включать конкретное начальное значение, которое влияет на выходное изображение; пользователи могут выбрать рандомизацию начального числа для того, чтобы исследовать различные сгенерированные выходные данные, или использовать одно и то же начальное значение для того, чтобы получить тот же выходной сигнал изображения, что и ранее сгенерированное изображение.^[16] Пользователи также могут регулировать количество шагов вывода для дискретизатора; более высокое значение занимает больше времени, однако меньшее значение может привести к визуальным дефектам.^[16] значение шкалы управления без классификатора позволяет пользователю отрегулировать, насколько близко выходное изображение придерживается подсказки;^[17] более экспериментальные или творческие сценарии использования могут выбрать меньшее значение, в то время как сценарии использования, направленные на более конкретные выходы, могут использовать более высокое значение.^[16]

Отрицательные подсказки — это функция, включённая в некоторые реализации интерфейса пользователя Stable Diffusion, которая позволяет пользователю задавать подсказки, которых модель должна избегать во время создания изображения. для случаев использования, когда нежелательные признаки изображения в противном случае присутствовали бы в выходных данных изображения из-за положительных подсказок, предоставленных пользователем,^[12] Использование негативных подсказок оказывает весьма статистически значимое влияние на снижение частоты генерации нежелательных результатов по сравнению с использованием маркеров акцента, которые являются другим альтернативным способом добавления веса к частям подсказок, используемых в некоторых реализациях стабильной диффузии с открытым исходным кодом, где скобки добавлены к ключевым словам, чтобы добавить или уменьшить акцент.^[18]

Изменение изображения

Stable Diffusion включает в себя другой сценарий выборки, «img2img», который использует текстовое приглашение, путь к существующему изображению и значение силы между 0,0 и 1,0, и выводит новое изображение на основе исходного изображения, которое также имеет элементы, предусмотренные в текстовом приглашении; значение силы обозначает величину шума, добавляемого к выходному изображению, с более высоким значением, создающим изображения с большей вариацией, однако может не быть семантически совместимым с предоставленной подсказкой.^[5] Увеличение масштаба изображения является одним из возможных вариантов использования img2img, среди прочих.^[5]

Покраска и выкраска

Дополнительные примеры использования для модификации изображения через img2img предлагаются многочисленными различными фронтальными реализациями модели стабильной диффузии. Ввод включает в себя выборочное изменение части существующего изображения, очерченного предоставленной пользователем маской, которая заполняет маскированное пространство вновь сформированным содержимым на основе предоставленного приглашения.^[12] Наоборот, вывод расширяет изображение за пределы его первоначальных размеров, заполняя ранее пустое пространство содержимым, сформированным на основе предоставленного приглашения.^[12]

Лицензия

В отличие от таких моделей, как DALL-E, Stable Diffusion обеспечивает доступность исходного кода^[19]^[5] вместе с предварительно подготовленными весами. Его лицензия запрещает определённые случаи использования, включая преступления, клевету, домогательства, доксинг, "эксплуатацию… несовершеннолетние, предоставление медицинских консультаций, автоматическое создание юридических обязательств, представление юридических доказательств и дискриминация или причинение вреда отдельным лицам или группам на основе… социальное поведение или… личностные или личностные характеристики… [или] охраняемые законом характеристики или категории «^[20]^[21] Пользователь владеет правами на созданные им выходные изображения и может свободно использовать их на коммерческой основе^[22].

Обучение

Stable Diffusion была обучена на парах изображений и титров, взятых из LAION-5B, общедоступного набора данных, полученного из данных Common Crawl, соскребаемых из сети. Набор данных был создан немецкой некоммерческой организацией LAION, которая получает финансирование от Stability AI.^[23]^[24] Модель была первоначально обучена на большом подмножестве LAION-5B, с заключительными раундами обучения, выполненными на. „LAION-Aesthetics v2 5 +“, подмножество из 600 миллионов титульных изображений, которые ИИ предсказал, что люди дадут оценку по крайней мере 5 из 10, когда его попросили оценить, насколько они им нравятся.^[23]^[25] Это последнее подмножество также исключало изображения с низким разрешением и изображения, которые ИИ идентифицировал как несущие водяной знак.^[23] Сторонний анализ обучающих данных модели выявил, что из меньшего подмножества из 12 миллионов изображений, взятых из исходного более широкого набора данных, приблизительно 47 % размера выборки изображений пришли из 100 различных доменов, при этом Pinterest занял 8,5 % подмножества, а затем такие веб-сайты, как WordPress, Blogspot, Flickr, DevIantArt и Wikimedia Общее достояние^[26]^[23].

Модель была обучена с использованием 256 графических процессоров Nvidia A100 на веб-сервисах Amazon Web Services на общую сумму 150 000 GPU-часов при стоимости 600 000 долл. США.^[27]^[28].

Социальные последствия

Как визуальные стили и композиции не подлежат авторскому праву, часто интерпретируется, что пользователи „Стабильной диффузии“, создающие изображения произведений искусства, не должны рассматриваться как нарушающие авторские права на визуально похожие произведения,^[29] однако лица, изображённые на сгенерированных изображениях, все ещё могут быть защищены правами личности, если используется их подобие,^[29] и интеллектуальная собственность, такая как узнаваемые логотипы торговых марок, по-прежнему защищены авторским правом. Тем не менее, визуальные художники выразили опасение, что широкое использование программного обеспечения для синтеза изображений, такого как „Стабильная диффузия“, может в конечном итоге привести к тому, что человеческие художники, а также фотографы, модели, кинематографисты и актёры постепенно потеряют коммерческую жизнеспособность против конкурентов на основе ИИ.^[30]

Стабильное Распространение особенно более разрешающее в типах пользователей содержания, может произвести, такие как сильные или сексуально откровенные образы, по сравнению с подобными продуктами синтеза машинного обучения изображения от других компаний.^[31] опасения Обращения, что модель может использоваться в оскорбительных целях, генеральном директоре StabilityAI Emad Mostaque, объясняют это»(это) ответственность людей за то, являются ли они этическими, моральными и законными в том, как они используют эту технологию, "^[9] и что передача возможностей стабильной диффузии в руки общественности приведёт к тому, что технология обеспечит чистую выгоду в целом, даже несмотря на потенциальные негативные последствия^[9]. Мостак утверждает, что целью открытой доступности стабильной диффузии является прекращение корпоративного контроля и доминирования над такими технологиями, которые ранее разрабатывали только закрытые системы ИИ для синтеза изображений.^[9]^[31]

См. также

Примечания

↑ Mostaque, Emad Stable Diffusion 1.5 beta now available to try via API and #DreamStudio, let me know what you think. Much more tomorrow… (неопр.) Twitter (6 июня 2022). Архивировано 27 сентября 2022 года.
↑ Stable Diffusion. — 2023-01-05. Архивировано 18 января 2023 года.
↑ Diffuse The Rest - a Hugging Face Space by huggingface-projects (неопр.). huggingface.co. Дата обращения: 18 октября 2022.
↑ ^4,0 ^4,1 Stable Diffusion launch announcement (брит. англ.). Stability.Ai. Дата обращения: 18 октября 2022.
↑ ^5,0 ^5,1 ^5,2 ^5,3 ^5,4 ^5,5 ^5,6 ^5,7 Stable Diffusion. — 2022-10-18.
↑ Revolutionizing image generation by AI: Turning text into images (англ.). www.lmu.de. Дата обращения: 18 октября 2022.
↑ Kenrick Cai. Startup Behind AI Image Generator Stable Diffusion Is In Talks To Raise At A Valuation Up To $1 Billion (англ.). Forbes. Дата обращения: 18 октября 2022.
↑ Senior Editor. The new killer app: Creating AI art will absolutely crush your PC (англ.). PCWorld. Дата обращения: 18 октября 2022.
↑ ^9,0 ^9,1 ^9,2 ^9,3 James Vincent. Anyone can use this AI art generator — that’s the risk (амер. англ.). The Verge (15 сентября 2022). Дата обращения: 18 октября 2022.
↑ ^10,0 ^10,1 Rombach; Blattmann; Lorenz; Esser; Ommer (June 2022). [1].
↑ Chenlin Meng, Yutong He, Yang Song, Jiaming Song, Jiajun Wu. SDEdit: Guided Image Synthesis and Editing with Stochastic Differential Equations // arXiv:2108.01073 [cs]. — 2022-01-04.
↑ ^12,0 ^12,1 ^12,2 ^12,3 AUTOMATIC1111. Stable Diffusion web UI. — 2022-10-18.
↑ ^13,0 ^13,1 Stable Diffusion with 🧨 Diffusers (неопр.). huggingface.co. Дата обращения: 18 октября 2022.
↑ invisible-watermark. — 2022-10-17.
↑ Andy Baio. Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion's Image Generator (амер. англ.). Waxy.org (30 августа 2022). Дата обращения: 18 октября 2022.
↑ ^16,0 ^16,1 ^16,2 Stable Diffusion (англ.) // Wikipedia. — 2022-10-14.
↑ Jonathan Ho, Tim Salimans. Classifier-Free Diffusion Guidance // arXiv:2207.12598 [cs]. — 2022-07-25.
↑ stable-diffusion-tools/emphasis at master · JohannesGaessler/stable-diffusion-tools (англ.). GitHub. Дата обращения: 18 октября 2022.
↑ Stable Diffusion Public Release (брит. англ.). Stability.Ai. Дата обращения: 18 октября 2022.
↑ Ready or not, mass video deepfakes are (неопр.).
↑ stable-diffusion-license (неопр.).
↑ 言葉で指示した画像を凄いAIが描き出す「Stable Diffusion」～画像は商用利用も可能 (неопр.).
↑ ^23,0 ^23,1 ^23,2 ^23,3 Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion’s Image Generator (неопр.).
↑ This artist is dominating AI-generated art. And he’s not happy about it. (неопр.)
↑ LAION-AESTHETICS (неопр.).
↑ Alex Ivanovs. Stable Diffusion: Tutorials, Resources, and Tools (амер. англ.). Stack Diary (8 сентября 2022). Дата обращения: 18 октября 2022.
↑ CompVis/stable-diffusion-v1-4 · Hugging Face (неопр.). huggingface.co. Дата обращения: 18 октября 2022.
↑ Kyle Wiggers. A startup wants to democratize the tech behind DALL-E 2, consequences be damned (амер. англ.). TechCrunch (12 августа 2022). Дата обращения: 18 октября 2022.
↑ ^29,0 ^29,1 蒼唯レン（VTuber）, 蒼唯レン（VTuber）. 高性能画像生成AI「Stable Diffusion」無料リリース。「kawaii」までも理解し創造する画像生成AI (яп.). AUTOMATON (24 августа 2022). Дата обращения: 18 октября 2022.
↑ This artist is dominating AI-generated art. And he’s not happy about it. (англ.). MIT Technology Review. Дата обращения: 18 октября 2022.
↑ ^31,0 ^31,1 清水亮 / Ryo Shimizu. Midjourneyを超えた？無料の作画AI｢ #StableDiffusion ｣が｢AIを民主化した｣と断言できる理由 (яп.). BUSINESS INSIDER JAPAN (26 августа 2022). Дата обращения: 18 октября 2022.

Ссылки

В русской википедии есть страница «Stable Diffusion».

stability.ai — официальный сайт Stable Diffusion
Проект Stable Diffusion на сайте GitHub

[1] Mostaque, Emad Stable Diffusion 1.5 beta now available to try via API and #DreamStudio, let me know what you think. Much more tomorrow… (неопр.) Twitter (6 июня 2022). Архивировано 27 сентября 2022 года.

[2] Stable Diffusion. — 2023-01-05. Архивировано 18 января 2023 года.

[3] Diffuse The Rest - a Hugging Face Space by huggingface-projects (неопр.). huggingface.co. Дата обращения: 18 октября 2022.

[автоссылка1-4] 4,0 ^4,1 Stable Diffusion launch announcement (брит. англ.). Stability.Ai. Дата обращения: 18 октября 2022.

[:1-5] 5,0 ^5,1 ^5,2 ^5,3 ^5,4 ^5,5 ^5,6 ^5,7 Stable Diffusion. — 2022-10-18.

[6] Revolutionizing image generation by AI: Turning text into images (англ.). www.lmu.de. Дата обращения: 18 октября 2022.

[7] Kenrick Cai. Startup Behind AI Image Generator Stable Diffusion Is In Talks To Raise At A Valuation Up To $1 Billion (англ.). Forbes. Дата обращения: 18 октября 2022.

[8] Senior Editor. The new killer app: Creating AI art will absolutely crush your PC (англ.). PCWorld. Дата обращения: 18 октября 2022.

[:8-9] 9,0 ^9,1 ^9,2 ^9,3 James Vincent. Anyone can use this AI art generator — that’s the risk (амер. англ.). The Verge (15 сентября 2022). Дата обращения: 18 октября 2022.

[:0-10] 10,0 ^10,1 Rombach; Blattmann; Lorenz; Esser; Ommer (June 2022). [1].

[11] Chenlin Meng, Yutong He, Yang Song, Jiaming Song, Jiajun Wu. SDEdit: Guided Image Synthesis and Editing with Stochastic Differential Equations // arXiv:2108.01073 [cs]. — 2022-01-04.

[:4-12] 12,0 ^12,1 ^12,2 ^12,3 AUTOMATIC1111. Stable Diffusion web UI. — 2022-10-18.

[автоссылка2-13] 13,0 ^13,1 Stable Diffusion with 🧨 Diffusers (неопр.). huggingface.co. Дата обращения: 18 октября 2022.

[14] visible-watermark. — 2022-10-17.

[15] Andy Baio. Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion's Image Generator (амер. англ.). Waxy.org (30 августа 2022). Дата обращения: 18 октября 2022.

[:2-16] 16,0 ^16,1 ^16,2 Stable Diffusion (англ.) // Wikipedia. — 2022-10-14.

[17] Jonathan Ho, Tim Salimans. Classifier-Free Diffusion Guidance // arXiv:2207.12598 [cs]. — 2022-07-25.

[18] stable-diffusion-tools/emphasis at master · JohannesGaessler/stable-diffusion-tools (англ.). GitHub. Дата обращения: 18 октября 2022.

[19] Stable Diffusion Public Release (брит. англ.). Stability.Ai. Дата обращения: 18 октября 2022.

[20] Ready or not, mass video deepfakes are (неопр.).

[21] stable-diffusion-license (неопр.).

[22] 言葉で指示した画像を凄いAIが描き出す「Stable Diffusion」～画像は商用利用も可能 (неопр.).

[:5-23] 23,0 ^23,1 ^23,2 ^23,3 Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion’s Image Generator (неопр.).

[24] This artist is dominating AI-generated art. And he’s not happy about it. (неопр.)

[25] LAION-AESTHETICS (неопр.).

[26] Alex Ivanovs. Stable Diffusion: Tutorials, Resources, and Tools (амер. англ.). Stack Diary (8 сентября 2022). Дата обращения: 18 октября 2022.

[27] CompVis/stable-diffusion-v1-4 · Hugging Face (неопр.). huggingface.co. Дата обращения: 18 октября 2022.

[28] Kyle Wiggers. A startup wants to democratize the tech behind DALL-E 2, consequences be damned (амер. англ.). TechCrunch (12 августа 2022). Дата обращения: 18 октября 2022.

[:6-29] 29,0 ^29,1 蒼唯レン（VTuber）, 蒼唯レン（VTuber）. 高性能画像生成AI「Stable Diffusion」無料リリース。「kawaii」までも理解し創造する画像生成AI (яп.). AUTOMATON (24 августа 2022). Дата обращения: 18 октября 2022.

[30] This artist is dominating AI-generated art. And he’s not happy about it. (англ.). MIT Technology Review. Дата обращения: 18 октября 2022.

[:7-31] 31,0 ^31,1 清水亮 / Ryo Shimizu. Midjourneyを超えた？無料の作画AI｢ #StableDiffusion ｣が｢AIを民主化した｣と断言できる理由 (яп.). BUSINESS INSIDER JAPAN (26 августа 2022). Дата обращения: 18 октября 2022.

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

@@ Строка 69: / Строка 69: @@
 == См. также ==
+* [[Stable Cascade]]
+* [[Midjourney]]
 * [[15.ai]]
 * [[Artificial intelligence art]]
 * [[Craiyon]]
 * [[Imagen (Google Brain)]]
-* [[Midjourney]]
 == Примечания ==

Stable Diffusion: различия между версиями

Версия от 04:29, 19 февраля 2024

Содержание

Технические особенности

Далее хуёвый перевод

Архитектура

Использование

Создание текста для изображения

Изменение изображения

Покраска и выкраска

Лицензия

Обучение

Социальные последствия

См. также

Примечания

Ссылки

Навигация

Stable Diffusion
Ошибка Lua в Модуль:Wikidata на строке 1098: attempt to index field 'wikibase' (a nil value).
Изображение, сгенерированное Stable Diffusion Изображение, сгенерированное Stable Diffusion
Тип	Text-to-image model
Автор	Ошибка Lua в Модуль:Wikidata на строке 1098: attempt to index field 'wikibase' (a nil value).
Разработчик	StabilityAI
Написана на	Python
Операционная система	Все, поддерживающие ядра CUDA
Первый выпуск	Август 22, 2022
Последняя версия	Ошибка Lua в Модуль:Wikidata на строке 1098: attempt to index field 'wikibase' (a nil value).
Кандидат в релизы	Ошибка Lua в Модуль:Wikidata на строке 1098: attempt to index field 'wikibase' (a nil value).
Бета-версия	Ошибка Lua в Модуль:Wikidata на строке 1098: attempt to index field 'wikibase' (a nil value).
Альфа-версия	Ошибка Lua в Модуль:Wikidata на строке 1098: attempt to index field 'wikibase' (a nil value).
Тестовая версия	Ошибка Lua в Модуль:Wikidata на строке 1098: attempt to index field 'wikibase' (a nil value).
Репозиторий	github.com/CompVis/stable-diffusion
Лицензия	Creative ML OpenRAIL-M
Сайт	stability.ai

Stable Diffusion: различия между версиями

Версия от 04:29, 19 февраля 2024

Технические особенности

Далее хуёвый перевод

Архитектура

Использование

Создание текста для изображения

Изменение изображения

Покраска и выкраска

Лицензия

Обучение

Социальные последствия

См. также

Примечания

Ссылки

Навигация

Поиск