Stable Diffusion: различия между версиями

Материал из DZWIKI
Перейти к навигации Перейти к поиску
Нет описания правки
Строка 69: Строка 69:


== См. также ==
== См. также ==
* [[Stable Cascade]]
* [[Midjourney]]
* [[15.ai]]
* [[15.ai]]
* [[Artificial intelligence art]]
* [[Artificial intelligence art]]
* [[Craiyon]]
* [[Craiyon]]
* [[Imagen (Google Brain)]]
* [[Imagen (Google Brain)]]
* [[Midjourney]]


== Примечания ==
== Примечания ==

Версия от 04:29, 19 февраля 2024

Stable Diffusion
Ошибка Lua в Модуль:Wikidata на строке 1098: attempt to index field 'wikibase' (a nil value).
Изображение, сгенерированное Stable Diffusion
Изображение, сгенерированное Stable Diffusion
Тип Text-to-image model
Автор Ошибка Lua в Модуль:Wikidata на строке 1098: attempt to index field 'wikibase' (a nil value).
Разработчик StabilityAI
Написана на Python
Операционная система Все, поддерживающие ядра CUDA
Первый выпуск Август 22, 2022
Последняя версия Ошибка Lua в Модуль:Wikidata на строке 1098: attempt to index field 'wikibase' (a nil value).
Кандидат в релизы Ошибка Lua в Модуль:Wikidata на строке 1098: attempt to index field 'wikibase' (a nil value).
Бета-версия Ошибка Lua в Модуль:Wikidata на строке 1098: attempt to index field 'wikibase' (a nil value).
Альфа-версия Ошибка Lua в Модуль:Wikidata на строке 1098: attempt to index field 'wikibase' (a nil value).
Тестовая версия Ошибка Lua в Модуль:Wikidata на строке 1098: attempt to index field 'wikibase' (a nil value).
Репозиторий github.com/CompVis/stable-diffusion
Лицензия Creative ML OpenRAIL-M
Сайт stability.ai

Stable Diffusion (дословно «Стабильная диффузия[en]») — программное обеспечение, создающее изображения по текстовым описаниям, с открытым исходным кодом[2]. Выпущено в 2022 году. Разработано группой компаний CompVis в Мюнхенском университете. Кроме того, в разработке участвовали Runway, EleutherAI и LAION.

Технические особенности

Модель может работать на центральном процессоре, но лучшая производительность достигается при помощи видеокарты с объёмом видеопамяти не менее 2 ГБ, начиная с GeForce GTX 750Ti.

Далее хуёвый перевод

Stable Diffusion (дословно «Стабильная диффузия[en]») — глубокое изучение, модель текста к изображению, опубликованная запуском StabilityAI в 2022. В первую очередь он используется для создания подробных изображений на основе текстовых описаний, но также может применяться и к другим задачам, таким как ввод, вывод и создание переводов «изображение-изображение» с помощью текстового запроса.[3]

Stable Diffusion — латентная диффузионная модель, разнообразная генеративная нейронная сеть, разработанная исследователями из LMU Munich. Он был разработан Stability AI в сотрудничестве с LMU и Runway при поддержке EleutherAI и LAION.[4][5][6] Stability AI ведёт переговоры о привлечении капитала по оценке до одного миллиарда долларов по состоянию на сентябрь 2022 года.[7]

Код и вес модели Stable Diffusion были опубликованы публично, и они могут работать на большинстве потребительских аппаратных средств домашних ПК, оснащённых скромным графическим процессором. Это означало отход от предыдущих запатентованных моделей преобразования текста в изображение, таких как DALL-E и Midjourney, которые были доступны только через облачные сервисы.[8][9]

Архитектура

Stable Diffusion является формой диффузионной модели (DM). Внедрённые в 2015 году диффузионные модели обучаются с целью удаления последовательных применений гауссова шума к обучающим изображениям, и их можно рассматривать как последовательность денуазирующих автокодеров. Stable Diffusion использует вариант, известный как «латентная диффузионная модель» (LDM). Вместо обучения обесшумлению данных изображения (в «пиксельном пространстве») автокодер обучается преобразованию изображений в более низкоразмерное латентное пространство. Процесс добавления и удаления шума применяется к этому скрытому представлению, при этом конечный деноизируемый выходной сигнал затем декодируется в пиксельное пространство. Каждый этап деноизирования выполняется архитектурой U-Net. Исследователи указывают на снижение вычислительных требований к обучению и генерации как на преимущество LDM.[4][10]

Этап отрицания может быть обусловлен строкой текста, изображением или некоторыми другими данными. Кодирование кондиционирующих данных подвергают воздействию деноизлучающих U-сетей посредством механизма перекрёстного внимания.[10]

Файл:Stable Diffusion architecture.png
Diagram of the latent diffusion architecture used by Stable Diffusion.

Использование

Модель Stable Diffusion поддерживает возможность создания новых изображений с нуля посредством использования текстового запроса, описывающего элементы, которые должны быть включены или опущены из выходных данных,[5] и перерисовки существующих изображений, которые включают новые элементы, описанные в текстовом запросе.[11] Кроме того, модель также позволяет использовать подсказки для частичного изменения существующих изображений посредством ввода и вывода, при использовании с соответствующим пользовательским интерфейсом, поддерживающим такие особенности, из которых существуют многочисленные различные реализации с открытым исходным кодом[12].

Стабильную диффузию рекомендуется запускать с 10 ГБ или более VRAM, однако пользователи с меньшим количеством VRAM могут использовать для загрузки весов с точностью float16 вместо значения по умолчанию float32, чтобы снизить использование VRAM.[13]

Создание текста для изображения

Сценарий выборки текста для изображения в рамках стабильной диффузии, известный как «txt2img», использует текстовую подсказку в дополнение к различным параметрам опций, охватывающим типы выборки, выходные размеры изображения и начальные значения, а также вывод файла изображения на основе интерпретации подсказки моделью.[5] Сгенерированные изображения помечаются невидимым цифровым водяным знаком, что позволяет пользователям идентифицировать изображение, сформированное при помощи функции «Стабильная диффузия»,[5] Хотя этот водяной знак теряет свою эффективность, если изображение изменяется или поворачивается.[14] Модель стабильной диффузии обучается на наборе данных, состоящем из изображений с разрешением 512 × 512,[5][15] означает, что выходные изображения txt2img оптимально сконфигурированы для генерации с разрешением 512 × 512, и отклонение от этого размера может привести к некачественным выходам генерации[13].

Каждое формирование txt2img будет включать конкретное начальное значение, которое влияет на выходное изображение; пользователи могут выбрать рандомизацию начального числа для того, чтобы исследовать различные сгенерированные выходные данные, или использовать одно и то же начальное значение для того, чтобы получить тот же выходной сигнал изображения, что и ранее сгенерированное изображение.[16] Пользователи также могут регулировать количество шагов вывода для дискретизатора; более высокое значение занимает больше времени, однако меньшее значение может привести к визуальным дефектам.[16] значение шкалы управления без классификатора позволяет пользователю отрегулировать, насколько близко выходное изображение придерживается подсказки;[17] более экспериментальные или творческие сценарии использования могут выбрать меньшее значение, в то время как сценарии использования, направленные на более конкретные выходы, могут использовать более высокое значение.[16]

Отрицательные подсказки — это функция, включённая в некоторые реализации интерфейса пользователя Stable Diffusion, которая позволяет пользователю задавать подсказки, которых модель должна избегать во время создания изображения. для случаев использования, когда нежелательные признаки изображения в противном случае присутствовали бы в выходных данных изображения из-за положительных подсказок, предоставленных пользователем,[12] Использование негативных подсказок оказывает весьма статистически значимое влияние на снижение частоты генерации нежелательных результатов по сравнению с использованием маркеров акцента, которые являются другим альтернативным способом добавления веса к частям подсказок, используемых в некоторых реализациях стабильной диффузии с открытым исходным кодом, где скобки добавлены к ключевым словам, чтобы добавить или уменьшить акцент.[18]

Изменение изображения

Stable Diffusion включает в себя другой сценарий выборки, «img2img», который использует текстовое приглашение, путь к существующему изображению и значение силы между 0,0 и 1,0, и выводит новое изображение на основе исходного изображения, которое также имеет элементы, предусмотренные в текстовом приглашении; значение силы обозначает величину шума, добавляемого к выходному изображению, с более высоким значением, создающим изображения с большей вариацией, однако может не быть семантически совместимым с предоставленной подсказкой.[5] Увеличение масштаба изображения является одним из возможных вариантов использования img2img, среди прочих.[5]

Покраска и выкраска

Дополнительные примеры использования для модификации изображения через img2img предлагаются многочисленными различными фронтальными реализациями модели стабильной диффузии. Ввод включает в себя выборочное изменение части существующего изображения, очерченного предоставленной пользователем маской, которая заполняет маскированное пространство вновь сформированным содержимым на основе предоставленного приглашения.[12] Наоборот, вывод расширяет изображение за пределы его первоначальных размеров, заполняя ранее пустое пространство содержимым, сформированным на основе предоставленного приглашения.[12]

Лицензия

В отличие от таких моделей, как DALL-E, Stable Diffusion обеспечивает доступность исходного кода[19][5] вместе с предварительно подготовленными весами. Его лицензия запрещает определённые случаи использования, включая преступления, клевету, домогательства, доксинг, "эксплуатацию… несовершеннолетние, предоставление медицинских консультаций, автоматическое создание юридических обязательств, представление юридических доказательств и дискриминация или причинение вреда отдельным лицам или группам на основе… социальное поведение или… личностные или личностные характеристики… [или] охраняемые законом характеристики или категории «[20][21] Пользователь владеет правами на созданные им выходные изображения и может свободно использовать их на коммерческой основе[22].

Обучение

Stable Diffusion была обучена на парах изображений и титров, взятых из LAION-5B, общедоступного набора данных, полученного из данных Common Crawl, соскребаемых из сети. Набор данных был создан немецкой некоммерческой организацией LAION, которая получает финансирование от Stability AI.[23][24] Модель была первоначально обучена на большом подмножестве LAION-5B, с заключительными раундами обучения, выполненными на. „LAION-Aesthetics v2 5 +“, подмножество из 600 миллионов титульных изображений, которые ИИ предсказал, что люди дадут оценку по крайней мере 5 из 10, когда его попросили оценить, насколько они им нравятся.[23][25] Это последнее подмножество также исключало изображения с низким разрешением и изображения, которые ИИ идентифицировал как несущие водяной знак.[23] Сторонний анализ обучающих данных модели выявил, что из меньшего подмножества из 12 миллионов изображений, взятых из исходного более широкого набора данных, приблизительно 47 % размера выборки изображений пришли из 100 различных доменов, при этом Pinterest занял 8,5 % подмножества, а затем такие веб-сайты, как WordPress, Blogspot, Flickr, DevIantArt и Wikimedia Общее достояние[26][23].

Модель была обучена с использованием 256 графических процессоров Nvidia A100 на веб-сервисах Amazon Web Services на общую сумму 150 000 GPU-часов при стоимости 600 000 долл. США.[27][28].

Социальные последствия

Как визуальные стили и композиции не подлежат авторскому праву, часто интерпретируется, что пользователи „Стабильной диффузии“, создающие изображения произведений искусства, не должны рассматриваться как нарушающие авторские права на визуально похожие произведения,[29] однако лица, изображённые на сгенерированных изображениях, все ещё могут быть защищены правами личности, если используется их подобие,[29] и интеллектуальная собственность, такая как узнаваемые логотипы торговых марок, по-прежнему защищены авторским правом. Тем не менее, визуальные художники выразили опасение, что широкое использование программного обеспечения для синтеза изображений, такого как „Стабильная диффузия“, может в конечном итоге привести к тому, что человеческие художники, а также фотографы, модели, кинематографисты и актёры постепенно потеряют коммерческую жизнеспособность против конкурентов на основе ИИ.[30]

Стабильное Распространение особенно более разрешающее в типах пользователей содержания, может произвести, такие как сильные или сексуально откровенные образы, по сравнению с подобными продуктами синтеза машинного обучения изображения от других компаний.[31] опасения Обращения, что модель может использоваться в оскорбительных целях, генеральном директоре StabilityAI Emad Mostaque, объясняют это»(это) ответственность людей за то, являются ли они этическими, моральными и законными в том, как они используют эту технологию, "[9] и что передача возможностей стабильной диффузии в руки общественности приведёт к тому, что технология обеспечит чистую выгоду в целом, даже несмотря на потенциальные негативные последствия[9]. Мостак утверждает, что целью открытой доступности стабильной диффузии является прекращение корпоративного контроля и доминирования над такими технологиями, которые ранее разрабатывали только закрытые системы ИИ для синтеза изображений.[9][31]

См. также

Примечания

  1. Mostaque, Emad Stable Diffusion 1.5 beta now available to try via API and #DreamStudio, let me know what you think. Much more tomorrow… Twitter (6 июня 2022). Архивировано 27 сентября 2022 года.
  2. Stable Diffusion. — 2023-01-05. Архивировано 18 января 2023 года.
  3. Diffuse The Rest - a Hugging Face Space by huggingface-projects. huggingface.co. Дата обращения: 18 октября 2022.
  4. 4,0 4,1 Stable Diffusion launch announcement (брит. англ.). Stability.Ai. Дата обращения: 18 октября 2022.
  5. 5,0 5,1 5,2 5,3 5,4 5,5 5,6 5,7 Stable Diffusion. — 2022-10-18.
  6. Revolutionizing image generation by AI: Turning text into images (англ.). www.lmu.de. Дата обращения: 18 октября 2022.
  7. Kenrick Cai. Startup Behind AI Image Generator Stable Diffusion Is In Talks To Raise At A Valuation Up To $1 Billion (англ.). Forbes. Дата обращения: 18 октября 2022.
  8. Senior Editor. The new killer app: Creating AI art will absolutely crush your PC (англ.). PCWorld. Дата обращения: 18 октября 2022.
  9. 9,0 9,1 9,2 9,3 James Vincent. Anyone can use this AI art generator — that’s the risk (амер. англ.). The Verge (15 сентября 2022). Дата обращения: 18 октября 2022.
  10. 10,0 10,1 Rombach; Blattmann; Lorenz; Esser; Ommer (June 2022). [1].
  11. Chenlin Meng, Yutong He, Yang Song, Jiaming Song, Jiajun Wu. SDEdit: Guided Image Synthesis and Editing with Stochastic Differential Equations // arXiv:2108.01073 [cs]. — 2022-01-04.
  12. 12,0 12,1 12,2 12,3 AUTOMATIC1111. Stable Diffusion web UI. — 2022-10-18.
  13. 13,0 13,1 Stable Diffusion with 🧨 Diffusers. huggingface.co. Дата обращения: 18 октября 2022.
  14. invisible-watermark. — 2022-10-17.
  15. Andy Baio. Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion's Image Generator (амер. англ.). Waxy.org (30 августа 2022). Дата обращения: 18 октября 2022.
  16. 16,0 16,1 16,2 Stable Diffusion (англ.) // Wikipedia. — 2022-10-14.
  17. Jonathan Ho, Tim Salimans. Classifier-Free Diffusion Guidance // arXiv:2207.12598 [cs]. — 2022-07-25.
  18. stable-diffusion-tools/emphasis at master · JohannesGaessler/stable-diffusion-tools (англ.). GitHub. Дата обращения: 18 октября 2022.
  19. Stable Diffusion Public Release (брит. англ.). Stability.Ai. Дата обращения: 18 октября 2022.
  20. Ready or not, mass video deepfakes are.
  21. stable-diffusion-license.
  22. 言葉で指示した画像を凄いAIが描き出す「Stable Diffusion」 ~画像は商用利用も可能.
  23. 23,0 23,1 23,2 23,3 Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion’s Image Generator.
  24. This artist is dominating AI-generated art. And he’s not happy about it.
  25. LAION-AESTHETICS.
  26. Alex Ivanovs. Stable Diffusion: Tutorials, Resources, and Tools (амер. англ.). Stack Diary (8 сентября 2022). Дата обращения: 18 октября 2022.
  27. CompVis/stable-diffusion-v1-4 · Hugging Face. huggingface.co. Дата обращения: 18 октября 2022.
  28. Kyle Wiggers. A startup wants to democratize the tech behind DALL-E 2, consequences be damned (амер. англ.). TechCrunch (12 августа 2022). Дата обращения: 18 октября 2022.
  29. 29,0 29,1 蒼唯レン(VTuber), 蒼唯レン(VTuber). 高性能画像生成AI「Stable Diffusion」無料リリース。「kawaii」までも理解し創造する画像生成AI (яп.). AUTOMATON (24 августа 2022). Дата обращения: 18 октября 2022.
  30. This artist is dominating AI-generated art. And he’s not happy about it. (англ.). MIT Technology Review. Дата обращения: 18 октября 2022.
  31. 31,0 31,1 清水亮 / Ryo Shimizu. Midjourneyを超えた? 無料の作画AI「 #StableDiffusion 」が「AIを民主化した」と断言できる理由 (яп.). BUSINESS INSIDER JAPAN (26 августа 2022). Дата обращения: 18 октября 2022.

Ссылки