Stable Diffusion: различия между версиями

Материал из DZWIKI
Перейти к навигации Перейти к поиску
(Новая страница: «{{Заготовка}} {{Infobox software | name = Stable Diffusion | logo = | screenshot = Cyberpunk city created by Stable Diffusion 2.webp | screenshot size =...»)
 
Строка 73: Строка 73:
{{википедия|Stable Diffusion}}
{{википедия|Stable Diffusion}}
* {{github|CompVis|stable-diffusion}}
* {{github|CompVis|stable-diffusion}}
[[Категория:Программное обеспечение по алфавиту]]
[[Категория:Программное обеспечение, разработанное в 2022 году]]


[[Категория:Категоризовать]]
[[Категория:Категоризовать]]

Версия от 13:08, 25 октября 2022

Шаблон:Infobox softwareStable Diffusion (анг. «Стабильное Распространение») — глубокое изучение, модель текста к изображению, опубликованная запуском StabilityAI в 2022. В первую очередь он используется для создания подробных изображений на основе текстовых описаний, но также может применяться и к другим задачам, таким как ввод, вывод и создание переводов «изображение-изображение» с помощью текстового запроса.[1]

Stable Diffusion — латентная диффузионная модель, разнообразная генеративная нейронная сеть, разработанная исследователями из LMU Munich. Он был разработан Stability AI в сотрудничестве с LMU и Runway при поддержке EleutherAI и LAION.[2][3][4] Stability AI ведёт переговоры о привлечении капитала по оценке до одного миллиарда долларов по состоянию на сентябрь 2022 года.[5]

Код и вес модели Stable Diffusion были опубликованы публично, и они могут работать на большинстве потребительских аппаратных средств домашних ПК, оснащённых скромным графическим процессором. Это означало отход от предыдущих запатентованных моделей преобразования текста в изображение, таких как DALL-E и Midjourney, которые были доступны только через облачные сервисы.[6][7]

Архитектура

Stable Diffusion является формой диффузионной модели (DM). Внедрённые в 2015 году диффузионные модели обучаются с целью удаления последовательных применений гауссова шума к обучающим изображениям, и их можно рассматривать как последовательность денуазирующих автокодеров. Stable Diffusion использует вариант, известный как «латентная диффузионная модель» (LDM). Вместо обучения обесшумлению данных изображения (в «пиксельном пространстве») автокодер обучается преобразованию изображений в более низкоразмерное латентное пространство. Процесс добавления и удаления шума применяется к этому скрытому представлению, при этом конечный деноизируемый выходной сигнал затем декодируется в пиксельное пространство. Каждый этап деноизирования выполняется архитектурой U-Net. Исследователи указывают на снижение вычислительных требований к обучению и генерации как на преимущество LDM.[2][8]

Этап отрицания может быть обусловлен строкой текста, изображением или некоторыми другими данными. Кодирование кондиционирующих данных подвергают воздействию деноизлучающих U-сетей посредством механизма перекрёстного внимания.[8]

Файл:Stable Diffusion architecture.png
Diagram of the latent diffusion architecture used by Stable Diffusion.

Использование

Модель Stable Diffusion поддерживает возможность создания новых изображений с нуля посредством использования текстового запроса, описывающего элементы, которые должны быть включены или опущены из выходных данных,[3] и перерисовки существующих изображений, которые включают новые элементы, описанные в текстовом запросе.[9] Кроме того, модель также позволяет использовать подсказки для частичного изменения существующих изображений посредством ввода и вывода, при использовании с соответствующим пользовательским интерфейсом, поддерживающим такие особенности, из которых существуют многочисленные различные реализации с открытым исходным кодом[10].

Стабильную диффузию рекомендуется запускать с 10 ГБ или более VRAM, однако пользователи с меньшим количеством VRAM могут использовать для загрузки весов с точностью float16 вместо значения по умолчанию float32, чтобы снизить использование VRAM.[11]

Создание текста для изображения

Сценарий выборки текста для изображения в рамках стабильной диффузии, известный как «txt2img», использует текстовую подсказку в дополнение к различным параметрам опций, охватывающим типы выборки, выходные размеры изображения и начальные значения, а также вывод файла изображения на основе интерпретации подсказки моделью.[3] Сгенерированные изображения помечаются невидимым цифровым водяным знаком, что позволяет пользователям идентифицировать изображение, сформированное при помощи функции «Стабильная диффузия»,[3] Хотя этот водяной знак теряет свою эффективность, если изображение изменяется или поворачивается.[12] Модель стабильной диффузии обучается на наборе данных, состоящем из изображений с разрешением 512 × 512,[3][13] означает, что выходные изображения txt2img оптимально сконфигурированы для генерации с разрешением 512 × 512, и отклонение от этого размера может привести к некачественным выходам генерации[11].

Каждое формирование txt2img будет включать конкретное начальное значение, которое влияет на выходное изображение; пользователи могут выбрать рандомизацию начального числа для того, чтобы исследовать различные сгенерированные выходные данные, или использовать одно и то же начальное значение для того, чтобы получить тот же выходной сигнал изображения, что и ранее сгенерированное изображение.[14] Пользователи также могут регулировать количество шагов вывода для дискретизатора; более высокое значение занимает больше времени, однако меньшее значение может привести к визуальным дефектам.[14] значение шкалы управления без классификатора позволяет пользователю отрегулировать, насколько близко выходное изображение придерживается подсказки;[15] более экспериментальные или творческие сценарии использования могут выбрать меньшее значение, в то время как сценарии использования, направленные на более конкретные выходы, могут использовать более высокое значение.[14]

Отрицательные подсказки — это функция, включённая в некоторые реализации интерфейса пользователя Stable Diffusion, которая позволяет пользователю задавать подсказки, которых модель должна избегать во время создания изображения. для случаев использования, когда нежелательные признаки изображения в противном случае присутствовали бы в выходных данных изображения из-за положительных подсказок, предоставленных пользователем,[10] Использование негативных подсказок оказывает весьма статистически значимое влияние на снижение частоты генерации нежелательных результатов по сравнению с использованием маркеров акцента, которые являются другим альтернативным способом добавления веса к частям подсказок, используемых в некоторых реализациях стабильной диффузии с открытым исходным кодом, где скобки добавлены к ключевым словам, чтобы добавить или уменьшить акцент.[16]

Изменение изображения

Stable Diffusion включает в себя другой сценарий выборки, «img2img», который использует текстовое приглашение, путь к существующему изображению и значение силы между 0,0 и 1,0, и выводит новое изображение на основе исходного изображения, которое также имеет элементы, предусмотренные в текстовом приглашении; значение силы обозначает величину шума, добавляемого к выходному изображению, с более высоким значением, создающим изображения с большей вариацией, однако может не быть семантически совместимым с предоставленной подсказкой.[3] Увеличение масштаба изображения является одним из возможных вариантов использования img2img, среди прочих.[3]

Покраска и выкраска

Дополнительные примеры использования для модификации изображения через img2img предлагаются многочисленными различными фронтальными реализациями модели стабильной диффузии. Ввод включает в себя выборочное изменение части существующего изображения, очерченного предоставленной пользователем маской, которая заполняет маскированное пространство вновь сформированным содержимым на основе предоставленного приглашения.[10] Наоборот, вывод расширяет изображение за пределы его первоначальных размеров, заполняя ранее пустое пространство содержимым, сформированным на основе предоставленного приглашения.[10]

Лицензия

В отличие от таких моделей, как DALL-E, Stable Diffusion обеспечивает доступность исходного кода[17][3] вместе с предварительно подготовленными весами. Его лицензия запрещает определённые случаи использования, включая преступления, клевету, домогательства, доксинг, "эксплуатацию… несовершеннолетние, предоставление медицинских консультаций, автоматическое создание юридических обязательств, представление юридических доказательств и дискриминация или причинение вреда отдельным лицам или группам на основе… социальное поведение или… личностные или личностные характеристики… [или] охраняемые законом характеристики или категории «[18][19] Пользователь владеет правами на созданные им выходные изображения и может свободно использовать их на коммерческой основе[20].

Обучение

Stable Diffusion была обучена на парах изображений и титров, взятых из LAION-5B, общедоступного набора данных, полученного из данных Common Crawl, соскребаемых из сети. Набор данных был создан немецкой некоммерческой организацией LAION, которая получает финансирование от Stability AI.[21][22] Модель была первоначально обучена на большом подмножестве LAION-5B, с заключительными раундами обучения, выполненными на. „LAION-Aesthetics v2 5 +“, подмножество из 600 миллионов титульных изображений, которые ИИ предсказал, что люди дадут оценку по крайней мере 5 из 10, когда его попросили оценить, насколько они им нравятся.[21][23] Это последнее подмножество также исключало изображения с низким разрешением и изображения, которые ИИ идентифицировал как несущие водяной знак.[21] Сторонний анализ обучающих данных модели выявил, что из меньшего подмножества из 12 миллионов изображений, взятых из исходного более широкого набора данных, приблизительно 47 % размера выборки изображений пришли из 100 различных доменов, при этом Pinterest занял 8,5 % подмножества, а затем такие веб-сайты, как WordPress, Blogspot, Flickr, DevIantArt и Wikimedia Общее достояние[24][21].

Модель была обучена с использованием 256 графических процессоров Nvidia A100 на веб-сервисах Amazon Web Services на общую сумму 150 000 GPU-часов при стоимости 600 000 долл. США.[25][26].

Социальные последствия

Как визуальные стили и композиции не подлежат авторскому праву, часто интерпретируется, что пользователи „Стабильной диффузии“, создающие изображения произведений искусства, не должны рассматриваться как нарушающие авторские права на визуально похожие произведения,[27] однако лица, изображённые на сгенерированных изображениях, все ещё могут быть защищены правами личности, если используется их подобие,[27] и интеллектуальная собственность, такая как узнаваемые логотипы торговых марок, по-прежнему защищены авторским правом. Тем не менее, визуальные художники выразили опасение, что широкое использование программного обеспечения для синтеза изображений, такого как „Стабильная диффузия“, может в конечном итоге привести к тому, что человеческие художники, а также фотографы, модели, кинематографисты и актёры постепенно потеряют коммерческую жизнеспособность против конкурентов на основе ИИ.[28]

Стабильное Распространение особенно более разрешающее в типах пользователей содержания, может произвести, такие как сильные или сексуально откровенные образы, по сравнению с подобными продуктами синтеза машинного обучения изображения от других компаний.[29] опасения Обращения, что модель может использоваться в оскорбительных целях, генеральном директоре StabilityAI Emad Mostaque, объясняют это»(это) ответственность людей за то, являются ли они этическими, моральными и законными в том, как они используют эту технологию, "[7] и что передача возможностей стабильной диффузии в руки общественности приведёт к тому, что технология обеспечит чистую выгоду в целом, даже несмотря на потенциальные негативные последствия[7]. Мостак утверждает, что целью открытой доступности стабильной диффузии является прекращение корпоративного контроля и доминирования над такими технологиями, которые ранее разрабатывали только закрытые системы ИИ для синтеза изображений.[7][29]

См. также

Примечания

  1. Diffuse The Rest - a Hugging Face Space by huggingface-projects. huggingface.co. Дата обращения: 18 октября 2022.
  2. 2,0 2,1 Stable Diffusion launch announcement (брит. англ.). Stability.Ai. Дата обращения: 18 октября 2022.
  3. 3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,7 Stable Diffusion. — 2022-10-18.
  4. Revolutionizing image generation by AI: Turning text into images (англ.). www.lmu.de. Дата обращения: 18 октября 2022.
  5. Kenrick Cai. Startup Behind AI Image Generator Stable Diffusion Is In Talks To Raise At A Valuation Up To $1 Billion (англ.). Forbes. Дата обращения: 18 октября 2022.
  6. Senior Editor. The new killer app: Creating AI art will absolutely crush your PC (англ.). PCWorld. Дата обращения: 18 октября 2022.
  7. 7,0 7,1 7,2 7,3 James Vincent. Anyone can use this AI art generator — that’s the risk (амер. англ.). The Verge (15 сентября 2022). Дата обращения: 18 октября 2022.
  8. 8,0 8,1 Rombach; Blattmann; Lorenz; Esser; Ommer (June 2022). [1].
  9. Chenlin Meng, Yutong He, Yang Song, Jiaming Song, Jiajun Wu. SDEdit: Guided Image Synthesis and Editing with Stochastic Differential Equations // arXiv:2108.01073 [cs]. — 2022-01-04.
  10. 10,0 10,1 10,2 10,3 AUTOMATIC1111. Stable Diffusion web UI. — 2022-10-18.
  11. 11,0 11,1 Stable Diffusion with 🧨 Diffusers. huggingface.co. Дата обращения: 18 октября 2022.
  12. invisible-watermark. — 2022-10-17.
  13. Andy Baio. Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion's Image Generator (амер. англ.). Waxy.org (30 августа 2022). Дата обращения: 18 октября 2022.
  14. 14,0 14,1 14,2 Stable Diffusion (англ.) // Wikipedia. — 2022-10-14.
  15. Jonathan Ho, Tim Salimans. Classifier-Free Diffusion Guidance // arXiv:2207.12598 [cs]. — 2022-07-25.
  16. stable-diffusion-tools/emphasis at master · JohannesGaessler/stable-diffusion-tools (англ.). GitHub. Дата обращения: 18 октября 2022.
  17. Stable Diffusion Public Release (брит. англ.). Stability.Ai. Дата обращения: 18 октября 2022.
  18. Ready or not, mass video deepfakes are.
  19. stable-diffusion-license.
  20. 言葉で指示した画像を凄いAIが描き出す「Stable Diffusion」 ~画像は商用利用も可能.
  21. 21,0 21,1 21,2 21,3 Exploring 12 Million of the 2.3 Billion Images Used to Train Stable Diffusion’s Image Generator.
  22. This artist is dominating AI-generated art. And he’s not happy about it.
  23. LAION-AESTHETICS.
  24. Alex Ivanovs. Stable Diffusion: Tutorials, Resources, and Tools (амер. англ.). Stack Diary (8 сентября 2022). Дата обращения: 18 октября 2022.
  25. CompVis/stable-diffusion-v1-4 · Hugging Face. huggingface.co. Дата обращения: 18 октября 2022.
  26. Kyle Wiggers. A startup wants to democratize the tech behind DALL-E 2, consequences be damned (амер. англ.). TechCrunch (12 августа 2022). Дата обращения: 18 октября 2022.
  27. 27,0 27,1 蒼唯レン(VTuber), 蒼唯レン(VTuber). 高性能画像生成AI「Stable Diffusion」無料リリース。「kawaii」までも理解し創造する画像生成AI (яп.). AUTOMATON (24 августа 2022). Дата обращения: 18 октября 2022.
  28. This artist is dominating AI-generated art. And he’s not happy about it. (англ.). MIT Technology Review. Дата обращения: 18 октября 2022.
  29. 29,0 29,1 清水亮 / Ryo Shimizu. Midjourneyを超えた? 無料の作画AI「 #StableDiffusion 」が「AIを民主化した」と断言できる理由 (яп.). BUSINESS INSIDER JAPAN (26 августа 2022). Дата обращения: 18 октября 2022.

Ссылки