Dzmuh: Новая страница: «3D-анимация хода свёртки. Значения в ядре можно извлечь независимо друг от друга. Для периферийных областей входов применяются различные подходы заполнения. '''Свёрточная нейронная сеть''' ({{lang-en|convolutional neural network}}, ''CNN'') — специ...»

2024-08-30T23:13:07Z

Новая страница: «мини|3D-анимация хода свёртки. Значения в ядре можно извлечь независимо друг от друга. Для периферийных областей входов применяются различные подходы заполнения. '''Свёрточная нейронная сеть''' ({{lang-en|convolutional neural network}}, ''CNN'') — специ...»

Новая страница

[[Файл:2D Convolution Animation.gif|мини|3D-анимация хода свёртки. Значения в ядре можно извлечь независимо друг от друга. Для периферийных областей входов применяются различные подходы заполнения.]]

'''Свёрточная нейронная сеть''' ({{lang-en|convolutional neural network}}, ''CNN'') — специальная архитектура [[искусственная нейронная сеть|искусственных нейронных сетей]], предложенная [[Лекун, Ян|Яном Лекуном]] в 1988 году<ref>Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard and L. D. Jackel: Backpropagation Applied to Handwritten Zip Code Recognition, Neural Computation, 1(4):541-551, Winter 1989.</ref> и нацеленная на эффективное [[Теория распознавания образов|распознавание образов]]<ref name="deeplearning">{{cite web|title=Convolutional Neural Networks (LeNet) - DeepLearning 0.1 documentation|url=http://deeplearning.net/tutorial/lenet.html|work=DeepLearning 0.1|publisher=LISA Lab|accessdate=2013-08-31|archive-date=2017-12-28|archive-url=https://web.archive.org/web/20171228091645/http://deeplearning.net/tutorial/lenet.html|url-status=live}}</ref>, входит в состав технологий [[Глубокое обучение|глубокого обучения]]. Использует некоторые особенности [[Зрительная кора|зрительной коры]]<ref name="robust face detection">{{статья |заглавие=Subject independent facial expression recognition with robust face detection using a convolutional neural network |издание=Neural Networks |том=16 |номер=5 |страницы=555—559 |ссылка=http://www.iro.umontreal.ca/~pift6080/H09/documents/papers/sparse/matsugo_etal_face_expression_conv_nnet.pdf |accessdate=2013-11-17 |doi=10.1016/S0893-6080(03)00115-1 |язык=en |тип=journal |автор=Matusugu, Masakazu; Katsuhiko Mori; Yusuke Mitari; Yuji Kaneda |год=2003 |archivedate=2013-12-13 |archiveurl=https://web.archive.org/web/20131213022740/http://www.iro.umontreal.ca/~pift6080/H09/documents/papers/sparse/matsugo_etal_face_expression_conv_nnet.pdf }}</ref>, в которой были открыты так называемые простые клетки, реагирующие на прямые линии под разными углами, и сложные клетки, реакция которых связана с активацией определённого набора простых клеток. Таким образом, идея свёрточных нейронных сетей заключается в чередовании свёрточных слоёв и субдискретизирующих слоёв (слоёв подвыборки). Структура сети — однонаправленная (без обратных связей), принципиально многослойная. Для обучения используются стандартные методы, чаще всего [[метод обратного распространения ошибки]]. [[Функция активации|Функция активации нейронов]] (передаточная функция) — любая, по выбору исследователя.

Название архитектура сети получила из-за наличия операции [[Свёртка (математический анализ)|свёртки]], суть которой в том, что каждый фрагмент изображения умножается на матрицу (ядро) свёртки поэлементно, а результат суммируется и записывается в аналогичную позицию выходного изображения.

== Интерпретация ==
Работа свёрточной нейронной сети обычно интерпретируется как переход от конкретных особенностей изображения к более абстрактным деталям, и далее к ещё более абстрактным деталям вплоть до выделения понятий высокого уровня. При этом сеть самонастраивается и вырабатывает сама необходимую иерархию абстрактных признаков (последовательности карт признаков), фильтруя маловажные детали и выделяя существенное.

Подобная интерпретация носит скорее метафорический или иллюстративный характер. Фактически «признаки», вырабатываемые сложной сетью, малопонятны и трудны для интерпретации настолько, что на практике суть этих признаков даже не пытаются понять, тем более «подправлять», а вместо этого для улучшения результатов распознавания меняют структуру и архитектуру сети. Так, игнорирование системой каких-то существенных явлений может говорить о том, что либо не хватает данных для обучения, либо структура сети обладает недостатками, и система не может выработать эффективных признаков для данных явлений.

== Архитектура и принцип работы ==
[[Файл:Архитектура сверточной нейронной сети.png|thumb|Архитектура свёрточной нейронной сети]]
[[Файл:Typical cnn.png|thumb|Типовая архитектура свёрточной нейронной сети]]
В обычном [[перцептрон]]е, который представляет собой полносвязную нейронную сеть, каждый нейрон связан со всеми нейронами предыдущего слоя, причём каждая связь имеет свой персональный весовой коэффициент. В свёрточной нейронной сети в ''операции свёртки'' используется лишь ограниченная матрица весов небольшого размера, которую «двигают» по всему обрабатываемому слою (в самом начале — непосредственно по входному изображению), формируя после каждого сдвига сигнал активации для нейрона следующего слоя с аналогичной позицией. То есть для различных нейронов выходного слоя используется одна и та же матрица весов, которую также называют ''ядром свёртки''. Её интерпретируют как графическое кодирование какого-либо признака, например, наличие наклонной линии под определённым углом. Тогда следующий слой, получившийся в результате операции свёртки такой матрицей весов, показывает наличие данного признака в обрабатываемом слое и её координаты, формируя так называемую карту признаков. Естественно, в свёрточной нейронной сети набор весов не один, а целая гамма, кодирующая элементы изображения (например линии и дуги под разными углами). При этом такие ядра свёртки не закладываются исследователем заранее, а формируются самостоятельно путём обучения сети классическим [[метод обратного распространения ошибки|методом обратного распространения ошибки]]. Проход каждым набором весов формирует свой собственный экземпляр карты признаков, делая нейронную сеть многоканальной (много независимых карт признаков на одном слое). При переборе слоя матрицей весов её передвигают обычно не на полный шаг (размер этой матрицы), а на небольшое расстояние. Так, например, при размерности матрицы весов 5×5 её сдвигают на один или два нейрона (пикселя) вместо пяти, чтобы не «перешагнуть» искомый признак.

Операция субдискретизации (также переводимая как «операция подвыборки» или операция объединения), выполняет уменьшение размерности сформированных карт признаков. В данной архитектуре сети считается, что информация о факте наличия искомого признака важнее точного знания его координат, поэтому из нескольких соседних нейронов карты признаков выбирается максимальный и принимается за один нейрон уплотнённой карты признаков меньшей размерности. За счёт такой операции, помимо ускорения дальнейших вычислений, сеть становится более инвариантной к масштабу входного изображения.

Типовая сеть состоит из большого количества слоёв. После начального слоя (входного изображения) сигнал проходит серию свёрточных слоёв, в которых чередуется свёртка и субдискретизация («пулинг»). Чередование слоёв позволяет составлять «карты признаков», на каждом следующем слое карта уменьшается в размере, но увеличивается количество каналов. На практике это означает способность распознавания сложных иерархий признаков. Обычно после прохождения нескольких слоёв карта признаков вырождается в вектор или даже скаляр, но таких карт признаков возникают сотни. На выходе свёрточных слоёв сети дополнительно устанавливают несколько слоёв полносвязной нейронной сети (перцептрон), на вход которых подаются оконечные карты признаков.

=== Слой свёртки ===
[[Файл:Conv layer.png|thumb|Нейроны слоя свёртки, преобразуемые по нескольким выходным каналам]]
Слой свёртки — это основной блок свёрточной нейронной сети. Слой свёртки включает в себя для каждого канала свой фильтр, ''ядро свёртки'' которого обрабатывает предыдущий слой по фрагментам (суммируя результаты поэлементного произведения для каждого фрагмента). Весовые коэффициенты ядра свёртки (небольшой матрицы) неизвестны и устанавливаются в процессе обучения.

Особенностью свёрточного слоя является сравнительно небольшое количество параметров, устанавливаемое при обучении. Так например, если исходное изображение имеет размерность 100×100 пикселей по трём каналам (это значит 30 000 входных нейронов), а свёрточный слой использует фильтры с ядром 3×3 пикселя с выходом на 6 каналов, тогда в процессе обучения определяется только 9 весов ядра, однако по всем сочетаниям каналов, то есть 9×3×6=162, в таком случае данный слой требует нахождения только 162 параметров, что существенно меньше количества искомых параметров полносвязной нейронной сети.

=== Слой активации ===
Скалярный результат каждой свёртки попадает на [[Функция активации|функцию активации]], которая представляет собой некую нелинейную функцию. Слой активации обычно логически объединяют со слоем свёртки (считают, что функция активации встроена в слой свёртки). Функция нелинейности может быть любой по выбору исследователя, традиционно для этого использовали функции типа [[Гиперболические функции|гиперболического тангенса]] (<math alt="гиперболический тангенс">f(x)=\tanh(x)</math>, <math alt="абсолютное значение гиперболического тангенса">f(x)=|\tanh(x)|</math>) или [[Сигмоида|сигмоиды]] (<math alt="function of x equals the inverse of one plus e to the power of minus x">f(x)=(1+e^{-x} )^{-1}</math>). Однако в 2000х годах была предложена<ref name="Hahnloser2000">{{cite conference |authors=R Hahnloser, R. Sarpeshkar, M A Mahowald, R. J. Douglas, H.S. Seung |title=Digital selection and analogue amplification coexist in a cortex-inspired silicon circuit |journal=Nature |volume=405 |year=2000 |pages=947–951}}</ref> и исследована<ref name="glorot2011">{{cite conference |authors=Xavier Glorot, Antoine Bordes and [[Yoshua Bengio]] |year=2011 |title=Deep sparse rectifier neural networks |conference=AISTATS |url=http://jmlr.org/proceedings/papers/v15/glorot11a/glorot11a.pdf |access-date=2017-12-29 |archive-date=2016-12-13 |archive-url=https://web.archive.org/web/20161213022121/http://www.jmlr.org/proceedings/papers/v15/glorot11a/glorot11a.pdf |url-status=live }}</ref> новая функция активации — ReLU (сокращение от {{lang-en|rectified linear unit}}), которая позволила существенно ускорить процесс обучения и одновременно упростить вычисления (за счёт простоты самой функции)<ref name="nair2010">{{cite conference|authors=Vinod Nair and [[Geoffrey Hinton]]|year=2010|title=Rectified linear units improve restricted Boltzmann machines|conference=[[International Conference on Machine Learning|ICML]]|url=http://machinelearning.wustl.edu/mlpapers/paper_files/icml2010_NairH10.pdf|url-status=dead|archiveurl=https://web.archive.org/web/20140324020659/http://machinelearning.wustl.edu/mlpapers/paper_files/icml2010_NairH10.pdf|archivedate=2014-03-24|accessdate=2016-12-22}} {{Wayback|url=http://machinelearning.wustl.edu/mlpapers/paper_files/icml2010_NairH10.pdf |date=20140324020659 }}</ref>, что означает блок линейной ректификации, вычисляющий функцию <math alt="function of x equals maximum between zero and x">f(x)=\max(0,x)</math>. То есть по сути это операция отсечения отрицательной части скалярной величины. По состоянию {{на|2017}} эта функция и её модификации (Noisy ReLU, Leaky ReLU и другие) являются наиболее часто используемыми функциями активации в глубоких нейросетях, в частности, в свёрточных. Существует методика определения оптимального числа блоков линейной ректификации<ref name="Romanuke4">{{статья |заглавие=Appropriate number and allocation of ReLUs in convolutional neural networks |издание=Research Bulletin of NTUU “Kyiv Polytechnic Institute” |том=1 |страницы=69—78 |doi=10.20535/1810-0546.2017.1.88156 |ссылка=http://bulletin.kpi.ua/article/view/88156/pdf_186/88156-200304-1-PB.pdf |accessdate=2019-02-17 |язык=en |тип=journal |автор=Romanuke, Vadim |год=2017 |archivedate=2019-02-18 |archiveurl=https://web.archive.org/web/20190218021346/http://bulletin.kpi.ua/article/view/88156/pdf_186/88156-200304-1-PB.pdf }}</ref>.

=== Слой субдискретизации ===
[[Файл:Max pooling.png|thumb|Субдискретизация с функцией максимума и фильтром 2×2 с шагом 2]]
Слой субдискретизации (иначе подвыборки или «пулинга») представляет собой нелинейное уплотнение карты признаков, при этом группа пикселей (обычно размера 2×2) уплотняется до одного пикселя, проходя нелинейное преобразование. Наиболее употребительна при этом функция максимума. Преобразования затрагивают непересекающиеся прямоугольники или квадраты, каждый из которых ужимается в один пиксель, при этом выбирается пиксель, имеющий максимальное значение. Операция субдискретизации позволяет существенно уменьшить пространственный объём изображения. Субдискретизация интерпретируется так: если на предыдущей операции свёртки уже были выявлены некоторые признаки, то для дальнейшей обработки настолько подробное изображение уже не нужно, и оно уплотняется до менее подробного. К тому же фильтрация уже ненужных деталей помогает не [[переобучение|переобучаться]]. Слой субдискретизации, как правило, вставляется после слоя свёртки перед слоем следующей свёртки.

Кроме субдискретизации с функцией максимума можно использовать и другие функции — например, среднего значения или ''L2-нормирования''. Однако практика показала преимущества именно субдискретизации с функцией максимума, который включается в типовые системы.

В целях более агрессивного уменьшения размера получаемых представлений, всё чаще находят распространение идеи использования меньших фильтров<ref>{{cite arXiv|title = Fractional Max-Pooling|eprint= 1412.6071|date = 2014-12-18|first = Benjamin|last = Graham|class= cs.CV}}</ref> или полный отказ от слоёв субдискретизации.<ref>{{cite arXiv|title = Striving for Simplicity: The All Convolutional Net|eprint= 1412.6806|date = 2014-12-21|first = Jost Tobias|last = Springenberg|first2 = Alexey|last2 = Dosovitskiy|first3 = Thomas|last3 = Brox|first4 = Martin|last4 = Riedmiller|class= cs.LG}}</ref>

=== Полносвязная нейронная сеть ===
{{main|Перцептрон}}
После нескольких прохождений свёртки изображения и уплотнения с помощью субдискретизации система перестраивается от конкретной сетки пикселей с высоким разрешением к более абстрактным картам признаков, как правило, на каждом следующем слое увеличивается число каналов и уменьшается размерность изображения в каждом канале. В конце концов, остаётся большой набор каналов, хранящих небольшое число данных (даже один параметр), которые интерпретируются как самые абстрактные понятия, выявленные из исходного изображения.

Эти данные объединяются и передаются на обычную полносвязную нейронную сеть, которая тоже может состоять из нескольких слоёв. При этом полносвязные слои уже утрачивают пространственную структуру пикселей и обладают сравнительно небольшой размерностью (по отношению к количеству пикселей исходного изображения).

== Обучение ==
Наиболее простым и популярным способом обучения является метод обучения с учителем (на [[Маркированные данные|маркированных данных]]) — [[метод обратного распространения ошибки]] и его модификации. Но существует также ряд техник обучения свёрточной сети без учителя. Например, фильтры операции свёртки можно обучить отдельно и автономно, подавая на них вырезанные случайным образом кусочки исходных изображений обучающей выборки и применяя для них любой известный алгоритм обучения без учителя (например, [[автоассоциатор]] или даже метод [[K-means|k-средних]]) — такая техника известна под названием {{lang-en2|patch-based training}}. Соответственно, следующий слой свёртки сети будет обучаться на кусочках от уже обученного первого слоя сети. Также можно скомбинировать сверточную нейросеть с другими технологиями [[Глубинное обучение|глубинного обучения]]. Например, сделать свёрточный авто-ассоциатор<ref>Jain, V. and Seung, S. H. (2008). Natural image denoising with convolutional networks. In NIPS’2008.</ref>, свёрточную версию каскадных ограниченных [[Машина Больцмана|машин Больцмана]], обучающихся за счёт вероятностного математического аппарата<ref>Lee, H., Grosse, R., Ranganath, R., and Ng, A. Y. (2009a). Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations. In ICML’2009.</ref>, свёрточную версию разреженного кодирования, названную «развертывающими» сетями<ref>Zeiler, M., Krishnan, D., Taylor, G., and Fergus, R. (2010). Deconvolutional networks. In CVPR’2010.</ref>.

Для улучшения работы сети, повышения её устойчивости и предотвращения [[переобучение|переобучения]] применяется также [[Исключение (нейронные сети)|исключение]] — метод обучения подсети с выбрасыванием случайных одиночных нейронов.

== Преимущества ==
* Один из лучших алгоритмов по распознаванию и классификации изображений.
* По сравнению с полносвязной нейронной сетью (типа перцептрона) — гораздо меньшее количество настраиваемых весов, так как одно ядро весов используется целиком для всего изображения, вместо того, чтобы делать для каждого пикселя входного изображения свои персональные весовые коэффициенты. Это подталкивает нейросеть при обучении к обобщению демонстрируемой информации, а не попиксельному запоминанию каждой показанной картинки в мириадах весовых коэффициентов, как это делает перцептрон.
* Удобное распараллеливание вычислений, а следовательно, возможность реализации алгоритмов работы и обучения сети на [[Графический процессор|графических процессорах]].
* Относительная устойчивость к повороту и сдвигу распознаваемого изображения.
* Обучение при помощи классического [[метод обратного распространения ошибки|метода обратного распространения ошибки]].

== Недостатки ==
* Слишком много варьируемых параметров сети; непонятно, для какой задачи и вычислительной мощности какие нужны настройки. Так, к варьируемым параметрам можно отнести: количество слоёв, размерность ядра свёртки для каждого из слоёв, количество ядер для каждого из слоёв, шаг сдвига ядра при обработке слоя, необходимость слоёв субдискретизации, степень уменьшения ими размерности, функция по уменьшению размерности (выбор максимума, среднего и т. п.), передаточная функция нейронов, наличие и параметры выходной полносвязной нейросети на выходе свёрточной. Все эти параметры существенно влияют на результат, но выбираются исследователями эмпирически. Существует несколько выверенных и прекрасно работающих конфигураций сетей, но не хватает рекомендаций, по которым нужно строить сеть для новой задачи.

== Примечания ==
{{примечания|2}}

== Ссылки ==
{{Википедия|Свёрточная нейронная сеть}}
* [http://yann.lecun.com/ Личный сайт Яна Лекуна]
* [http://www.matthewzeiler.com/ Личный сайт Мэтью Зейлера (M. D. Zeiler)]
* {{cite web | url = https://postnauka.ru/video/66872 | date = 2016-08-12| publisher = [[ПостНаука]] | title = Сверточные нейронные сети | author = Виктор Лемпицкий }}

{{Типы искусственных нейронных сетей}}
{{Машинное обучение}}

[[Категория:Искусственные нейронные сети]]
[[Категория:Машинное обучение]]

← Предыдущая версия		Версия от 07:37, 26 января 2026
Строка 69:		Строка 69:
	{{Машинное обучение}}		{{Машинное обучение}}

	[[Категория:~~Искусственные нейронные~~ сети]]		[[Категория:Нейронные сети]]
	[[Категория:Машинное обучение]]		[[Категория:Машинное обучение]]

Свёрточная нейронная сеть - История изменений

Dzmuh: /* Ссылки */