Как нейронные сети видят мир?

Нейронные сети повсюду и оказались чрезвычайно успешными. Вы когда-нибудь задумывались над тем, как компьютер учится видеть мир так же хорошо, как человек? Как они могут распознать ваше лицо в процессе аутентификации смарт-устройств и, кроме того, вашу сетчатку? Для этого умные устройства используют глубокое обучение и компьютерное зрение, заинтересовались? Пристегнитесь и вперед!

Как изображение воспринимается компьютером?

Давайте возьмем рукописную цифру из набора данных MNIST, когда мы передадим ее на компьютер, он действительно увидит пиксели. Например, ваше изображение будет разбито на квадраты, и каждый квадрат будет иметь связанный с ним цвет, например, если ваше изображение черно-белое, цвет представлен одним слоем значений от 0 до 255.

0 для черного пикселя
255 для белого пикселя
Значения между ними образуют шкалу серого.

Точно так же, если у вас есть цветное изображение, у вас будет три слоя вместо одного квадрата, у вас будет три квадрата для каждого пикселя, смесь трех значений будет цветом вашего пикселя.

Но как компьютер использует изображения?

Предположим теперь, что у вас есть изображение 2x2, и нам нужно упростить процесс, чтобы сгладить изображение в одномерный вектор.

Нейронные сети

А теперь мы входим в мир нейронных сетей. Предположим, у нас есть MLP (многослойный персептрон), который классифицирует изображения между кошками, собаками, черепахами и птицами. Затем мы получаем изображение черепахи 2x2 и передаем его в MLP во входном слое, вычисления выполняются в скрытых слоях, а выходной слой показывает нам вероятность каждого класса.

Посмотреть, как происходит процесс обучения на наборе изображений, можно здесь, а если вы новичок в этой области и заинтересовались, то можете начать с этого замечательного поста Кэсси Козырковой здесь. А если вам нужно практическое знакомство, вы можете сделать это здесь.

Как нейронные сети видят мир?

Как изображение воспринимается компьютером?

Но как компьютер использует изображения?

Нейронные сети

Вопросы по теме