深度学习 – 卷积神经网络介绍

卷积神经网络(CNN)旨在解决图像识别问题,卷积神经网络在图像识别、推荐系统以及自然语言处理等方面有着广泛的应用。

计算机中的图像格式

这张杭州天际线的图片,可以看到很多建筑和颜色。那么计算机是如何处理这幅图像的呢?

图像由像素组成,像素表示图像中的一个颜色点。例如,一个40×30的图像,表示宽40个像素,高30个像素,总共有1200个像素。

根据色彩学原理,任何颜色都可由红、绿、蓝三种颜色混合组成,一个像素点被分成红、绿、蓝三种颜色分量,由这三个分量组合来表示任意颜色。

图

对于黑白图像,只有一个分量,表示灰度。

什么是卷积神经网络?

卷积神经网络和神经网络一样,是由具有可学习权值和偏差的神经元组成的。每个神经元接收几个输入,对它们进行加权求和,然后通过一个激活函数进行传递,经过多层神经元,最终输出结果。

整个卷积神经网络有一个损失函数(代价函数/目标函数),我们为神经网络开发的所有技巧仍然适用于卷积神经网络。

如前所述,图像实际上是由像素组成的二维矩阵,卷积神经网络所做的工作就是使用卷积、池化等操作从二维数组中提取特征,然后对图像进行识别。

卷积神经网络的历史

1962年Hubel和Wiesel通过对猫视觉皮层细胞的研究,提出了感受野(receptive field)的概念,1984年日本学者Fukushima基于感受野概念提出的神经认知机(neocognitron)可以看作是卷积神经网络的第一个实现网络,也是感受野概念在人工神经网络领域的首次应用。神经认知机将一个视觉模式分解成许多子模式(特征),然后进入分层递阶式相连的特征平面进行处理,它试图将视觉系统模型化,使其能够在即使物体有位移或轻微变形的时候,也能完成识别。

图

通常神经认知机包含两类神经元,即承担特征抽取的S-元和抗变形的C-元。S-元中涉及两个重要参数,即感受野与阈值参数,前者确定输入连接的数目,后者则控制对特征子模式的反应程度。许多学者一直致力于提高神经认知机的性能的研究:在传统的神经认知机中,每个S-元的感光区中由C-元带来的视觉模糊量呈正态分布。如果感光区的边缘所产生的模糊效果要比中央来得大,S-元将会接受这种非正态模糊所导致的更大的变形容忍性。我们希望得到的是,训练模式与变形刺激模式在感受野的边缘与其中心所产生的效果之间的差异变得越来越大。为了有效地形成这种非正态模糊,Fukushima提出了带双C-元层的改进型神经认知机。

Van Ooyen和Niehuis为提高神经认知机的区别能力引入了一个新的参数。事实上,该参数作为一种抑制信号,抑制了神经元对重复激励特征的激励。多数神经网络在权值中记忆训练信息。根据Hebb学习规则,某种特征训练的次数越多,在以后的识别过程中就越容易被检测。也有学者将进化计算理论与神经认知机结合,通过减弱对重复性激励特征的训练学习,而使得网络注意那些不同的特征以助于提高区分能力。上述都是神经认知机的发展过程,而卷积神经网络可看作是神经认知机的推广形式,神经认知机是卷积神经网络的一种特例。

为什么要使用卷积呢?

图像数据对于传统的全连接神经网络过于巨大。假如有一幅1000*1000的图像,如果把整幅图像作为向量,则向量的长度为1000000(10^6)。如果隐含层神经元的个数和输入一样,也是1000000;那么,输入层到隐含层的参数数据量有10^12,数量过于巨大,无法处理。

卷积神经网络使用卷积提取图像特征,压缩数据量,然后进行图像识别处理。

卷积神经网络结构

卷积神经网络层次结构如下

卷积神经网络

主要有4层:

  • 卷积
  • 激活函数ReLu
  • 池化
  • 全连接层


浙ICP备17015664号 浙公网安备 33011002012336号 联系我们 网站地图  
@2019 qikegu.com 版权所有,禁止转载