考虑下面的图片:
如上图所示,X与O的图片表示,每个图片相似但不同。
对于人类,识别出这些图片,不费吹灰之力;但对于计算机,正确识别这些图片是有难度的,因为每个图片都不同,不能通过简单的比较来识别。
如前所述,图片在计算机中以像素的方式存储,如果用“1”表示黑色,“-1”表示白色,一个图片可以表示为:
虽然不能通过简单比较整张图片来识别,但是图片的一些局部特征是一样的,可以通过这些局部特征的比较来识别图片。
如上图所示,可以看到这2个图中有3个小块是一样的。
取这些小块,试着将它们匹配到各个图中的相应位置,看看是否匹配,就能得出这两个图是否相似。这被称为patch匹配,这些小块被称为过滤器。
这就相当于如果我们要在一张照片中进行人脸定位,但是CNN不知道什么是人脸,我们告诉它:人脸上有三个特征,眼睛鼻子嘴巴是什么样,再告诉它这三个长啥样,只要CNN去搜索整张图,找到了这三个特征在的地方就定位到了人脸。