Tag: 计算机视觉人

Viola-Jones的人脸检测声称有180k的function

我一直在实施Viola-Jones的人脸检测algorithm 。 该技术依赖于在图像内放置24×24像素的子帧,随后将矩形特征放置在每个可能的大小的位置。 这些function可以由两个,三个或四个矩形组成。 下面的例子被提出。 他们声称详尽的集合超过了18万(第2节): 由于探测器的基本分辨率为24×24,所以矩形特征的穷尽集合相当大,超过18万。 请注意,与哈尔基不同,矩形特征集是过度完整的。 下面的陈述没有在论文中明确说明,所以他们是我的假设: 只有2个两个矩形特征,2个三个矩形特征和1个四个矩形特征。 这背后的逻辑是,我们正在观察突出显示的矩形之间的差异 ,而不是显式的颜色或亮度或任何types的东西。 我们不能将特征typesA定义为1×1像素块; 它至less必须至less有1×2像素。 此外,typesD必须至less为2×2像素,并且此规则相应地适用于其他function。 我们不能将特征typesA定义为1×3像素块,因为中间像素不能被分割,并且从其本身减去它与1×2像素块相同; 这个特征types只在偶数宽度上定义。 此外,要素typesC的宽度必须可以被3整除,并且这个规则相应地适用于其他特征。 我们无法定义宽度和/或高度为0的要素。因此,我们将x和y迭代到24减去要素的大小。 基于这些假设,我已经计算了详尽的集合: const int frameSize = 24; const int features = 5; // All five feature types: const int feature[features][2] = {{2,1}, {1,2}, {3,1}, {1,3}, {2,2}}; int count = 0; // Each feature: for (int i = […]