2016 年 10 月 29 日

发挥图像识别的威力还是需要ResNet结构，最早是微软亚洲研究院提出的，这是可以达到90%以上识别率的网络结构，比如resnet cifar10，需要使用高达21个卷积层，并且每一步都要进行重新的批量正则化与归一化。谷歌2016年8月份开源了Inception-ResNet-v2，是基于TensorFlow的，识别效果更为强大，能够将阿拉斯加雪橇犬（左）和西伯利亚雪橇犬给准确分类出来，另外还有V3与V4，网络结构也变得更深，唯一值的一提的是Inception-v4没有residual连接，但是效果与V2一样。不过这都是些是些个人计算机运行起来很吃力的东西，在CNTK里这个同样有ResNet的各种实现，默认的ResNet20_CIFAR10.cntk将会进行160次迭代，这个运算量非常大也非常缓慢，不过识别精度非常高，但是不是妨尝试运行下的。在第16次迭代时可以达到准度度已经可以达到是百分之86.1%以上的正确率了，每次迭代花费时间约在25s左右，所以时间也就花费了几分钟而已，它提高识别率的速度甚至比简单的卷积网络还快。在达到28次左右时，实际上就达到了89~90%左右的识别率，真正突破90%大概是到了36次左右，即大概15分钟便可以做到90%的识别，这个完全可以接受。不过按文档说，训练到最后错误率最高也只能达到8.2%左右，而人类的估计是6%左右，这个网络结构还是不足以超过人类，而叠加到了n=18的网络，则可以达到6.2-6.5%的效果。简单测试了一下，网络的一代迭代大概153秒，要迭代160次，约要跑6.8个小时，才可以达到6.2-6.5%的效果。根据有人做过的研究来看，ResNet也不是层次越多越好。到了1202层的时候，反而效果比110层更差了。比较了一下： ResNet20_CIFAR10，numLayers =3，learningRatesPerMB = 1.0*80:0.1*40:0.01 ResNet18_CIFAR10，numLayers = 18，learningRatesPerMB = 0.1*1:1.0*80:0.1*40:0.01 除此之外并无区别了。所以分析ResNet20_CIFAR10.cntk源文件就好 # ConvNet applied on CIFAR-10 dataset, with data augmentation…

Archive 2016 年 10 月 29 日

研究CNTK（六）：ResNet

研究CNTK(五）：ConvNet_CIFAR10.cntk、ConvNet_CIFAR10_DataAug.cntk