对大家有帮助的问答会被标记为“推荐”,看完课程过来浏览一下别人提的问题,会帮你学得更全面
老师我想问下p网络的输出是(1,1,32),为什么O网络的输入是(24,24,3)呢?
老师您好,在MTCNN训练时,正负例及part样本是来自一个数据集WIDER FACE,也就是这个数据集每一张图片都有这三种标注,而Landmark faces来自另一个数据集CelebA,我有个疑问,在训练时对于一条样本,不应是在一张图片上有正负例、part以及Landmark faces这4种标注吗,如何按照论文里是从两个数据集里获取样本,它是怎么对应到一起的呢?比如训练到WIDER FACE里的一张图片时只有正负例及part标注,那么这张图片的Landmark faces从哪来呢。
老师请教一下,p-net和r-net训练的内容一样吗?怎么感觉这两个阶段是相同的啊?
还是p-net阶段负责收集各类样本,主要训练类别
r-net阶段使用第一阶段收集的样本,主要训练人脸框的坐标
老师,这里的proposal-net, refine-net,output-net,不是串联的么,而且loss是以加权加和的方式计算的。inception-net里面loss是分开的,互不影响,可以分开训练
这里的网络,训练的时候,三个阶段能分开单独训练吗?
如果能,每个阶段的loss怎么算,权重怎么取?
单独训练完,最终的结果还需要联合起来再训练几次吗?