对大家有帮助的问答会被标记为“推荐”,看完课程过来浏览一下别人提的问题,会帮你学得更全面
老师 损失函数不是 XW - y_hat 吗,为啥加了正则项的这几个都是 (XW - y) 的平方啊
老师,三种梯度下降都是每一轮都需要用到全量数据,
那300首诗,分成6个批次,每批1周,一轮就是6周,要训练20轮,是不是需要120周啊
随机梯度下降,假设有300个数据,需要300个批次,就是一轮300个批次下来,有可能有的数据没选到是吗~
还有小批量梯度下降,文档上说,batch_size大需要的轮次就少,“轮次”是不是应该改成“批次”啊
老师 Wt+1 = Wt - θ*g 这个公式,
Wt+1 - Wt 这一段为啥等于 θ*斜率啊,这个步长是yt+1 - yt的直线距离吗?
老师这个地方的九九乘法表里边视频代码是
for j in range(1,10): for i in range(1,j+1): print("%d*%d=%d"%(j,i,j*i),end="\t") i += 1 print() j += 1
我认为i和j不用自增运算了吧,我的代码是
for i in range(1,10): for j in range(1,i+1): print("%d*%d=%d"%(j, i, i*j),end = "\t") print()
泰勒展开就是把每一个x对应的导数(点)连接起来,把图像展开成函数的方式,再加上常数项代表轴上的位移。老师,我这么理解对吗?
老师,我只能直观理解f(x) = x^2在x<0和x>0时候是否递增递减,但怎么从导函数2x看到这个结论呢?尤其是那种多项式的函数,能否说明一下这点。另外,了解函数的递增递减的实际意义在哪里?是否重要呢?
老师,在数学或者物理意义上,对导数的再次求导有什么意义?为什么这么做?
老师,在真是场景上我们需要知道怎么求导,还是理解一下就好了?貌似大部分都直接用套用Sigmoid的吧?!
老師,蓝色部分为什么还需要对2x部分独立再求导?不是说e^x的导函数是e^x本身吗?如果2x代进去x不是e^2x就可以了吗?还是说底数的链式法则有什么不一样?