《神经网络与深度学习》第8章

8.4 人脑中的记忆

​ 这个部分主要讲了生物神经网络中人脑记忆的特性。其中人脑记忆的一个特点就是记忆一般分为长期记忆和短期记忆。长期记忆体现为神经元之间的连接形态,更新速度比较慢,因此长期记忆可以类比于人工神经网络中的权重参数;短期记忆体现为神经元的活动,更新较快,可以类比于人工神经网络中的隐状态。

阅读更多

《神经网络与深度学习》第7章

高维变量的非凸优化

​ 之前我们遇到的问题都是使用梯度下降法会陷入局部最优点无法逃离,事实上这只是在低维空间中,现在的多数机器学习任务都是在高维空间中的,并且遇到的大多数都是鞍点,因此,非凸优化的难点并不在于如何逃离局部最优点,而是如何逃离鞍点,如图所示:

阅读更多

《神经网络与深度学习》第4-5章

如何理解反向传播?

​ 首先介绍一下什么是梯度下降法。以神经网络为例,给定一组神经网络参数,即
$$
\theta={w_1,w_2,…,b_1,b_2,…}
$$

$$
\nabla L(\theta)=\left[\begin{matrix}
\frac{\partial L(\theta)}{\partial w_1} \
\frac{\partial L(\theta)}{\partial w_2} \
\vdots \
\frac{\partial L(\theta)}{\partial b_1} \
\frac{\partial L(\theta)}{\partial b_2} \
\vdots
\end{matrix}\right]
$$
通过计算$\nabla L(\theta^0)$,得到$\theta^1=\theta^0-\eta\nabla L(\theta^0)$,通过计算$\nabla L(\theta^1)$,得到$\theta^2=\theta^1-\eta\nabla L(\theta^1)$,不断反复,最后找到最佳参数。与线性回归,逻辑回归不同的是,神经网络中往往参数量是百万级别的,如何有效率地计算梯度,这便是反向传播的作用。

阅读更多

《神经网络与深度学习》第2-3章

为什么平方损失函数不适用于分类问题?

​ 在Softmax激活函数的作用下,使用平方损失函数,随着实际值与预测值的绝对误差的不断增大,梯度反而会不断减小,这就使得调整参数的速度减慢,不利于快速收敛。

阅读更多
Your browser is out-of-date!

Update your browser to view this website correctly.&npsb;Update my browser now

×