8.4 人脑中的记忆
这个部分主要讲了生物神经网络中人脑记忆的特性。其中人脑记忆的一个特点就是记忆一般分为长期记忆和短期记忆。长期记忆体现为神经元之间的连接形态,更新速度比较慢,因此长期记忆可以类比于人工神经网络中的权重参数;短期记忆体现为神经元的活动,更新较快,可以类比于人工神经网络中的隐状态。
这个部分主要讲了生物神经网络中人脑记忆的特性。其中人脑记忆的一个特点就是记忆一般分为长期记忆和短期记忆。长期记忆体现为神经元之间的连接形态,更新速度比较慢,因此长期记忆可以类比于人工神经网络中的权重参数;短期记忆体现为神经元的活动,更新较快,可以类比于人工神经网络中的隐状态。
之前我们遇到的问题都是使用梯度下降法会陷入局部最优点无法逃离,事实上这只是在低维空间中,现在的多数机器学习任务都是在高维空间中的,并且遇到的大多数都是鞍点,因此,非凸优化的难点并不在于如何逃离局部最优点,而是如何逃离鞍点,如图所示:
首先介绍一下什么是梯度下降法。以神经网络为例,给定一组神经网络参数,即
$$
\theta={w_1,w_2,…,b_1,b_2,…}
$$
记
$$
\nabla L(\theta)=\left[\begin{matrix}
\frac{\partial L(\theta)}{\partial w_1} \
\frac{\partial L(\theta)}{\partial w_2} \
\vdots \
\frac{\partial L(\theta)}{\partial b_1} \
\frac{\partial L(\theta)}{\partial b_2} \
\vdots
\end{matrix}\right]
$$
通过计算$\nabla L(\theta^0)$,得到$\theta^1=\theta^0-\eta\nabla L(\theta^0)$,通过计算$\nabla L(\theta^1)$,得到$\theta^2=\theta^1-\eta\nabla L(\theta^1)$,不断反复,最后找到最佳参数。与线性回归,逻辑回归不同的是,神经网络中往往参数量是百万级别的,如何有效率地计算梯度,这便是反向传播的作用。
Update your browser to view this website correctly.&npsb;Update my browser now