Neural Network

发表于 2018-05-05 | 分类于机器学习 |

Perceptron

How powerful is a perception？（Expressiveness（and，or，not，xor））

and

or
not

represent anything：可以表达由and，or，not组合成的任意逻辑表达式

e.g. XOR

结论：

感知机是线性的
perceptron can represent anything：可以表达由and，or，not组合成的任意逻辑表达式

Learning

perceptron rule：how to set a single unit

trick：添加W(0)，并设为1，用来表示 threshold value
是否线性可分：如果线性可分，该算法最终为经过有限次迭代后停止

Non-linear separability：Gradient descent
为什么前面有1/2：求导时，便于消去
比较
唯一的区别：是否阈值化

Note：

梯度下降不直接用y’的原因是，阈值化后，函数不连续
引出可以使用safter threshold 的连续函数——sigmoid function
sigmoid

Note：这个函数不是唯一的，只是其中的一种，可以近似阈值待定问题的连续函数

Neural Network

Note：

whole thing is differentiable：
- 对于任何一个中间节点，在给定值得情况下，我们知道稍微增加或减少该节点值对输出有什么影响
- 我们可以调整所有权值，进而使输出与预期更加一致
使用别的连续函数代替sigmoid函数，该模型仍成立
Backpropagation：误差的反向传播
与perceptron不同，如果问题线性可分，最终会停下来，得到最优解；梯度下降存在很多局部最优解

advanced optimize methods

Note:

complexity
- Decision Tree：树的深度
- Regression：多项式的阶数
- Neural Network
  - #nodes
  - #layers
  - 参数的权重
    Bias
    Restriction bias：representational power——set of hypothesis we will consider

能表示任意函数：

代表着可以表达任何问题，包括训练集中包含的所有噪音
很容易发生overfiting
- 在给定节点个数和层数的情况下，hypothesis set 的大小是有限
- cross validation能帮助我们确定节点个数，层数，权重大小

Note：在固定节点个数，层数，权重大小的情况下，随着迭代次数的增加，测试集误差会增加，这反映了神经网络的模型复杂度不仅仅由这三个因素所决定（这是与其他算法不同的地方）

Preference bias：

Conclusion