Neural Network

Perceptron

How powerful is a perception?(Expressiveness(and,or,not,xor))

  1. and
  1. or

  2. not

represent anything:可以表达由and,or,not组合成的任意逻辑表达式

e.g. XOR

结论:

  1. 感知机是线性的
  2. perceptron can represent anything:可以表达由and,or,not组合成的任意逻辑表达式

Learning

  1. perceptron rule:how to set a single unit

trick:添加W(0),并设为1,用来表示 threshold value
是否线性可分:如果线性可分,该算法最终为经过有限次迭代后停止

  1. Non-linear separability:Gradient descent
    为什么前面有1/2:求导时,便于消去

  2. 比较
    唯一的区别:是否阈值化

Note:

  1. 梯度下降不直接用y’的原因是,阈值化后,函数不连续
  2. 引出可以使用safter threshold 的连续函数——sigmoid function

  3. sigmoid

Note:这个函数不是唯一的,只是其中的一种,可以近似阈值待定问题的连续函数

Neural Network

Note:

  • whole thing is differentiable:
    • 对于任何一个中间节点,在给定值得情况下,我们知道稍微增加或减少该节点值对输出有什么影响
    • 我们可以调整所有权值,进而使输出与预期更加一致
  • 使用别的连续函数代替sigmoid函数,该模型仍成立
  • Backpropagation:误差的反向传播
  • 与perceptron不同,如果问题线性可分,最终会停下来,得到最优解;梯度下降存在很多局部最优解

advanced optimize methods

Note:

  • complexity
    • Decision Tree:树的深度
    • Regression:多项式的阶数
    • Neural Network
      • #nodes
      • #layers
      • 参数的权重

        Bias

        Restriction bias:representational power——set of hypothesis we will consider

能表示任意函数:

  • 代表着可以表达任何问题,包括训练集中包含的所有噪音
  • 很容易发生overfiting
    • 在给定节点个数和层数的情况下,hypothesis set 的大小是有限
    • cross validation能帮助我们确定节点个数,层数,权重大小

Note:在固定节点个数,层数,权重大小的情况下,随着迭代次数的增加,测试集误差会增加,这反映了神经网络的模型复杂度不仅仅由这三个因素所决定(这是与其他算法不同的地方)

Preference bias:

Conclusion