模式识别

贝叶斯公式:

$$ P(\omega_i | x)=\dfrac{P(\omega_i,x)}{P(x)}=\dfrac{P(x|\omega_i)P(\omega_i)}{P(x)} $$

先验概率:$ P(\omega_i) $;后验概率:$ P(\omega_i | x)$

总体密度:$P(x)$;联合概率密度:$ P(\omega_i,x) $;类条件概率密度:$ P(x|\omega_i)$

$$ P(e)=\int P(e|x)p(x)dx $$

最小错误率决策:$minP(e)=min\int P(e|x)p(x)dx$

风险$ R(a_i|x) = \sum_{j=1}^{c} \lambda(a_i,\omega_j)P(\omega_i|x) $

最小风险:$ minR(\alpha) = min \int R(\alpha(x)|x)p(x)$

$p(x|\omega_i) = \dfrac{1}{(2\pi)^{d/2}|\sum_i|^{1/2}}exp{-\frac{1}{2}(x-\mu_i)^{T}\sum_i^{T}(x-\mu_i)}$

判别函数$g_i(x)=ln[p(x|\omega_i)P(\omega_i)]=$

$$ -\frac{d}{2}ln2\pi - \frac{1}{2}ln|\sum_i|-\frac{1}{2}(x-\mu_i)^T\sum_i^{-1}(x-\mu_i)+ln[P(\omega_i)] $$

决策面方程:$g_i(x)=g_j(x)$

$$ -\frac{1}{2}[(x-\mu_i)^T\sum_i^{-1}(x-\mu_i)-(x-\mu_j)^T\sum_j^{-1}(x-\mu_j)]-\frac{1}{2}ln\dfrac{|\sum_i|}{|\sum_j|}+ ln\dfrac{P(\omega_i)}{P(\omega_j)}=0 $$

当$p(\omega_i)=p(\omega_j)$时,判别函数:

$g_i(x)=-\dfrac{(x-\mu_i)^T(x-\mu_i)}{2\sigma^2}$

即计算欧氏距离的平方并根据其最小值归类

每类样本满足独立同分布,类条件概率存在某种具体确定的函数形式,只是参数未知,根据样本求出该参数

$$ l(\theta)=p(\chi|\theta)=\prod_{i=1}^{N}p(x_i|\theta) $$

$$ H(\theta)=lnl(\theta)=lnp(X/\theta)=\sum_{i=1}^{N}lnp(x_i/\theta) $$

$$ \sum_{i=1}^N \frac{\partial}{\partial \theta_1} \ln p(x_i \mid \theta) $$

$$ \vdots \nonumber $$

$$ \sum_{i=1}^N \frac{\partial}{\partial \theta_s} \ln p(x_i \mid \theta) $$

把样本x的每个分量分为多个等间隔小窗,将样本数目作为概率

确定Kn个数,调整窗口大小直到包含Kn个样本,以每一点为中心进行估计

对已知的密度函数,在观测点上进行平均化,得到光滑估计曲线

线性判别函数的一般表达式:$g(x)=\bold{w}^T \bold{x}+w_0$

$\bold{x}$:样本向量;$\bold{w}$:权向量;w:阈值权

对于二分问题,决策规则$g(x) = g_1(x)-g_2(x)$

判别函数可以看成是特征空间中某点到决策超平面距离的一种代数度量

原理:将所有样本都投影到一个方向,在一维空间中确定分类阈值2

寻找投影方向$\bold{w}$,使得投影后的样本为$y_i=\bold{w}^T x_i$

投影前:

  • 类内离散度矩阵:

$$ S_i=\sum(x_j-m_j)(x_j-m_j)^T $$

  • 类均值向量:

$$ m_i=\frac{1}{N_i}\sum x_j $$

  • 类内总离散度矩阵:

$$ S_w=S_1+S_2 $$

  • 类间离散度矩阵:

$$ S_b = (m_1-m_2)(m_1-m_2)^T $$

投影后:

  • 类内离散度:

$$ \tilde{S_i^2}=\sum(y_i-\tilde{m_i})^2 $$

  • 类均值向量:

$$ \tilde{m_i}=\frac{1}{N_i}\sum y_j = w^Tm_i $$

  • 类内总离散度:

$$ \tilde{S_w}=\tilde{S_1^2}+\tilde{S_2^2} $$

  • 类间离散度:

$$ \tilde{S_b}=(\tilde{m_1}-\tilde{m_2})^2 $$

Fisher准则函数即为:$ maxJ_{F(\omega)} = \dfrac{\tilde{S_b}}{\tilde{S_w}}= \dfrac{(\tilde{m_1}-\tilde{m_2})^2}{\tilde{S_1^2}+\tilde{S_2^2}}$

使得投影后两类尽可能分开,类内尽可能聚集,即类内总离散度小,类间离散度大

齐次化简:$g(y)=\alpha^T y$,存在$\alpha$使得所有样本被正确分类,则根据g(y)大于小于0判断类别

令增广样本矩阵

$$ y_i^{’}=y_i,y_i \in \omega_1 \ -y_i,y_i \in \omega_2 $$

则解向量$\alpha$满足$\alpha^T y_i > 0$

感知器准则函数$J_p(\alpha)= min\sum_{\alpha^T y_k \leq 0} (-\alpha^T y_k) = 0$

对待分类样本,把他分到距离最近的子类所属的类

$$ g_k(x)=min||x-m_i^l|| $$

$$ max_\alpha: W(\alpha) = \sum_{i=1}^n\alpha_i - \frac{1}{2}\sum_{i,j=1}^ny^{(i)}y^{(j)}\alpha_i\alpha_jK(x^{(i),x^{(j)}}) $$

BP神经网络

定义$\bold{x}$为原变量指标,$\bold{y}$为变换后的向量

$$ \bold{Y=XP} $$

$\bold{P}$为负载矩阵,使得方差最大化

对原始数据$\bold{X_0}$进行标准化:$\bold{X=(X_0-1\mu^T)\sum^{-1}}$

PCA优化目标可表示为:

$$ max\ tr[\bold{P^T X^T X P}/(n-1)],s.t.\ \bold{P^T P = I} $$

采用拉格朗日乘子法,转化为特征值分解问题:

$$ (\bold{X^T X}/(n-1)\bold{p_i})=\lambda_i\bold{p_i} $$

根据累计方差贡献率确定k个主成分:

$$ \sum_{i=1}^k\lambda_i/\sum_{i=1}^m\lambda_i > threshold $$

降维:

$$ Y=XP $$

$\bold{P}$为前k个特征向量组成的矩阵

以距离新样本最近已知样本作为新样本的类别

欧氏距离:$||x_i-x_j||$

找出x的k个近邻,看其中多数属于哪一类,则把x分到哪一类

  • 对新样本,节点p,若

$$ D(x,M_p)>B+r_p $$

则p不可能是x的最近邻

$$ D(x,M_p)>B+D(x_i,M_p) $$

则p不可能是x的最近邻

两类分布重合区的样本可能会误导决策,应当去掉

将样本分为储存集$X_S$与备选集$X_G$,若$X_G$中的样本x能用$X_S$中的样本进行正确分类,则留在$X_G$中,反之移入$X_S$

常用可分性判据:

$$ J_1=tr(S_w+S_b) \ J_2 = tr(S_w^1S_b) \ J_3 = ln\frac{|S_b|}{|S_w|} \ J_4 = \frac{trS_b}{trS_w} \ J_5 = \frac{|S_b-S_w|}{|S_w|} $$

常用的概率距离度量:

$$ J_B = - ln\int[p(x|\omega_1)p(x|\omega_2)]^{1/2}dx \ J_C = - ln\int[p^s(x|\omega_1)p^{1-s}(x|\omega_2)]dx \ J_D = - ln\int[p(x|\omega_1)-p(x|\omega_2)]ln\dfrac{p(x|\omega_1)}{p(x|\omega_2)}dx $$

  • 穷举算法
  • 分支界定算法
  • 主成分分析
  • 估计投影后的概率密度函数$P(v_j)$
  • 求极小点,做垂直与投影方向的超平面作为分类超平面
  • 若没有极小点,继续用下一个本征值对应的本征向量做投影方向

C均值算法:

$$ J_e = \sum_{i=1}^c\sum_{y\in\Gamma_i}||y-m_i||^2=\sum_{i=1}^cJ_i $$

模糊C均值算法:

$$ min\ J_e =min\ \sum_{i=1}^c\sum_{y\in\Gamma_i}||y-m_i||^2=\sum_{i=1}^cJ_i $$

从各类只有一个样本点开始,逐级合并,每级只合并两类,直到最后所有样本归到一个类,聚类过程中逐级考察类间相似度,依此决定类别数

Related Content