无题
无题
无问夕故表示学习
一、基本概念
表示:通俗理解为特征
模型效果的好坏很大程度上取决于所提取特征的质量
表示学习:可以自动从数据中学习“有用”特征并直接应用于后续具体任务的方法
表示学习的价值:从数据中得到有判别性的特征,减少机器学习算法对特征工程的依赖
3个问题:
如何判断一个表示比另一个表示更好?
一个好的表示首先要尽可能地包含更多数据的本质信息,并且这个标识能直接服务于后续的具体任务
一个好的表示需要尽可能地描述一些高层次地抽象特征,以便后续的模型可以高效地利用这个特征,减小后续模型的压力
一个好的表示应该尽可能地减小语义鸿沟,提供一些高层次的有价值的特征
低层级特征(编码、分辨率、颜色、纹理)|| 语义鸿沟 || 高层级特征(关键词、类别、概念、本体)
如何去挖掘这些表示?
离散表示:one-hot独热编码
分布式表示:稠密向量
使用什么样的目标去得到一个好的表示?
端到端学习
二、基本方法
1. 基于重构损失的方法——自编码器
1.1 自编码器
1.2 正则自编码器
去噪自编码器
稀疏自编码器
1.3 变分自编码器
2. 基于对比损失的方法——Word2vec
评论
匿名评论隐私政策