word2vec
One-Hot 编码
又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。
one-hot编码就是保证每个样本中的单个特征只有1位处于状态1,其他的都是0。
考虑一下的三个特征:
[“male”, “female”]
[“from Europe”, “from US”, “from Asia”]
[“uses Firefox”, “uses Chrome”, “uses Safari”, “uses Internet Explorer”]
将它换成独热编码后,应该是:
feature1=[01,10]
feature2=[001,010,100]
feature3=[0001,0010,0100,1000]
优缺点
优点:
解决了分类器不好处理离散数据的问题
一定程度上也起到了扩充特征的作用
缺点:
它是一个词袋模型,不考虑词与词之间的顺序(文本中词的顺序信息也是很重要的)
假设词与词相互独立(在大多数情况下,词与词是相互影响的)
得到的特征是离散稀疏的
向量会过于稀疏,并且会造成维度灾难。
Dristributed representation可以解决One hot representation的问题,它的思路是通过训练,将每个词都映射到一个较短的词向量上来。所有的这些词向量就构成了向量空间,进而可以用普通的统计学的方法来研究词与词之间的关系。
从一个可能非常稀疏的向量坐在的空间,映射到现在这个四维向量所在的空间,必须满足以下性质:
(1)这个映射是单设(不懂的概念自行搜索);
(2)映射之后的向量不会丢失之前的那种向量所含的信息。
这个过程称为word embedding(词嵌入),即将高维词向量嵌入到一个低维空间。
word2vec
word2vec模型其实就是简单化的神经网络。
Word2vec总共有两种类型,每种类型有两个策略,总共4种。
发布时间: 2019-08-08
最后更新: 2019-11-18
本文链接: https://juoyo.github.io/posts/970805c9.html
版权声明: 本作品采用 知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议 进行许可。转载请注明出处!