向量空间模型表示文本的基本思想（空间中向量的模）

作者：admin 时间：2023-08-12 16:40:19 阅读数：22人阅读

本文目录一览：

1、word2vec是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算，计算出向量空间上的相似度，来表示文本语义上的相似度。

2、word2vec glove fasttext word2vec改进→doc2vec：word2vec丢失了文本的语序信息，而文本的语序包含了重要信息。

3、引入word2vec在大规模语料集上进行训练，获得具有更好语义信息的词向量表示，替代基于Tfidf等传统的统计特征。随后在TextCnn、TextRnn等深度学习算法进行更新迭代，尽管得到数字指标的提高，但是对于实际业务的帮助还是不足。

向量空间模型表示文本的基本思想（空间中向量的模）

FastText 是Facebook AI Research在16年开源的一种文本分类器。其特点就是 fast 。相对于其它文本分类模型，如 SVM ， Logistic Regression 等模型，fastText能够在保持分类效果的同时，大大缩短了训练时间。

文本分类方向：主要有二分类，多分类，多标签分类文本分类方法：传统机器学习方法(贝叶斯，svm等)，深度学习方法(fastText，TextCNN等) 本文的思路：本文主要介绍文本分类的处理过程，主要哪些方法。

最后，贴一个Keras的模型fasttext简化版。基于词向量表示，本文提出利用卷积神经网络来进行文本分类。

1) FastText FastText是Facebook开源的词向量与文本分类工具，模型简单，训练速度快。FastText 的原理是将短文本中的所有词向量进行平均，然后直接接softmax层，同时加入一些n-gram 特征的 trick 来捕获局部序列信息。

首先，要明确它在说的fasttext是什么？我们学的fasttext工具有两个作用，也就是两个主要接口，文本分类和训练词向量，而我们学习的word2vec是什么，是如何进行词向量训练的理论。

个人觉得文本分类最好用的蛇精网络算法是fasttetxt，模型简单效率，准确率也不错，是众屌丝的理想选择。模型可以快速训练和上线应用，分分钟报告领导任务已经完成，请做下一步指示。

一般会根据ifidf值或者词频之类的做一些简单的过滤，也有一些专门选取特征的方法，诸如信息增益，互信息，卡方统计等，有文章专门介绍。文本向量化，tfidf这是90%以上的文章和相关机器学习库demo，论文里会提到的方法。

首先，如果不局限于NN的方法，可以用BOW+tf-idf+LSI/LDA的体系搞定，也就是俗称的01或one hot representation。其次，如果楼主指定了必须用流行的NN，俗称word-embedding的方法，当然首推word2vec（虽然不算是DNN）。

工具/原料python；CMD命令行；windows操作系统方法/步骤首先下载安装python，建议安装7版本以上，0版本以下，由于0版本以上不向下兼容，体验较差。

当前阶段，对文本向量化的大部分研究都是通过词向量化来实现的。与此同时，也有相当一部分研究者将文章或者句子作为文本基本处理单元，提出了doc2vec和ste2vec技术。

文本向量化有很多方法，切词、ngram是最常用方法。一般的，分词加预处理能更好的表达语义，我们通过预处理，过滤掉无效字符及停用词。