十年网站开发经验 + 多家企业客户 + 靠谱的建站团队
量身定制 + 运营维护+专业推广+无忧售后,网站问题一站解决
本文小编为大家详细介绍“Extracting, transforming和selecting features的使用方法是什么”,内容详细,步骤清晰,细节处理妥当,希望这篇“Extracting, transforming和selecting features的使用方法是什么”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。
创新互联公司专注为客户提供全方位的互联网综合服务,包含不限于成都做网站、成都网站设计、隆林网络推广、小程序开发、隆林网络营销、隆林企业策划、隆林品牌公关、搜索引擎seo、人物专访、企业宣传片、企业代运营等,从售前售中售后,我们都将竭诚为您服务,您的肯定,是我们最大的嘉奖;创新互联公司为所有大学生创业者提供隆林建站搭建服务,24小时服务热线:18980820575,官方网址:www.cdcxhl.com
Table of Contents
Feature Extractors 特征提取
TF-IDF
Word2Vec
CountVectorizer
Feature Transformers 特征变换
Tokenizer 分词器
StopWordsRemover 停用字清除
nn-gram
Binarizer 二元化方法
PCA 主成成分分析
PolynomialExpansion 多项式扩展
Discrete Cosine Transform (DCT-离散余弦变换)
StringIndexer 字符串-索引变换
IndexToString 索引-字符串变换
OneHotEncoder 独热编码
VectorIndexer 向量类型索引化
Interaction
Normalizer 范数p-norm规范化
StandardScaler 标准化 基于特征矩阵的列,将属性值转换至服从正态分布
MinMaxScaler 最大-最小归一化[0,1]
MaxAbsScaler 绝对值归一化[-1,1]
Bucketizer 分箱器
ElementwiseProduct Hadamard乘积
SQLTransformer SQL变换
VectorAssembler 特征向量合并
QuantileDiscretizer 分位数离散化
Imputer
Feature Selectors 特征选择
VectorSlicer 向量选择
RFormula R模型公式
ChiSqSelector 卡方特征选择
Locality Sensitive Hashing 局部哈希敏感
Bucketed Random Projection for Euclidean Distance 欧式距离分桶随机投影
MinHash for Jaccard Distance 杰卡德距离
Feature Transformation 特征转换
Approximate Similarity Join 近似相似联接
Approximate Nearest Neighbor Search 近似最近邻搜索
LSH Operations
LSH Algorithms
词频-逆向文件频率(TF-IDF)是一种特征向量化方法,广泛用于文本挖掘中,以反映词语对语料库中文档的重要性。 用tt表示词语,用dd表示文档,用DD表示语料库。 词语频率TF(t,d)TF(t,d)
是词语tt在文档dd中出现的次数,而文档频率DF(t,D)DF(t,D)
是包含词语的文档数量 tt。 如果我们仅使用词语频率来衡量重要性,则很容易过分强调那些经常出现但几乎没有有关文档信息的词语,e.g. “a”, “the”, and “of”。 如果一个词语在整个语料库中经常出现,则表示该词语不包含有关特定文档的重要信息。 反向文档频率是一个词语提供多少信息的数字度量:
IDF(t,D)=log|D|+1DF(t,D)+1,
D
是语料库中文档的总数。由于使用了log函数,如果某个词语出现在所有文档中,则其IDF值将变为0。加1是为了避免分母为0的情况。TF-IDF 度量值表示如下:
TFIDF(t,d,D)=TF(t,d)⋅IDF(t,D).
在 MLlib ,TF-IDF被分成两部分:TF 和 IDF,这样会更灵活。
TF: HashingTF和CountVectorizer都可以用来生成词语频率向量。.
HashingTF是一个转换器,它接受词条并将这些术语集转换为固定长度的特征向量。在文本处理中,一个词袋模型。HashingTF utilizes the hashing trick.原始特征使用hash 函数映射成为索引。这里hash函数是MurmurHash 3。然后根据映射的索引计算词频。这种方法避免了需要计算一个全局 term-to-index 地图,在映射大量语料库时需要花费更长的时间。但是存在的哈希冲突,即哈希后,不同的原始特征可能会是同一个词。为了减少碰撞的机会,我们可以增加特征维度,i.e., 提高hash表的桶数。由于使用了简单的模将哈希函数转换为列索引,建议使用2的幂作为特征维,否则,要素将不会均匀地映射到列。默认的特征维度是218=262,144218=262,144。可选的binary toggle parameter控制项频率计数。设置为true时,所有非零频率计数都设置为1。这对于模拟二进制计数而非整数计数的离散概率模型特别有用。
将文本文档转换为词语计数的向量。 有关更多详细信息,请参考 CountVectorizer。.
IDF: IDF是一个Estimator,在一个数据集上应用它的fit()方法,产生一个IDFModel。 该IDFModel 接收特征向量(由HashingTF产生),然后计算每一个词在文档中出现的频次。IDF会减少那些在语料库中出现频率较高的词的权重。
Note: spark.ml
没有提供文本分割工具。 We refer users to the Stanford NLP Group and scalanlp/chalk.
读到这里,这篇“Extracting, transforming和selecting features的使用方法是什么”文章已经介绍完毕,想要掌握这篇文章的知识点还需要大家自己动手实践使用过才能领会,如果想了解更多相关内容的文章,欢迎关注创新互联行业资讯频道。