本篇文章2267字,读完约6分钟

towardsdatascience机器的心编译作者: andre ye :小船,张倩one-hot encoding是被广泛采用的编码方法,但也有维度度过等问题。 因此,medium博主说,在编码分类变量方面可能有更好的选择。 one-hot代码( one-hot encoding )类似于虚拟变量( dummy variables ),是一种将分类变量转化为几个二进制列的方法。 其中,1表示某个输入属于该类别。 从机器学习的角度来看,one-hot编码不是良好的分类变量编码方式。 众所周知,维数越少越好,但one-hot代码增加了很多维度。 例如,如果用一个序列表示美国各州,one-hot代码将产生50多个维。 one-hot代码不仅在数据集上添加了很多维,实际上没有多少消息,通常1分散在很多零中。 也就是说,高效的信息散布在大量的数据中。 这导致结果异常稀疏,特别是对神经网络来说很难优化。 更糟糕的是,各新闻稀疏列之间有线性关系。 这意味着一个变量用其他变量很容易预测,高维度会产生并行性和多重共线性的问题。 最佳数据集由新闻具有独立价值的特征组成,但one-hot代码创建完全不同的环境。 当然,如果只有三四个类,one-hot代码可能不是不好的选择。 但是,随着班级的增加,可能还有其他更合适的方案。 作者列举了一些方案供网民参考。 目标编码目标编码( target encoding )是表示分类串的非常有效的方法,同时只占用一个特征空间,也称为平均编码。 此列中的每个值都将被该类别的平均目标值替换。 这可以更直接地表现分类变量和目标变量之间的关系,同时也是特别在kaggle比赛中受欢迎的技术方法。 但是,这种编码方法也有一点缺点。 首先,模型难以学习平均编码变量和其他变量之间的关系,只根据列和目标之间的关系在列上绘制相似性。 最重要的是,这种编码方法对y变量非常敏感,影响了模型提取编码新闻的能力。 由于该类中的所有值都将被替换为相同的数字,因此该模型可能会拟合您见过的编码值(例如,将0.8与完全不同的值关联,而不是0.79 )。 这是将连续比例上的值视为重大重复类的结果。 因此,为了不出现异常值,需要仔细监视y变量。 为了达到这个目的,需要采用category_encoders库。 目标编码器有监视方法,所以需要x和y的训练集。 from category _ encodersimporttargetencoderenc = target encoder ( cols = [ ' name _ of _ col ',' another) y_train )保留法编码保留法( leave-one ) 这将使异常值的影响变得平静,并创建越来越多样化的代码值。 因为模型不仅面对每个编码类的相同值,还面对范围的值,所以可以更好地泛化。 为了实现,可以采用category_encoders库的leaveoneoutencoder。 from category _ encodersimportleaveoneoutencoderenc = leaveoneoutencoder ( cols = [ ' name _ of _ col ',' another _ name ' ] ) training _ set 贝叶斯目标代码贝叶斯目标代码( bayesian target encoding )是采用目标作为编码方式的数学方法。 仅采用平均值可能是欺诈性度量,因为此贝叶斯目标代码试图组合目标变量分布的其他统计度量。 例如其方差或偏差(称为高阶矩“higher moments”) 然后,通过贝叶斯模型综合这些分布的属性,生成更明确等级目标分布全方位的代码,但结果的说明可能性很低。 证据权重证据权重( weight of evidence,简称woe )是关于分类参数与因素变量关系的另一种方案。 woe来自信用评估行业,用于区分客户是违约还是还款。 证据权重的数学定义是特征比的自然对数,ln (% of non events / % of events)woe越高,发生事情的可能性越高。 “非事件”是不属于某个类的百分比。 用证据权重与原因变量建立单调的关系,在逻辑尺度上确保等级对逻辑回归是自然的。 woe是另一个指标“信息值”的重要组成部分。 该指标用于衡量特征如何为预测提供新闻。 from category _ encodersimportwoeencoderenc = woe encoder ( cols = [ ' name _ of _ col ',' another_noder ' ) 但是,当需要执行无监视分解时,这些方法不一定适用。 非线性pca非线性pca(nonlinear pca )是使用分类量化解决分类变量的主成分分解( pca )方法 找到最适合类的值,以最大化正常pca的性能(可以描述方差)。 原文链接:根据towardsdatascience/stop-one-hot-encoding-your-categorical-variables-BBB 0f BA 89809任务的诉求,发布了组合适当类型的方法aws 介绍了关键值、文件、内存中、关系图、时间序列、台帐、行业宽度8种数据库类型,逐一分析了各种类型的特征、课题、主要采用实例。 原标题:“one-hot encoding不是万能的。 这些分类变量的编码方法值得你拥有”原文

来源:印度时报中文版

标题:热门:one

地址:http://www.yqjqqwc.cn/ydxw/24615.html