新笔趣阁 - 都市娱乐 - 离语 - 第348章 往前

第348章 往前[第1页/共3页]

数据缺失的启事数据汇集过程能够会形成数据缺失;数据通过收集等渠道停止传输时也能够呈现数据丧失或出错,从而形成 数据缺失;在数据整合过程中也能够引入缺失值删除法删除法通过删除包含缺失值的数据,来获得一个完整的数据子集. 数据的 删除既能够从样本的角度停止,也能够从特性的角度停止。 删除特性:当某个特性缺失值较多,且该特性对数据阐发的目标影响 不大时, 能够将该特性删除 删除样本:删除存在数据缺失的样本。 该体例合适某些样本有多个特性存在缺失值,且存在缺失值的样本占 全部数据集样本数量的比例不高的景象 缺点:它以减少数据来调换信息的完整,丧失了大量埋没在这些被删除数据 中的信息;在一些实际场景下数据的汇集本钱高且缺失值没法制止,删除法可 能会形成大量的资本华侈均值弥补计算该特性中非缺失值的均匀值(数值型特性)或众数(非数值型特 征),然后利用均匀值或众数来代替缺失值缺点一:均值弥补法会使得数据过分集合在均匀值或众数上,导致特性 的方差被低估 缺点二:因为完整忽视特性之间的相干性,均值弥补法会大大弱化特性 之间的相干性随机弥补随机弥补是在均值弥补的根本上加上随机项,通过增加缺失值的随机性 来改良缺失值漫衍过于集合的缺点。

喜好离语请大师保藏:离语小说网更新速率全网最快。

等间隔散化(Equal-Width Discretization):将数据分别为等宽间隔的区间,这类体例需求先肯定区间的个数n,再按照最小值min和最大值max计算出每个区间的间隔长度(max-min)/n,相邻两个区间的宽度都是不异的。等频次离散化(Equal-Frequency Discretization):将数据分别为不异的数量级别,每个区间包含的记录数相称。这类体例起首将数据遵循大小排序,然后将排序后的数据分红n等份,每份个数为数据总数/n,在每个区间的鸿沟处分别数据。基于聚类的离散化:将数据分红多少个簇,簇内的数据类似度高,簇间数据类似度低。详细实现时能够利用聚类算法如k-means、DBSCAN等。自适应离散化:通过迭代的体例,不竭按照数据的特性调剂区间的鸿沟,以达到最优的离散化结果。上面别离以等间隔散化、等频次离散化、基于聚类的离散化和自适应离散化为例子,别离列出详细的例题:等间隔散化假定我们有一个包含1000个门生身高数据的数据集,我们想将身高离散化成10个等宽的区间,以下是离散化体例:计算身高的最小值和最大值,假定最小值为140cm,最大值为200cm。计算每个区间的宽度,假定共10个区间,每个区间的宽度为(200-140)/10 = 6cm。按照每个门生的身高,将其分入呼应的区间。等频次离散化假定我们有一个包含200家公司的财务数据的数据集,我们想将每个公司的停业支出离散化成5个等频次的区间,以下是离散化体例:将统统公司的停业支出升序排序。计算每个区间的数据数量,在本例中,因为共有200个公司,以是每个区间包含40个公司。找到每个区间的鸿沟,比如第一个区间的最小值和第二个区间的最大值,这两个值之间的统统公司的停业支出都属于第一个区间。