新笔趣阁 - 都市娱乐 - 离语 - 第349章 躺

第349章 躺[第2页/共2页]

留出法(Holdout Method):根基思惟:将原始数据集分别为练习集和测试集两部分,此中练习集用于模型练习,而测试集则用于评价模型的机能。实施步调:按照比例或牢固的样本数量,随机挑选一部分数据作为练习集,残剩部分用作测试集。长处:简朴快速;合用于大范围数据集。缺点:能够因为练习集和测试集的分歧导致成果的方差较高;对于小样本数据集,留出的测试集能够不敷代表性。2交叉考证法(Cross-Validation):根基思惟:将原始数据集分别为K个大小相称的子集(折),此中K-1个子集用于练习模型,剩下的1个子集用于测试模型,这个过程轮番停止K次,最后将K次尝试的成果综合获得终究的评价成果。实施步调:将数据集随机分别为K个子集,顺次挑选每个子集作为考证集,其他子集作为练习集,练习模型并评价机能。反复这个过程K次,取K次尝试的均匀值作为模型的机能目标。长处:更充分操纵了数据;能够减小因样本分别分歧而引发的方差。缺点:增加了计算开消;在某些环境下,对于特定分别体例能够导致估计偏差。3自助采样法(Bootstrapping):根基思惟:利用自助法从原始数据集合有放回地停止有偏复制采样,获得一个与原始数据集大小相称的采样集,再操纵采样集停止模型练习和测试。实施步调:从原始数据集合有放回地抽取样本,构成一个新的采样集,然后利用采样集停止模型练习和测试。长处:合用于小样本数据集,能够供应更多信息;制止了留出法和交叉考证法中因为分别过程引入的窜改。缺点:采样集合约有36.8%的样本未被采到,这些未被采到样本也会对模型机能的评价产生影响;引入了自助抽样的随机性。拓展:挑选何种数据集分别体例应按照以下身分停止综合考虑:1数据集大小:当数据集较大时,留出法能够供应充足的练习样本和测试样本,并且计算开消相对较小。当数据集较小时,交叉考证法和自助采样法能更好地操纵数据。