0cp-CSDN博客

原创 2021中兴捧月杯算法大赛&模面大赛总结

一、2021中兴捧月杯算法赛本次比赛我参加的是迪杰斯特拉门派，题目是人口流量预测。最终成绩：西北区域优胜奖，38/500，初赛全国前50可进入复赛，获得区域优胜，然后组织面试，根据面试结果，大概15人左右可进入全国总决赛。总体来说，中兴算法赛的难度不是很大（但想做得好冲击国奖还是很有难度），且可获得很多招聘机会，非常推荐大家参加。初赛一阶段给定训练数据集（传感器ID，日期，流量），测试数据集（传感器ID，日期(后91天)），完成流量预测任务。其实这个赛题的难度就在于数据处理方面，有的传感器可能损坏或

2021-07-11 16:31:11 3207

原创集成学习实战案例：工业蒸汽量预测

导语：本次任务的主题是“实战案例–天池学习赛工业蒸汽量预测”。天池幸福感预测学习赛为长期赛，地址：https://tianchi.aliyun.com/competition/entrance/231693/information学习链接：集成学习: EnsembleLearning项目-github.1. 基本思路数据分成训练数据（train.txt）和测试数据（test.txt），其中字段”V0”-“V37”，这38个字段是作为特征变量，”target”作为目标变量。选手利用训练数据训练出

2021-05-23 17:12:59 483

原创集成学习实战案例：幸福感预测

导语：本次任务的主题是“实战案例–天池学习赛幸福感预测”。天池幸福感预测学习赛为长期赛，地址：https://tianchi.aliyun.com/competition/entrance/231702/information学习链接：集成学习: EnsembleLearning项目-github.1. 基本思路1.1 EDA分析赛题训练集的原始数据给了139维特征，首先进行数据EDA分析，主要分析数据的缺失情况、异常情况。对于缺失值，按情况填充0、均值、众数（针对每一个具体特征的含义），若

2021-05-17 16:21:49 384

原创机器学习基础—集成学习Task13（Stacking）

导语：本次任务的主题是“Stacking集成学习算法”。竞赛圈中，它(Stacking)可以帮你打败当前学术界性能最好的算法！学习链接：集成学习: EnsembleLearning项目-github.1.Stacking原理Stacking严格来说并不是一种算法，而是精美而又复杂的，对模型集成的一种策略!在上一任务中，我们知道Blending在集成的过程中只会用到验证集的数据，即数据划分方式为hold-out作为测试集，并非cv，这样自然可能带来模型的过拟合，为获得更加稳健的模型，自然联想到交

2021-05-13 21:09:35 710 3

原创机器学习基础—集成学习Task12（Blending）

导语：本次任务的主题是“Blending集成学习算法”。学习链接：集成学习: EnsembleLearning项目-github.1.Blending原理Blending是简化版的Stacking：stacking严格来说并不是一种算法，而是精美而又复杂的，对模型集成的一种策略。Stacking集成算法可以理解为一个两层的集成，第一层含有多个基础分类器，把预测的结果(元特征)提供给第二层，而第二层的分类器通常是逻辑回归，他把一层分类器的结果当做特征做拟合输出预测结果。详情可参考博客：htt

2021-05-11 21:50:05 287

原创机器学习基础—集成学习Task11（XGB & LGB）

导语：本次任务的主题是“XGB & LGB算法的原理与实践”。学习链接：集成学习: EnsembleLearning项目-github.1.XGBoost原理1.1 基本原理XGBoost是陈天奇等人开发的一个开源机器学习项目，高效地实现了GBDT算法并进行了算法和工程上的许多改进，被广泛应用在Kaggle竞赛及其他许多机器学习竞赛中并取得了不错的成绩。XGBoost本质上还是一个GBDT，但是力争把速度和效率发挥到极致，所以叫X (Extreme) GBoosted，包括前面说过，两者

2021-04-27 00:04:31 1204

原创机器学习基础—集成学习Task10（GBDT）

导语：本次任务的主题是“GBDT算法的原理与实践”。学习链接：集成学习: EnsembleLearning项目-github.1.GBDT原理简介在介绍GBDT之前，我们先对Adaboost进行一般性推广，即前向分步算法：1.1 前向分步算法回看Adaboost的算法内容，我们需要通过计算M个基本分类器，每个分类器的错误率、样本权重以及模型权重。我们可以认为:Adaboost 每次学习单一分类器以及单一分类器的参数(权重)。接下来，我们抽象出Adaboost算法的整体框架逻辑，构建集成学习的一

2021-04-24 01:16:20 248

原创机器学习基础—集成学习Task8（Bagging）

导语：本次任务的主题是“Bagging的原理与实践”。学习链接：集成学习: EnsembleLearning项目-github.1.Bagging原理简介在上一节中，我们介绍了投票法，voting主要是从多模型预测的结果层面进行处理。若每个单模型过于同质化，则voting的效果不会有太大的改善。而事实上，在实际应用中，会遇到很多同质的的单模型，在这种情况下有什么好的办法可以进一步提升模型的效果呢？自然而然想到，每个单模型从训练集中抽取不同的样本进行训练，这样即使模型一样，但却因为训练样本之间的差

2021-04-18 00:59:50 306 2

原创机器学习基础—集成学习Task7（投票法）

导语：本次任务的主题是“投票法的原理与实践”。学习链接：集成学习: EnsembleLearning项目-github.1.投票法原理简介在生活中，处理同一个问题，不同的人可能有不同的意见，只是角度不同，没有明显的对错之分。但是为了客观的评价和产生结果，往往都会采用“少数服从多数”的投票机制。那么在机器学习中，也有类似的用法：针对同一个数据集，不同的模型由于本身的特性不同或是同一个模型由于超参数的设置不同等都会产生不同的预测结果，那么为了平衡单模型进行错误的预测（或是误差比较大的预测），我们自然地

2021-04-15 00:21:03 1617

原创机器学习基础—集成学习Task6（分类模型调参及人脸识别实战）

导语：本次内容主要是针对上一讲中的分类模型进行调参，然后基于fetch_lfw_people数据集进行人脸识别实战。学习链接：集成学习: EnsembleLearning项目-github.1.分类模型调参调参我们使用网格搜索和随机搜索。由于处理过程比较类似，这里只针对上一任务中“问题较大”的SVM模型进行调参，其他模型调参过程同理。上一任务中，针对iris数据集，SVC使用默认参数，训练结果如下：测试集得分： 0.9210526315789473训练集得分： 0.99107142857142

2021-03-30 01:33:50 466

原创机器学习基础—集成学习Task5（分类模型）

导语：本次内容主要是利用sklearn处理分类任务：介绍分类模型的评价指标、基础的分类模型，最后结合数据集进行实现。本次的基础模型介绍非常详细，也有很多推导过程，由于时间关系，这里不再赘述。想要详细学习可直接查看开源项目，学习链接：集成学习: EnsembleLearning项目-github.1.分类任务1.1 分类模型的度量指标度量分类模型的指标和回归的指标有很大的差异，首先是因为分类问题本身的因变量是离散变量，因此像定义回归的指标那样，单单衡量预测值和因变量的相似度可能行不通。其次，在分类任

2021-03-27 23:47:56 288

原创机器学习基础—集成学习Task4（调参）

导语：今天是集成学习的第四次任务，本次任务的主要内容是调参。在上一任务中，我们了解了模型的特征选择以及模型验证方式，却没有对模型的参数进行调整，本次内容将使用网格搜索和随机搜索来对模型的超参数进行调整优化。首先，附上学习链接：集成学习: EnsembleLearning项目-github.1.参数与超参数在机器学习的模型中，我们会经常碰到两类参数：参数和超参数。它们有什么区别呢？以岭回归为例，模型中的参数 ???? 和参数w之间有什么不一样？事实上，参数w是我们通过设定某一个具体的 ???? 后

2021-03-24 23:32:02 528

原创机器学习基础—集成学习Task3

导语：今天是集成学习的第三次任务，在上次的任务中，针对Boston数据集，我们给出了三种可用于回归的基础模型：线性回归、决策树、支持向量回归。但都使用的是默认参数，没有任何优化处理。那么，本次内容的重点是，如何优化这些基础模型？怎样评价模型的泛化能力？怎样选择特征？首先，附上学习链接：集成学习: EnsembleLearning项目-github.1.优化基础模型了解机器学习基础的同学都知道，我们的数据集一般可分为训练集和测试集。有时候我们会发现，我们的模型在训练集上能表现得很好，误差很小，但在测试

2021-03-22 23:52:43 260

原创机器学习基础—集成学习Task2

导语：今天是集成学习的第二次任务，本次任务的基本内容是熟悉机器学习建模的基本步骤，认识处理回归问题的常见模型，基于sklearn，使用默认参数训练模型，得到结果。当然，这其中涉及到模型的基础理论原理，由于时间和资源的限制，我其实没有全部手推公式，以后弥补起来吧，这里只记录一些模型基本使用和模型间的对比。首先，附上学习链接：集成学习: EnsembleLearning项目-github.1.机器学习建模流程与前期准备1.1 机器学习项目的一般流程一般来说，一个完整的机器学习项目分为以下步骤：（1）

2021-03-18 22:11:13 707

原创机器学习基础—集成学习Task1

导语：今天开始组队学习—集成学习的Task1了，首先感谢Datawhale，一个十分优秀的AI开源组织，欢迎大家关注哦！本次任务就是机器学习的一些基础概念，首先附上学习链接：链接1: EnsembleLearning项目-github.链接2: 机器学习基础-知乎专栏....

2021-03-15 20:22:58 914 10

原创机器学习常用方法细节记录

1.随机森林：概要：记录一些在运用随机森林模型中遇到的问题1.特征抽取：–DictVectorizer在一段随机森林模型的代码中，使用了DictVectorizer()对训练集和测试集进行处理，模型训练结束后，在测试集上分类准确率为1，然而自己画出预测图，却与实际数据相差很多，不知道问题出在哪，找了很久。究其原因，是因为之前拷贝的随机森林案例中，在训练模型之前对训练集和测试集进行了莫名其妙的DictVectorizer()处理，而自己画图预测时却没有对数据进行这样处理，导致结果的误差。这里，记录一下

2021-03-02 21:07:15 113

原创 python列表赋值

记录一下Python列表赋值踩过的坑最近在做计算方法大作业，其中在三次样条插值的算法实现中，输入列表x_i直接复制给了x，但之后出现奇异现象：函数中没有对x_i的改变，为什么x_i无缘无故更改呢？原来，python中的列表是可变对象，直接赋值操作不会分配新内存来存储变量！注意区分以下不同：1.列表赋值2.列表浅拷贝3.列表深拷贝...

2020-12-06 14:46:17 799 1

原创 Python爬虫学习

Python爬虫学习遇到的小问题1.如何处理当遇到url里面有需要动态更新的内容（如页码变动）？需要使用url格式化拼接：#page_num写在for循环里面，每次需要更新page_num +=1url = “https://www.baidu.com/%d”new_url = format（url % page_num）2.使用fp.write()写入内容时，返回空文件？原因：写入文件后未关闭文件！需要在结尾处加上fp.close()#这是爬取58二手房源的那个例子fp = open

2020-12-01 12:16:47 151 1

原创搭建LaTeX环境的踩坑记录

安装和配置LaTeX的踩坑记录！1.ctex使用模板总是报错，而且编译不显示中文2.tex live.bat的事3.安装完没任何反应修改环境变量，tex -v成功win R + texworks测试基础案例，成功知乎“零基础学习贴”...

2020-11-21 23:32:07 3377 4

原创 windows安装anaconda遇到的问题

使用jupyter notebook遇到的问题1.安装好anaconda之后，打开，launching jupyter 长时间没反应？网上博客中找了很多答案，包括：防火墙问题（我自己试了，没有用），安装anaconda更新包问题（我也试了，没用）。最后成功的解决方案是：更改jupyter使用的默认浏览器的相关代码。（这可能和我刚安装了chrome浏览器有关，导致jupyter一直在寻找浏览器打开而出现问题）具体解决方案参考链接：https://blog.csdn.net/qq_41333844/ar

2020-11-17 22:24:33 548 3

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人