自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 Pytorch使用Dataset加载数据

深度学习中如何使用Pytorch读取数据?

2024-07-12 10:43:04 848

原创 数据挖掘——matplotlib

数据挖掘matplotlib部分,包括柱状图,折线图,直方图,饼图,散点图的绘画,并提供了具体的案例和对应代码,已经运行后的结果展示。

2024-07-09 20:12:07 1285

原创 机器学习——无监督学习(k-means算法)

机器学习,无监督学习中的K-Means聚类算法,图解以及实例。

2024-07-06 19:10:32 1185

原创 机器学习——逻辑回归

逻辑回归是一个二分类算法,本文主要介绍了逻辑回归流程以及逻辑回归的损失评估,报考精确率和召回率,F1-score,ROC曲线和AUC指标,最后以癌症预测为案例并查看各种评估指标。

2024-07-06 14:48:42 1458

原创 机器学习——岭回归

岭回归(Ridge Regression)和线性回归(Linear Regression)都是用于回归分析的统计方法

2024-07-05 20:09:06 868

原创 机器学习---线性回归

线性回归

2024-07-05 19:46:48 895

原创 机器学习——随机森林

随机森林及其案例

2024-07-05 01:02:41 742

原创 决策树分类案例(鸢尾花分类)

使用决策树对鸢尾花进行分类,并进行可视化

2024-07-04 14:22:02 199

原创 机器学习——决策树及其可视化

决策树及其可视化,利用天气决定是否打网球为例,来进行训练,并输出可视化文件。

2024-07-03 16:38:52 445

原创 机器学习——朴素贝叶斯算法

介绍了朴素贝叶斯与普通贝叶斯分类,并列举了如何计算贝叶斯概率以及分类流程,最后以垃圾短信分类为例,可发现朴素贝叶斯在文本处理能力出色。

2024-07-03 15:06:52 1045

原创 机器学习案例--使用KNN邻近算法预测Facebook用户签到位置

此时正确率较低,是因为筛选了经纬度固定的用户数据,但是我们在处理数据时还新增了一些数据,且过滤掉了次数少于3次的地点,最后,KNN是一个基于距离的算法,对线性关系处理较好。数据通常包括用户ID、签到时间、签到地点的经纬度、位置ID等。其中,row_id表示数据对应的id,在预测时无作用,x,y表示对应的经纬度,而accuracy表示测量进度,time表示时间戳(1970年1月1日起始),place_id为签到位置对应的id。:给定用户的签到记录,预测用户未来可能签到的地点(place_id)

2024-06-15 02:41:00 672

原创 KNN邻近算法&模型评估与调优(网格搜索和交叉验证)

模型评估与调优以及KNN邻近算法,根据最近的一个或者多个邻居判断自己的类型。

2024-06-11 15:43:38 1211

原创 特征降维&主成分分析

PCA主成分分析&特征降维。如何去除相关性较强的特征?

2024-06-10 20:25:56 772

原创 特征预处理---标准化

特征预处理--标准化

2024-06-10 03:19:33 424

原创 特征预处理--归一化

特征预处理—归一化

2024-06-01 21:21:10 409

原创 特征抽取--文本特征抽取和字典特征抽取

在做训练前,对于给定的数据,可能会出现字符串、bool值等类型数据,这一步的工作就是就是将此类特征转化成机器学习时所需要的数据特征。

2024-05-31 22:17:00 633

原创 数据集的切分

数据集的切分,train_test_split()方法

2024-05-31 21:49:47 593

原创 数据集的调用

sklearn中大小规模数据集的调用

2024-05-30 13:49:49 507

原创 机器学习入门1(学习笔记)

机器学习前沿知识

2024-05-29 20:37:23 402

原创 8天看完黑马python课程,刷题python基础的收货

用8天学完了python基础,然后两天刷完python基础。这是黑马上面没有涉及的。

2024-05-26 22:02:48 253

癌症预测数据集,可用逻辑回归完成模型的构建

本数据集包含多个参数,CRIM,ZN,INDUS,CHAS,NX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV 处理步骤: 1、读取数据 2、选取特征列和目标列 3、数据预处理——缺失值处理和数据归一化 4、预估器流程 5、模型评估与调优

2024-07-06

波士顿房价数据集,包含四个特征

RM: 每个住宅的平均房间数 LSTAT: 区域内房东的地位,表示低收入人群的百分比 PTRATIO: 区域内学生和教师的比例 MEDV: 自住房的中位数价值,以千美元为单位 可采用岭回归和线性回归进行预测

2024-07-05

朴素贝叶斯分类-短信数据集

短信分类数据集,含有10000条短信,text属性为短信的内容,label为短信的类别,有spam和ham两类,对应垃圾信息和正常信息。使用朴素贝叶斯可有效进行分类。具体流程参考主页朴素贝叶斯帖子。

2024-07-03

Facebook用户签到位置预测数据集

含有两个部分,测试集和训练集,测试集含有8607230条数据,训练集有29118021条数据,对应的属性分别如下:row_id表示数据对应的id,在预测时无作用,x,y表示对应的经纬度,而accuracy表示测量进度,time表示时间戳(1970年1月1日起始),place_id为签到位置对应的id。其对应的数据处理流程如下: 1、首先获取数据 2、数据处理(时间戳转化成对应的年月日,过滤掉签到次数少的地方,认为3次及以下为少) 3、筛选特征值目标值 4、数据集划分 5、预估器训练 6、模型评估与调优 我的博客内更新了使用KNN邻近算法的机器学习案例,并筛选了对应经纬度用户的数据作为训练集和测试集,从而进行预测。由于各个特征之间不存在线性关系,读者可以根据具体需求做对应的数据进行处理并且选用更为合适的算法进行处理,例如:随机森林、XGBoost或神经网络等等。

2024-06-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除