自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(77)
  • 收藏
  • 关注

原创 常见的Python编程题目及其代码(六)-- 26. 将列表转换为集合 27. 检查一个数是否在列表中 28. 列表元素求平方 29. 找到两个列表的交集 30.找到两个列表的并集

【代码】常见的Python编程题目及其代码(六)-- 26. 将列表转换为集合 27. 检查一个数是否在列表中 28. 列表元素求平方 29. 找到两个列表的交集 30.找到两个列表的并集。

2024-07-14 00:07:51 275

原创 常见的Python编程题目及其代码(五)-- 21. 将字符串反转 | 22. 计算字符串中的单词数 | 23. 检查一个列表是否为空 | 24. 合并两个字典 | 25. 找到字典中的最大值

【代码】常见的Python编程题目及其代码(五)-- 21. 将字符串反转 | 22. 计算字符串中的单词数 | 23. 检查一个列表是否为空 | 24. 合并两个字典 | 25. 找到字典中的最大值。

2024-07-13 08:30:50 436

原创 常见的Python编程题目及其代码(四)-- 16. 查找字符串中的最大字符|17. 删除字符串中的所有元音|18. 计算列表中的元素之和|19. 找到列表中的最大和最小|20. 计算列表的平均值

【代码】常见的Python编程题目及其代码(四)-- 16. 查找字符串中的最大字符|17. 删除字符串中的所有元音|18. 计算列表中的元素之和|19. 找到列表中的最大和最小|20. 计算列表的平均值。

2024-07-12 00:04:57 183

原创 常见的Python编程题目及其代码(三)-- 11. 检查数字是否为质数 | 12. 计算从1到n的和 | 13. 阶乘 14. 斐波那契数列 | 15. 检查字符串是否为回文

【代码】常见的Python编程题目及其代码(三)-- 11. 检查数字是否为质数 | 12. 计算从1到n的和 | 13. 阶乘 14. 斐波那契数列 | 15. 检查字符串是否为回文。

2024-07-11 08:13:45 143

原创 时间序列分析方法汇总对比及优缺点和适用情况(上)--1. 移动平均 2. 指数平滑 3. 自回归模型 4. 移动平均模型 5. 自回归移动平均模型

时间序列分析是处理和分析时间序列数据的统计技术和方法,主要用于理解时间序列的特征,并通过模型预测未来值。以下是一些常用的时间序列分析方法:

2024-07-11 00:32:59 1582

原创 常见的Python编程题目及其代码(二)-- 6. 判断闰年 | 7. 交换两个变量 | 8. 生成随机数 | 9. 摄氏度转华氏度 | 10. 检查数字是否为正数、负数或零

【代码】常见的Python编程题目及其代码(二)-- 6. 判断闰年 | 7. 交换两个变量 | 8. 生成随机数 | 9. 摄氏度转华氏度 | 10. 检查数字是否为正数、负数或零。

2024-07-10 00:01:30 271

原创 常见的Python编程题目及其代码(一)-- 1. Hello World | 2. 添加两个数 | 3. 求平方根 | 4. 计算三角形的面积 | 5. 计算圆的面积

【代码】常见的Python编程题目及其代码(一)-- 1. Hello World | 2. 添加两个数 | 3. 求平方根 | 4. 计算三角形的面积 | 5. 计算圆的面积。

2024-07-09 21:15:21 162

原创 股票数据分析(K线图、均值图、MACD图、RSI图)--股票日数据

对股票数据的k线分析、均线分析、成交量以及MACD和RSI分析,以及股票数据的数据预处理和周期转换。

2024-07-08 15:08:36 2029 1

原创 机器学习原理之 -- 神经网络:由来及原理详解

神经网络(Neural Networks)是受生物神经系统启发而设计的一类计算模型,广泛应用于图像识别、语音识别、自然语言处理等领域。其基本思想是通过模拟人脑神经元的工作方式,实现对复杂数据的自动处理和分类。本文将详细介绍神经网络的基本原理、结构、训练过程及其在实际应用中的优势和挑战。

2024-07-07 01:07:11 633

原创 机器学习原理之 -- XGboost原理详解

XGBoost(eXtreme Gradient Boosting)是近年来在数据科学和机器学习领域中广受欢迎的集成学习算法。它在多个数据科学竞赛中表现出色,被广泛应用于各种机器学习任务。本文将详细介绍XGBoost的由来、基本原理、算法细节、优缺点及应用场景。

2024-07-06 00:01:14 1973

原创 机器学习原理之 -- 梯度提升树(GBT)原理详解

梯度提升树(Gradient Boosting Trees, GBT)是一种强大的机器学习算法,广泛应用于分类和回归任务。它通过集成多个弱学习器(通常是决策树)来构建一个强大的预测模型,具有较高的准确性和鲁棒性。本文将详细介绍梯度提升树的基本原理、训练过程、优缺点及其在实际应用中的优势。

2024-07-05 00:02:09 420

原创 机器学习原理之 -- 最近邻算法分类:由来及原理详解

最近邻算法作为一种基于实例的学习方法,通过距离度量寻找与待分类样本最近的k个训练样本,并根据这些最近邻样本的类别进行分类。最近邻算法(k-Nearest Neighbors,k-NN)是一种简单且直观的分类算法,广泛应用于分类和回归问题。本文将详细介绍最近邻算法的由来、基本原理、构建过程及其优缺点。最近邻算法是一种基于实例的学习方法,其基本思想是根据距离度量寻找与待分类样本最近的k个训练样本,然后通过这些最近邻样本的类别来决定待分类样本的类别。k值是最近邻算法中的一个重要参数,代表选择的最近邻样本的数量。

2024-07-04 00:21:59 598

原创 机器学习原理之 -- 支持向量机分类:由来及原理详解

SVM的基础源自于统计学习理论中的结构风险最小化原则(Structural Risk Minimization, SRM),旨在通过优化模型复杂度和经验风险的平衡,达到最优的泛化能力。支持向量机作为一种强大的分类算法,通过引入结构风险最小化原则,在高维空间中寻找最优超平面,实现了高效的分类性能和良好的泛化能力。对于线性可分的数据集,支持向量机通过找到一个最佳的超平面,将不同类别的数据点分开。该超平面最大化了两类数据点之间的间隔,从而提高分类的鲁棒性和泛化能力。间隔定义为超平面到最近数据点的距离。

2024-07-03 00:26:07 1404

原创 机器学习原理之 -- 随机森林分类:由来及原理详解

随机森林通过引入随机性,在构建多棵决策树的过程中,减少了单棵决策树容易出现的过拟合问题,同时提高了模型的稳定性和精度。随机森林分类器作为一种强大的集成学习方法,通过构建多棵决策树并结合其结果,提高了分类器的精度和稳定性。本文将详细介绍随机森林分类器的由来、基本原理、构建过程及其优缺点。其基本思想是通过集成学习(Ensemble Learning)的方法,结合多个弱分类器(决策树)的结果,形成一个强分类器。随机森林算法的核心是通过随机采样和特征子集选择,构建多棵决策树,并将这些决策树的结果进行集成。

2024-07-02 00:13:14 720

原创 机器学习原理之 -- 决策树分类:由来及原理详解

决策树分类器作为一种强大的机器学习算法,通过树形结构对数据进行递归分割,形成直观的决策路径。由于决策树模型具有直观性和易解释性,它在20世纪80年代开始成为机器学习和人工智能研究的重点。本文将详细介绍决策树分类器的由来、基本原理、构建过程及其优缺点。常用的决策树算法包括ID3(Iterative Dichotomiser 3)、C4.5和CART(Classification and Regression Tree)。决策树分类器广泛应用于各种领域,包括医疗诊断、金融风险评估、市场营销分析和生物信息学等。

2024-07-01 00:31:59 466

原创 机器学习原理之 -- 朴素贝叶斯分类器:由来及原理详解

朴素贝叶斯(Naive Bayes)分类器是一类基于贝叶斯定理(Bayes' Theorem)的简单而有效的概率分类算法。由于其假设特征之间的条件独立性,因此被称为“朴素”贝叶斯分类器。尽管这种独立性假设在现实中很少完全成立,但朴素贝叶斯分类器在许多实际应用中仍然表现出色,尤其是在文本分类和垃圾邮件过滤等任务中。

2024-06-30 09:47:15 1147

原创 神经网络回归原理详解及Python代码示例

在前向传播过程中,输入数据依次通过每一层的神经元进行计算,经过激活函数处理后传递到下一层,最终输出预测值。计算过程涉及输入与权重的加权和,再通过激活函数进行非线性变换。神经网络回归的损失函数用于衡量预测值与真实值之间的差异,常用的损失函数是均方误差(MSE),它计算预测值与真实值之间差的平方和的平均值。它通过计算损失函数相对于每个权重的梯度,并按照梯度下降的方法调整权重,以最小化损失函数。常用的优化算法包括随机梯度下降(SGD)、Adam等,这些算法通过不断调整权重来优化神经网络的性能。

2024-06-29 00:01:15 1178

原创 K近邻回归原理详解及Python代码示例

K近邻回归(K-Nearest Neighbors Regression, KNN)是一种基于实例的学习算法,用于解决回归问题。它通过找到输入数据点在特征空间中最相似的K个邻居(即最近的K个数据点),并使用这些邻居的平均值来预测目标值。KNN回归的基本思想是“相似的数据点具有相似的目标值”。KNN回归在许多实际应用中表现良好,适用于回归、分类以及其他需要基于相似性进行预测的问题,如推荐系统、模式识别等。以下是一个完整的Python代码示例,用于实现K近邻回归。库来构建和评估模型。

2024-06-28 00:24:12 734

原创 支持向量回归原理详解及Python代码示例

支持向量回归(Support Vector Regression, SVR)是支持向量机(SVM)的一种扩展,用于回归问题。SVR通过寻找一个最佳的回归超平面,使得尽可能多的数据点落在超平面附近的ε-管内,从而达到预测连续值的目的。SVR的核心思想是通过对输入空间进行映射,并在高维空间中寻找一个最优的回归超平面。常用的核函数有线性核、多项式核、高斯核(RBF)等。SVR的目标是找到一个函数 f(x)=w⋅x+b ,使得所有数据点 (xi,yi)的预测误差在ε以内,同时最小化 ∥w∥2。

2024-06-27 20:34:20 668

原创 随机森林回归原理详解及Python代码示例

随机森林回归(Random Forest Regression)是一种集成学习方法,通过构建多个决策树并将它们的预测结果进行平均,来提高模型的稳定性和预测准确性。它通过引入随机性来增强模型的泛化能力,有效减轻了单棵决策树容易过拟合的问题。以下是一个完整的Python代码示例,用于实现随机森林回归。1. 随机森林回归的基本概念。2. 随机森林回归的优缺点。库来构建和评估模型。

2024-06-27 00:24:54 775

原创 决策树回归原理详解及Python代码示例

决策树回归(Decision Tree Regression)是一种非参数监督学习方法,它使用树形结构来对目标变量进行预测。与线性回归模型不同,决策树回归不需要预先假设数据的分布形式,因此能够很好地处理非线性和高维数据。决策树回归通过递归地将数据集划分为更小的子集,并在每个子集上构建简单的预测模型。树中的每个节点表示一个特征,节点的分裂则是根据该特征的某个阈值将数据集分成两部分。树的叶子节点包含目标变量的预测值。1. 决策树回归的基本概念。3. 决策树回归的优缺点。2. 决策树的构建过程。

2024-06-26 00:28:52 555

原创 多项式回归(Linear Regression)原理详解及Python代码示例

多项式回归(Polynomial Regression)是线性回归(Linear Regression)的一种扩展形式。虽然多项式回归本质上还是线性模型,但它允许模型在输入特征的多项式基础上进行线性拟合,从而捕捉复杂的非线性关系。:选择合适的多项式阶数 n 是模型拟合的关键。,βn是模型的参数,n 是多项式的阶数,ϵ是误差项。以下是一个完整的Python代码示例,用于实现多项式回归。:将输入特征扩展为多项式特征。例如,对于一个一维特征 x,构建的特征矩阵为。:使用线性回归方法在多项式特征上进行拟合。

2024-06-25 00:07:24 648

原创 线性回归(Linear Regression)原理详解及Python代码示例

线性回归是一种基本的统计方法,用于预测因变量(目标变量)与一个或多个自变量(特征变量)之间的线性关系。线性回归模型通过拟合一条直线(在多变量情况下是一条超平面)来最小化预测值与真实值之间的误差。线性回归通过最小二乘法来估计模型参数,即最小化所有预测误差的平方和。对于给定的训练数据集 (xi,yi),目标是找到使得误差平方和最小的 β值。其中 m是样本数量,yi^​ 是第 i个样本的预测值,通过最小化这个损失函数,可以得到最优的模型参数 β。下面是使用Python实现线性回归的代码示例。

2024-06-24 07:50:22 794

原创 机器学习回归预测方法介绍:优缺点及适用情况

线性回归是一种基础的回归方法,用于建立自变量与因变量之间的线性关系。通过最小化误差平方和来确定最佳拟合直线。

2024-06-23 21:22:32 1183

原创 ython机器学习分类算法(六)-- 逻辑回归(Logistic Regression)

逻辑回归虽然名为“回归”,但实际上是一种用于处理二分类或多分类问题的分类算法。其核心思想是,利用线性回归模型的预测结果逼近真实标记的对数几率(log odds),因此得名“逻辑回归”。具体来说,逻辑回归通过引入sigmoid函数(或称为逻辑函数),将线性回归模型的输出值映射到0和1之间,从而可以将其解释为某个类别发生的概率。

2024-06-22 00:03:56 780

原创 Python机器学习分类算法(五)-- 最近邻算法(k-Nearest Neighbors,KNN)

k-最近邻(k-Nearest Neighbors,KNN)算法是一种基本的机器学习分类和回归算法。在分类问题中,KNN通过测量不同特征值之间的距离来进行分类。它的工作原理是:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签

2024-06-21 00:06:43 623

原创 Python机器学习分类算法(四)-- 支持向量机(Support Vector Machine,SVM)

支持向量机(SVM)是一种基于统计学习理论和结构风险最小原理的有监督学习方法,主要用于数据分类问题。其原理是寻找一个能够将不同类别的样本划分开来的超平面(在二维空间为直线,三维空间为平面,高维空间为超平面),同时要求这个超平面到各个类别样本集的最近点的距离最大化,也就是使得间隔(margin)最大。在这个例子中,我们使用了线性核('linear' kernel)和默认的C值(C=1.0)来训练SVM分类器,然后,我们使用训练好的模型对测试集进行预测,并计算了预测的准确率。

2024-06-20 00:24:19 448

原创 Python机器学习分类算法(三)-- 随机森林(Random Forest)

随机森林(Random Forest)原理基于集成学习思想,通过构建多棵决策树并集成它们的预测结果来提高模型的准确性和稳定性。具体来说,随机森林首先通过自助法(bootstrap)从原始数据集中随机抽取多个样本子集,并在每个样本子集上随机选择特征子集来构建决策树。这种随机性确保了每棵决策树都是基于不同的数据和特征进行训练的,从而减少了它们之间的相关性。在预测时,随机森林将多棵决策树的预测结果进行投票或平均,得到最终的预测结果。这种方法通过集成多个相对独立的决策树,有效降低了模型的偏差和方差,提高了预测准确性

2024-06-19 00:54:28 970

原创 Python机器学习分类算法(二)-- 决策树(Decision Tree)

决策树是一种直观的决策分析方法,通过构成树形结构来求取净现值的期望值大于等于零的概率,评价项目风险,并判断其可行性。在机器学习中,决策树是一个预测模型,它表示对象属性与对象值之间的一种映射关系。

2024-06-18 09:19:45 785

原创 Python机器学习分类算法(一)-- 朴素贝叶斯分类(Naive Bayes Classifier)

朴素贝叶斯分类器是一种基于贝叶斯定理和特征条件独立假设的分类方法。它假定每个特征与其他特征都不相关,然后利用贝叶斯定理来计算给定样本属于各个类别的概率,选择概率最大的类别作为预测结果

2024-06-18 00:17:36 711

原创 决策树与支持向量机做预测--血友病计数数据

决策树回归预测+支持向量机回归预测。

2024-06-17 19:28:57 86

原创 XGBoost预测及调参过程(+变量重要性)--血友病计数数据

XGBoost做预测,以及调参过程,并给出变量重要性分析。

2024-06-16 11:08:27 571

原创 随机森林算法进行预测(+调参+变量重要性)--血友病计数数据

包括对于计数数据的数据预处理,随机森林进行预测,以及随机森林调参,并输出变量重要性。

2024-06-15 10:08:27 1010

原创 Python实现逻辑回归与判别分析--西瓜数据集

逻辑回归与判别分析解决二分类问题。

2024-06-14 22:06:52 668 2

原创 Python模块Pandas数据切片 -- 详解loc和iloc区别

在Pandas库中,`iloc`和`loc`是用于选择DataFrame或Series中数据的两种主要方法。尽管它们的目的相似,但它们的用法和基于的索引类型有着显著的区别。

2024-06-13 17:43:48 336

原创 Python模块Pandas数据切片 -- loc详解及代码示例

在Pandas库中,`loc`是基于标签的索引方法,它允许用户根据行标签和列标签来选择数据。这与`iloc`方法不同,后者是基于整数位置的索引。在处理数据时,尤其是当数据具有描述性标签时,`loc`方法非常有用。

2024-06-13 00:34:35 541

原创 Python模块pandas数据切片 -- iloc用法详解

在Pandas库中,`iloc`(基于整数位置的索引)是一个强大的工具,它允许根据整数位置选择数据,即基于行的位置和列的位置来选择数据。这与`loc`(基于标签的索引)不同,后者是基于行标签和列标签来选择数据的。

2024-06-12 00:20:50 915

原创 Python数据框的合并(二) -- concat函数

在Python模块Pandas中,concat函数是一个常用的函数,用于将多个pandas对象(如Series、DataFrame)沿着一条轴进行连接,下面是对Pandasconcat函数的详细解释以及代码示例。

2024-06-11 20:05:56 457

原创 Python数据框操作 -- 删除数据(去除空值或者特定值)

数据框空值处理和删除数据

2024-06-10 19:54:46 284

原创 Python数据框的合并(一) -- merge函数

d.在pandas中,可以使用 merge(left, right, on='key', how='left') 来实现左连接,其中 'key' 是两个DataFrame中用于匹配的列名。d.在pandas中,虽然 how='right' 是理论上存在的选项,但更常见的做法是先进行左连接,然后交换两个DataFrame的顺序再进行左连接,以达到右连接的效果。c.如果左DataFrame中没有匹配的行,则结果中的相应列将包含缺失值(NaN)。b. 如果左DataFrame中有匹配的行,则合并这些行的值。

2024-06-09 09:19:03 794

白葡萄酒数据(whitewines.csv)

白葡萄酒数据(whitewines.csv)包含了4898个葡萄酒案例的l l种化学特性的信息。对于每种葡萄酒,实验室分析测量的特性包括酸性、含糖量、氯化物含量、硫的含量、酒精度、pH值和密度等。然后,这些样本会由不少于3名鉴定者组成的小组以盲品的方式进行评级,质量尺度从0(很差)到10(极好)。

2024-05-01

美国国家癌症研究所血友病数据集

数据为血友病数据,该数据由美国国家癌症研究所资助的多中心血友病队列研究获得的,研究从1978年1月1日到1995年12月31日在16个治疗中心跟踪了超过1600位血友病人,数据一共有2144个观测值及6个变量。 变量名 描述 性质 hiv 患者的HIV状况(1=阴性,2-阳性) 哑元型分类变量 Factor 使用凝血因子制剂的5种剂量 哑元型分类变量 Year 日历年 整数(也可作分类变量) Age 年龄(按5岁递增的组) 整数/定序/分类 Py 人年:该年改组参加研究的时间总量 数量变量 deaths 该组死亡人数 整数

2024-04-28

2023年亚太杯A题附件一,苹果图像数据集

2023年亚太杯A题附件一,苹果图像数据集

2024-04-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除