汀沿河-CSDN博客

给你一个整数数组nums，请你找出一个具有最大和的连续子数组（子数组最少包含一个元素），返回其最大和。是数组中的一个连续部分。6连续子数组 [4,-1,2,1] 的和最大，为 6。nums = [1]123思考：1 这个题目有点印象否，连续自数组，可以使用前缀和求解，不过这个要O(N**2)；2 动态规划。分析题目，只要求解最大连续子数组的和，那么我们就把所有访问到当前位置的最大连续子数据保存下来，存放在cum_sums = []；nums[0]什么意思？

2024-06-30 14:54:25 283

原创 4 第三届“数智港航”数据创新应用大赛——算法模型赛道“船舶装卸货量预测”

目前排名还好TOP10，希望最后能得到一个好结果吧！感受：这个比赛我也是服了，总是在改变；2 特征也很少，可做的东西就更少了；我觉得上分的点就在如何搞更多的模型；1 数据太少，导致很抖，很野鸡；

2024-06-28 18:00:48 97

原创 4 前缀和、双端队列使用：子串

前缀和、双端队列

2024-06-28 14:21:40 587

原创 1 数据结构算法：目录

数据结构算法目录

2024-06-27 16:42:32 230

原创 3 滑动窗口

滑动窗口的优势在于它可以在O(N)的时间复杂度内解决很多问题，其中N是序列的长度，通过一次遍历就能完成大部分计算，非常适合处理大规模数据流或高效遍历数组的需求。

2024-06-27 16:26:29 745

原创 2 双指针

双指针：两头看策略；

2024-06-26 17:11:39 263

原创 1 哈希应用

O(1) 的哈希Python中的哈希表主要通过内置的字典（dict）类型实现。对于字典的操作，包括插入（insert）、删除（delete）和查找（lookup）的时间复杂度，在理想情况下可以视为O(1)，即常数时间复杂度。这是因为哈希表通过哈希函数将键（key）直接映射到表中的某个位置，理论上可以做到直接访问。然而，这是在假设哈希函数能够均匀分布元素，且哈希表有足够的空间以保持低冲突率的理想情况下的讨论。：当不同的键通过哈希函数映射到相同的索引时，就会发生冲突。

2024-06-26 14:23:53 716

原创 3 船舶装卸货量预测: 模型集成

这部分代码也是目前在比赛中使用的代码，目前名次在top6。

2024-06-24 14:13:25 234 1

原创 3 catboot：房价预测

【代码】1 catboot：房价预测。

2024-06-18 16:22:08 234

原创 0 简单的图像分类

print(f'{path} size = {img.size}, 该图像预测类别为:', classes[pred])1 类别不均衡，有得种类图片2百多，有个只有10个不到；1 如何进行图片增强，图片增强应该注意什么（方向问题）；2 像素大小不同，导致有的图片很清晰，有的很模糊；2 模型大小如何进行选择；

2024-06-17 11:00:30 847

原创 4.2 文本相似度（三）

文本相似度评估，双塔。

2024-05-13 16:36:36 289

原创 4.1 文本相似度（二）

文本分类：两个句子连接

2024-05-13 15:03:12 771 1

原创 5 对抗验证（数据分布）

对抗验证，验证训练与测试集合数据分布是否相似

2024-05-07 10:58:05 336

原创 8 聚类算法

聚类算法简单介绍

2024-04-30 15:29:14 1705

原创 4 异常点检测方法

异常值检测

2024-04-30 11:09:28 710

原创 1 集成学习基础

它的思路和Stacking几乎是完全一样的，唯一的不同之就是Blending 的过程中不进行K折验证，而是只将原始样本训练集分为训练集和验证集，然后只针对验证集进行预测，生成的新训练集就只是对于验证集的预测结果，而不是对对全部训练集的预测结果。2. blending 的优点是：比stacking简单，不会造成数据穿越（所谓数据创越，就比如训练部分数据时候用了全局的统计特征，导致模型效果过分的好），generalizers和stackers使用不同的数据，可以随时添加其他模型到blender中。

2024-04-29 14:47:48 753

原创 4 文本相似判断任务

简单的文本相似模型微调

2024-04-24 17:33:27 368

原创 3 命名实体识别调优化

命名实体识别

2024-04-23 17:39:15 406

原创 2 使用自己的数据训练一个简单的二分类模型

二分类微调

2024-04-22 15:22:29 840

原创 1 transformers:词典，（文本如何处理）

NLP任务最初，就是在于如何处理文本。无论从TFIDF到word2Vec的过程，还是BERT都是想找到文本的向量表达，如何表示更好处理我们的下游任务。那么，这个过程是如何做的呢，本文主要就是介绍这一个过程，还是代码为主，你要知道所有的大模型都干了这个。面对这么多的字，以及字之间的组合这是一个指数级别的增长。再者现在的网络文化无时无刻不再增加新的词汇，“提灯定损”，你懂的！VOF。那么模型具有一定的延时性，不可能包好所有的词，一个典型的没见过的用一个统一的符号代表。

2024-04-22 14:51:49 390

原创 0 transformers入门，HuggingFace！

HuggingFace使用入门，自己想学学看看能坚持多久。

2024-04-22 13:52:48 295

原创算法章节目录

2024-04-19 17:03:29 448

原创 5 CatBoost模型

catboost模型介绍

2024-04-19 16:53:39 1305

原创 4 lightGBM

这样的预排序算法的优点是能精确地找到分割点。但是缺点也很明显：首先，

2024-04-19 14:27:42 1033 1

原创 7 Transform结构

面试者经常会问transform这个模型，一个典型的seq2seq结构。

2024-04-18 17:35:07 953

原创 3 xgboost

XGBoost与GBDT比较大的不同就是目标函数的定义，基本思想是一致的，同样是利用加法模型与前向分步算法实现学习的优化过程。

2024-04-17 21:36:08 333

原创 6 tabNet: 堪比xgboost的深度学习模型

之前用过这个模型，现在也就想写一下。看过很多资料，这个文章最舒服大家可以参考下。tabnet的主体思想是用nn来表示决策树，深度学习能够对多种类型数据进行编码，并将其结合起来减轻特征工程的依赖、端到端的表征学习。

2024-04-17 15:27:29 1244

原创 2 逻辑斯蒂回归（分类）

逻辑斯蒂回归（Logistic Regression）是一种用于解决分类问题的线性模型。尽管名字中包含“回归”一词，但逻辑斯蒂回归实际上用于处理分类问题，特别是二分类问题。逻辑斯蒂回归通过将线性回归模型的输出通过一个逻辑斯蒂函数（Logistic Function）进行转换，将连续的预测值映射到 0 到 1 之间的概率值。

2024-04-17 14:02:00 1131

原创 0 回归-海上风电出力预测

分析一下：特征工程如何做。

2024-04-17 11:09:42 552

原创分类损失函数与评估指标

分类损失函数以及指标

2024-04-16 19:28:47 1083

原创 2023年城市交通系统客流量预测算法赛top3

该比赛马上就要结束，0424日答辩。获得了前六的名次，本次比赛给我的感觉就是一言难尽呐。

2024-04-16 18:21:04 362 3

原创回归损失函数

回归损失函数也可以做为评价指标使用，但是有没有想过数据分布与损失函数之间的关系呢！。我曾经遇到两个问题，类似正太分布与非正太分布损失函数。比如下面： 0的值异常多。可以采用非正太损失函数，使用tweedie loss、possion loss等损失函数替代mse。这些lgb、xgb都可调参数。

2024-04-16 17:39:54 1065

原创 1 GBDT:梯度提升决策树

前面简单梳理的基本的决策树算法，那么如何更好的使用这个基础算法模型去优化我们的结果是本节要探索的主要内容。梯度提升决策树（Gradient Boosting Decision Trees）是一种集成学习方法，通常用于解决回归和分类问题。它通过串联多棵决策树来构建一个强大的模型。在训练过程中，每棵树（CART树）都试图纠正前一棵树的错误，以逐步改进模型的性能。

2024-04-16 16:16:40 1236

原创 0 决策树基础

决策树基础知识点

2024-03-28 16:09:13 994

原创 0 万年历节假日数据爬取

外部特征提取

2024-03-05 13:46:33 356 3

原创 hive上手操作

Hive Sql 大全(hive函数，hive表)-CSDN博客

2024-02-28 17:13:46 323

原创 6 时间序列（不同位置的装置如何建模）： GRU+Embedding

很多算法比赛经常会遇到不同的物体产生同含义的时间序列信息，比如不同位置的时间序列信息，风力发电、充电桩用电。经常会遇到该如此场景，对所有数据做统一处理喂给模型，模型很难学到区分信息，因此设计如果对不同位置的装置做嵌入操作，这也是本文书写的主要目的之一，如果对不同位置装置的时序数据做模型呢？

2024-01-22 10:51:26 722

原创 2023“SEED”第四届江苏大数据--新能源赛道复赛Btop2总结

第一名是真的强！基本都是第一，难以撼动。昨天新能源赛道终于落下了帷幕，真的不是一般的卷。最后的排名都到了0.0几分的差距。跟队友很辛运复赛B榜单目前进入top3的行列，下面简单总结一下赛事过程。初赛按照天级别预测未来一周各个充电站的电量，榜单最高分达到215，我们队伍只是停留在220分左右。交流群里面有人喊话：单模220，如果真的是这样，也很想学习下特征工程的思路以及使用模型。这个比赛让我感觉很诧异的点在于使用历史特征构造根本得不到效果的提升，初赛一值是队友按照他的思路建模。

2023-12-29 17:39:20 626 3

有关自然语言理解情感分类任务相关的数据集合

数据： 2023“SEED”第四届江苏大数据开发与应用大赛-新能源赛道的数据

linux-jdk-1.7+hadoop-eclipse-plugin2.6.0.zip

空空如也