2023年城市交通系统客流量预测算法赛top3

ref: 2023中国华录杯数据湖算法大赛

        该比赛马上就要结束,0424日答辩。获得了前六的名次,本次比赛给我的感觉就是一言难尽呐。

        昨天(0515)比赛结果出来了,最终排名有点抖(前四)。比如”清华小分队“靠答辩结束后达到了第二名,也是很好奇别人的方案是个什么样子的。昨天加了几个人然后聊了一下,发现里面暗流涌动,该比赛竟然成了各大高校的竞技场,也是异常的精彩。

我先总结下整个比赛数据的情况:

赛题要求:

1 模型数量限制,不超过3个;

2 数据较少。

        在数据较少的情况下还要求模型数量的限制,加大了建模难度,其次在数据分析阶段发现异常数据也是不少。

异常数据:我们简单实用了箱型图进行检测然后盖帽处理。

        其次对目前数据进行了拆分: 周期+趋势,这一个部分就是对标签进行了转化,通过分析表明人流变化呈现按照周为单位的周期。

        其实如果直接使用上周的作为本周的预测值MAPE能狗达到0.93左右,周期行还是比较明显,因此在特征上面我们对滑动窗口也是作为处理。

       其中我们还使用了三指数平滑模型(6个模型),效果也不错0.94。但是官方不是限制在3个模型,这是也给了我们思路,因为三指数平滑的本质可不就是周期与趋势部分的预测。

重点部分:

数据预处理:

  1.  把202303月份之前的数据全部舍弃,因为该部分异常数据较多(节假日因素)。
  2. 异常数据处理:使用箱型图盖帽处理;
  3. 文本特征:tf_idf + word2Vec;
  4. 节假日特征;
  5. 天气特征数据;

标签变化:

  1. 使用当前交通工具的客流量 / 上周的客流量; 让模型专心攻破非周期带来的波动问题,也能更快的收敛。

模型部分:

  1.  3个lighgGBM;
  2. 趋势(通过画图能看出流量是在逐渐增加的趋势);

模型融合:

这一部分其实周六周日比较难以预测,因此我们也是针对这个部分进行了加权后处理的方式;

备注:

跟第一名交流别人的方案使用了LSTM,但是我在前期并没有收敛效果也不是很好,也是想往这个方面尝试如何处理数据结构,后面得到了心得体会我在补充。

        

        

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值