夏天｜여름이다-CSDN博客

原创数据集 | 人脸公开数据集的介绍及下载地址

本文介绍了人脸相关算法的数据集。

2024-07-06 15:20:11 1248

原创 Leetcode | 以二叉树,多叉树为主题的理论,真题以及图解【更新中】

前序(preorder traversal)：从根节点开始，先访问当前节点，然后递归地遍历左子树，最后递归地遍历右子树。即“根-左-右”的顺序。中序遍历(inorder traversal)：从根节点开始，先递归地遍历左子树，然后访问当前节点，最后递归地遍历右子树。即“左-根-右”的顺序。后序遍历(postorder traversal)：从根节点开始，先递归地遍历左子树，然后递归地遍历右子树，最后访问当前节点。即“左-右-根”的顺序。

2024-04-26 16:59:18 738 1

原创 CV | 360BEV: Panoramic Semantic Mapping for Indoor Bird‘s-Eye View理解

这篇论文提出了一种名为360BEV的专用解决方案,用于从鸟瞰图像对室内场景进行全景语义映射。提出了一种从全景图像生成整体鸟瞰视图语义映射的方法,不依赖于窄视野图像或运动线索。提出模型360Mapper,可以从全景图像预测语义标签和非模态语义映射。所提出的方法在室内语义映射基准测试中取得了最佳性能,优于现有方法。

2024-04-26 14:00:20 1101 1

原创 Mamba：使用选择性状态空间的线性时间序列建模

Mamba可以代替transformer吗？

2024-04-19 17:15:52 1104

原创 CV | 室内语义建图(Semantic Image Segmentation)的调研

室内语义分割论文调研~

2024-04-19 14:27:30 704

原创 CV | FSGS使用高斯喷溅的实时少样本视图合成论文详解与项目实现

本文是对论文通过多角度照片3D建模：FSGS模型的详解与项目实现。

2024-04-18 17:07:40 927

原创 LLM | Gemma的初体验

一起来体验一下吧~此型号卡对应于 Gemma 型号的 7B 指令版本。

2024-03-06 16:56:08 1366

原创 LLM | GPT-NEOX论文详解

GPT-NEOX使用旋转位置编码。模型权重使用float16表示。最大序列长度为2048。论文题目：2022.04.14_GPT-NeoX-20B: An Open-Source Autoregressive Language Model。

2024-03-06 13:39:48 1563

原创问题解决 | RuntimeError: CUDA error: invalid device ordinalCUDA kernel errors

RuntimeError（运行时错误）： CUDA 错误：设备序号无效CUDA 内核错误可能会在其他 API 调用中异步报告，因此下面的堆栈跟踪可能不正确。为便于调试，可考虑通过 CUDA_LAUNCH_BLOCKING=1。使用 `TORCH_USE_CUDA_DSA` 进行编译，以启用设备端断言。

2024-03-04 13:41:36 5037

原创 CV | 医学影像上的图像分割模型调研【更新于20240417】

mamba相关的图像分割：VM-Unet,ManbaUnet,BRAUUnet,EGE。

2024-03-04 13:02:04 1705

原创环境配置 |Jupyter lab/Jupyter Notebook 安装与设置

ipynb使用Jupyterlab/Jupyter Notebook 来编写程序时的文件,在使用时,可以现转换为标准的.py的python文件。

2024-02-29 07:35:57 3238

原创 CV | Segment Anything论文详解及代码实现

本文主要是详解解释了SAM的论文部分以及代码实现~

2024-02-16 14:27:30 1909 2

原创 YOLO | YOLO-World论文详解

腾讯出的热气腾腾的论文YOLO-World来啦~

2024-02-16 09:14:48 5366

原创 CV | Medical-SAM-Adapter论文详解及项目实现

本文主要讲解Medical-SAM-Adapter论文及项目实现~

2024-02-07 16:00:12 1908 1

原创 CV | SAM在医学影像上的模型调研【20240223更新版】

本文主要是SAM（Segment Anything）在医学影像上的数据集，模型及评估方法调研【持续更新】~

2024-02-07 12:14:16 1631

原创实用篇 | postman在AI模型中输入speech,text,image使用详解

postman在AI模型中输入speech,text,image使用详解

2024-01-30 15:48:35 1444 2

原创 LLM | 一些开源的AI代码生成模型调研及总结【20240130更新】

本文主要介绍主流代码生成模型，总结了基于代码生成的开源大语言模型，按照时间顺序排列。

2024-01-30 09:35:20 2927

原创 RL | 强化学习算法DDPG的理论理解及代码

深度确定性策略梯度（Deep Deterministic Policy Gradient, DDPG）是一种强化学习算法，主要用于解决连续动作空间的问题。

2024-01-24 16:16:25 1102

原创 Speech | 人工智能中关于语音务必需要了解的基础知识(信号处理)及代码

语音信号知识点总结！

2024-01-24 14:39:40 1174

原创 Speech | 语音克隆Openvoice的论文解读及项目实现

本文主要介绍了语音克隆Openvoice的论文以及项目实现~

2024-01-10 08:19:05 1478 1

原创生成模型 | 2024年新年新论文：audio2photoreal[正在更新中]

本博客主要包含了20240103新出的论文From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations论文解释及项目实现~

2024-01-09 14:49:45 1259

原创 Speech | 人工智能中语音质量评估方法详解及代码

本文主要讲解人工智能中语音合成，语音转换，语音克隆等生成语音的一些质量评估方法~

2024-01-08 15:22:00 5251

原创生成模型 | GAN系列生成系列论文及代码调研总结

本文主要讲解生成模型中的GAN系列相关模型，模型之间的差异对比~

2024-01-02 17:24:23 1193

原创 TTS | NaturalSpeech语音合成论文详解及项目实现【正在更新中】

本文主要是讲解了NaturalSpeech论文及项目~

2024-01-02 16:07:44 1973 1

原创模型量化 | Pytorch的模型量化基础

量化简介量化是指执行计算和存储的技术位宽低于浮点精度的张量。量化模型在张量上执行部分或全部操作，精度降低，而不是全精度（浮点）值。这允许更紧凑的模型表示和在许多硬件平台上使用高性能矢量化操作。与典型的 FP32 模型相比，PyTorch 支持 INT8 量化，模型大小减少 4 倍内存带宽减少 4 倍INT8 计算的硬件支持通常为 2 到 4 个与 FP32 计算相比，速度快几倍量化主要是一种技术加速推理，量化仅支持前向传递运营商。PyTorch 支持多种量化深度学习模型的方法。

2023-12-27 09:45:22 2222

原创 Linux | 解决问题Ubuntu重启无法进入系统以及网络无法连接【图文详解】

问题解决 | Ubuntu重启无法进入系统记以及网络无法联网问题~

2023-12-26 17:38:50 6854

原创 Docker | 使用Docker创建自定义镜像封装人工智能项目和环境

使用Docker创建自定义镜像封装人工智能项目和环境图文详解~

2023-12-20 15:38:04 1236

原创 Docker | 将自己的docker镜像推送到docker hub[图文详情]

本文主要在Docker Hub上上传自己的镜像，可以按照以下图文步骤进行操作~

2023-12-20 15:12:27 4054

原创 Python | Flask测试:发送post请求的接口测试

本文对于post发送数据进行详细解读及人工智能实例。

2023-12-19 14:18:55 3067

原创生成模型 | 三维重建(3D reconstruction)调研及总结【20231219更新版】

本文是关于三维重建的论文调研，主要集中于基于图片到3d的模型~

2023-12-19 13:47:02 1649

原创 TTS | 2019~2023年最新增强/生成情绪的语音合成调研(20231211更新版)

本博客主要是增强/生成情绪的语音合成调研，论文按照时间顺序排列，

2023-12-11 14:16:32 2752

原创 TTS | emotional-vits情绪语音合成的实现

本文主要介绍了情绪语音合成项目训练自己的数据集的实现过程~

2023-12-10 15:46:00 1675 1

原创实用篇 | 3D建模中Blender软件的下载及使用[图文详情]

本文基于数字人系列的3D建模工具Blender软件的安装及使用，还介绍了图片生成3D模型的AI工具~

2023-12-10 14:15:41 3714

原创生成模型 | 数字人类的三维重建(3D reconstruction)调研及总结【20240222更新版】

本文主要集中于图片到三维重建的算法模型的调研，其中包含人体重建，人脸重建等，博客主要集中于数字人建模的基本方法论文以及算法发展类~ 不定时更新~

2023-12-10 12:08:15 1876

原创 TTS | NaturalSpeech2语音合成论文详解及项目实现

本文主要讲解了微软在2023年4月发表的NaturalSpeech2语音合成论文及项目相关~

2023-12-08 09:58:47 2137 1

原创实用篇 | 一文快速构建人工智能前端展示streamlit应用

本文主要描述了streamlit,看完本文可快速建立自己的项目app~

2023-12-08 09:43:51 9760

原创赶超GPT-4性能，谷歌最新多模态Gemini发布

Google Gemini 是 Google 正在推出的一套新的生成式 AI 服务，专门针对有兴趣扩展其 AI 服务的企业。它是由 Google DeepMind 项目创建的一系列多模态 AI 模型（我们将在下面详细介绍）。在一份技术报告中，Gemini 表示它超越了现存最强大的基础模型 GPT-4，并表明它不仅在文本生成方面领先，而且在多模态识别和处理方面也处于领先地位。

2023-12-07 12:58:02 966 1