自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(181)
  • 资源 (2)
  • 收藏
  • 关注

原创 数据集 | 人脸公开数据集的介绍及下载地址

本文介绍了人脸相关算法的数据集。

2024-07-06 15:20:11 1248

原创 Leetcode | 以二叉树,多叉树为主题的理论,真题以及图解【更新中】

前序(preorder traversal):从根节点开始,先访问当前节点,然后递归地遍历左子树,最后递归地遍历右子树。即“根-左-右”的顺序。中序遍历(inorder traversal):从根节点开始,先递归地遍历左子树,然后访问当前节点,最后递归地遍历右子树。即“左-根-右”的顺序。后序遍历(postorder traversal):从根节点开始,先递归地遍历左子树,然后递归地遍历右子树,最后访问当前节点。即“左-右-根”的顺序。

2024-04-26 16:59:18 738 1

原创 CV | 360BEV: Panoramic Semantic Mapping for Indoor Bird‘s-Eye View理解

这篇论文提出了一种名为360BEV的专用解决方案,用于从鸟瞰图像对室内场景进行全景语义映射。提出了一种从全景图像生成整体鸟瞰视图语义映射的方法,不依赖于窄视野图像或运动线索。提出模型360Mapper,可以从全景图像预测语义标签和非模态语义映射。所提出的方法在室内语义映射基准测试中取得了最佳性能,优于现有方法。

2024-04-26 14:00:20 1101 1

原创 Mamba:使用选择性状态空间的线性时间序列建模

Mamba可以代替transformer吗?

2024-04-19 17:15:52 1104

原创 CV | 室内语义建图(Semantic Image Segmentation)的调研

室内语义分割论文调研~

2024-04-19 14:27:30 704

原创 CV | FSGS使用高斯喷溅的实时少样本视图合成论文详解与项目实现

本文是对论文通过多角度照片3D建模:FSGS模型的详解与项目实现。

2024-04-18 17:07:40 927

原创 LLM | Gemma的初体验

一起来体验一下吧~此型号卡对应于 Gemma 型号的 7B 指令版本。

2024-03-06 16:56:08 1366

原创 LLM | GPT-NEOX论文详解

GPT-NEOX使用旋转位置编码。模型权重使用float16表示。最大序列长度为2048。论文题目:2022.04.14_GPT-NeoX-20B: An Open-Source Autoregressive Language Model。

2024-03-06 13:39:48 1563

原创 问题解决 | RuntimeError: CUDA error: invalid device ordinalCUDA kernel errors

RuntimeError(运行时错误): CUDA 错误:设备序号无效CUDA 内核错误可能会在其他 API 调用中异步报告,因此下面的堆栈跟踪可能不正确。为便于调试,可考虑通过 CUDA_LAUNCH_BLOCKING=1。使用 `TORCH_USE_CUDA_DSA` 进行编译,以启用设备端断言。

2024-03-04 13:41:36 5037

原创 CV | 医学影像上的图像分割模型调研【更新于20240417】

mamba相关的图像分割:VM-Unet,ManbaUnet,BRAUUnet,EGE。

2024-03-04 13:02:04 1705

原创 环境配置 |Jupyter lab/Jupyter Notebook 安装与设置

ipynb使用Jupyterlab/Jupyter Notebook 来编写程序时的文件,在使用时,可以现转换为标准的.py的python文件。

2024-02-29 07:35:57 3238

原创 CV | Segment Anything论文详解及代码实现

本文主要是详解解释了SAM的论文部分以及代码实现~

2024-02-16 14:27:30 1909 2

原创 YOLO | YOLO-World论文详解

腾讯出的热气腾腾的论文YOLO-World来啦~

2024-02-16 09:14:48 5366

原创 CV | Medical-SAM-Adapter论文详解及项目实现

本文主要讲解Medical-SAM-Adapter论文及项目实现~

2024-02-07 16:00:12 1908 1

原创 CV | SAM在医学影像上的模型调研【20240223更新版】

本文主要是SAM(Segment Anything)在医学影像上的数据集,模型及评估方法调研【持续更新】~

2024-02-07 12:14:16 1631

原创 实用篇 | postman在AI模型中输入speech,text,image使用详解

postman在AI模型中输入speech,text,image使用详解

2024-01-30 15:48:35 1444 2

原创 LLM | 一些开源的AI代码生成模型调研及总结【20240130更新】

本文主要介绍主流代码生成模型,总结了基于代码生成的开源大语言模型,按照时间顺序排列。

2024-01-30 09:35:20 2927

原创 RL | 强化学习算法DDPG的理论理解及代码

深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)是一种强化学习算法,主要用于解决连续动作空间的问题。

2024-01-24 16:16:25 1102

原创 Speech | 人工智能中关于语音务必需要了解的基础知识(信号处理)及代码

语音信号知识点总结!

2024-01-24 14:39:40 1174

原创 Speech | 语音克隆Openvoice的论文解读及项目实现

本文主要介绍了语音克隆Openvoice的论文以及项目实现~

2024-01-10 08:19:05 1478 1

原创 生成模型 | 2024年新年新论文:audio2photoreal[正在更新中]

本博客主要包含了20240103新出的论文From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations论文解释及项目实现~

2024-01-09 14:49:45 1259

原创 Speech | 人工智能中语音质量评估方法详解及代码

本文主要讲解人工智能中语音合成,语音转换,语音克隆等生成语音的一些质量评估方法~

2024-01-08 15:22:00 5251

原创 生成模型 | GAN系列生成系列论文及代码调研总结

本文主要讲解生成模型中的GAN系列相关模型,模型之间的差异对比~

2024-01-02 17:24:23 1193

原创 TTS | NaturalSpeech语音合成论文详解及项目实现【正在更新中】

本文主要是 讲解了NaturalSpeech论文及项目~

2024-01-02 16:07:44 1973 1

原创 模型量化 | Pytorch的模型量化基础

量化简介量化是指执行计算和存储的技术 位宽低于浮点精度的张量。量化模型 在张量上执行部分或全部操作,精度降低,而不是 全精度(浮点)值。这允许更紧凑的模型表示和 在许多硬件平台上使用高性能矢量化操作。与典型的 FP32 模型相比,PyTorch 支持 INT8 量化,模型大小减少 4 倍内存带宽减少 4 倍INT8 计算的硬件支持通常为 2 到 4 个 与 FP32 计算相比,速度快几倍量化主要是一种技术 加速推理,量化仅支持前向传递 运营商。PyTorch 支持多种量化深度学习模型的方法。

2023-12-27 09:45:22 2222

原创 Linux | 解决问题Ubuntu重启无法进入系统以及网络无法连接【图文详解】

问题解决 | Ubuntu重启无法进入系统记以及网络无法联网问题~

2023-12-26 17:38:50 6854

原创 Docker | 使用Docker创建自定义镜像封装人工智能项目和环境

使用Docker创建自定义镜像封装人工智能项目和环境图文详解~

2023-12-20 15:38:04 1236

原创 Docker | 将自己的docker镜像推送到docker hub[图文详情]

本文主要在Docker Hub上上传自己的镜像,可以按照以下图文步骤进行操作~

2023-12-20 15:12:27 4054

原创 Python | Flask测试:发送post请求的接口测试

本文对于post发送数据进行详细解读及人工智能实例。

2023-12-19 14:18:55 3067

原创 生成模型 | 三维重建(3D reconstruction)调研及总结【20231219更新版】

本文是关于三维重建的论文调研,主要集中于基于图片到3d的模型~

2023-12-19 13:47:02 1649

原创 TTS | 2019~2023年最新增强/生成情绪的语音合成调研(20231211更新版)

本博客主要是增强/生成情绪的语音合成调研,论文按照时间顺序排列,

2023-12-11 14:16:32 2752

原创 TTS | emotional-vits情绪语音合成的实现

本文主要介绍了情绪语音合成项目训练自己的数据集的实现过程~

2023-12-10 15:46:00 1675 1

原创 实用篇 | 3D建模中Blender软件的下载及使用[图文详情]

本文基于数字人系列的3D建模工具Blender软件的安装及使用,还介绍了图片生成3D模型的AI工具~

2023-12-10 14:15:41 3714

原创 生成模型 | 数字人类的三维重建(3D reconstruction)调研及总结【20240222更新版】

本文主要集中于图片到三维重建的算法模型的调研,其中包含人体重建,人脸重建等,博客主要集中于数字人建模的基本方法论文以及算法发展类~ 不定时更新~

2023-12-10 12:08:15 1876

原创 TTS | NaturalSpeech2语音合成论文详解及项目实现

本文主要讲解了微软在2023年4月发表的NaturalSpeech2语音合成论文及项目相关~

2023-12-08 09:58:47 2137 1

原创 实用篇 | 一文快速构建人工智能前端展示streamlit应用

本文主要描述了streamlit,看完本文可快速建立自己的项目app~

2023-12-08 09:43:51 9760

原创 赶超GPT-4性能,谷歌最新多模态Gemini发布

Google Gemini 是 Google 正在推出的一套新的生成式 AI 服务,专门针对有兴趣扩展其 AI 服务的企业。它是由 Google DeepMind 项目创建的一系列多模态 AI 模型(我们将在下面详细介绍)。在一份技术报告中,Gemini 表示它超越了现存最强大的基础模型 GPT-4,并表明它不仅在文本生成方面领先,而且在多模态识别和处理方面也处于领先地位。

2023-12-07 12:58:02 966 1

原创 MTTS | 多语言多人的VITS语音合成项目实现

本文主要是 讲解了PolyLangVITS的论文及项目实现~

2023-12-06 09:38:28 1985 2

原创 实用篇 | 一文学会人工智能中API的Flask编写(内含模板)

在本文中,详细描述了在编写flask api中语法及语音文本图像模版案例等~

2023-12-05 08:58:04 1511

原创 实用篇 | 利用Flask+Postman为深度学习模型进行快速测试(超详细)

利用Flask+Postman为深度学习模型进行快速测试,以及算法中的一些实例,以后会更新一些新的模板~~

2023-12-04 15:48:31 696

Emogen训练后的权重文件

Emogen训练后的权重文件,下载后可直接进行推理

2023-06-02

语音特征提取详解PPT

语音特征提取详解PPT,包含 3.1语音 预处理 3.2 短时傅里叶变换 3.3 听觉特性 3.4 线性预测 3.5 倒谱分析 3.6 常用的声学特征 3.6.1 语谱图 3.6.2 FBank 3.6.3 MFCC 3.6.4 PLP 以及总结

2023-04-10

netron.exe双击直接使用

傻瓜式操作 下载后直接使用 netron查看网络结构

2022-01-20

目标检测yolov5.6版本的压缩版

压缩后文件直接使用

2022-01-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除