自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

帆的博客

小白小白

  • 博客(210)
  • 收藏
  • 关注

原创 liunx运行脚本文件sh,和window运行脚本文件命令及注意事项总结

Windows Subsystem for Linux (WSL) 允许你在Windows上运行Linux环境。脚本文件是用于在类Unix操作系统(如Linux和macOS)中运行的Shell脚本。在Windows中,你可以使用一些工具和环境来运行这些脚本。无论是通过WSL、Git Bash、Cygwin,还是直接使用PowerShell调用WSL,你都可以方便地执行这些脚本。Git Bash 是一个用于Windows的应用程序,提供了一个类似于Linux的命令行环境,可以运行。

2024-08-05 14:37:56 970

原创 什么情况下跑代码内存才会爆

当出现内存溢出时,首先要检查代码中的数据大小、模型结构、循环处理等部分,并优化批处理大小、使用生成器、减少不必要的内存拷贝或清理无用的变量。合理使用工具如psutil和来监控内存使用情况,也可以帮助预防内存爆掉的情况。

2024-08-04 20:51:00 462

原创 常见深度学习优化器总结

AdamW和Lookahead是非常值得尝试的选择,特别是在你希望获得更好的泛化能力时。适合在需要更强正则化的场景下使用。RAdam则在初期训练稳定性上有所提升。在切换优化器的同时,你也可以尝试调整学习率和正则化系数等超参数,以进一步提升模型的性能。

2024-08-04 12:14:21 510

原创 conda更换环境版本(比如torch版本)

找到想要的torch版本创建新环境。

2024-08-03 10:41:39 722

转载 torch-sparse安装教程(转载)

torch_geometric、 torch_sparse、 torch_scatter、 torch_cluster是一个大佬根据根据pytorch版本和一些bug修复持续更新的,因此依赖关系比较严重,根据发布的版本应该对应起来进行安装使用。这些是有版本区别的,对应不同的torch版本。

2024-08-02 10:56:28 122

原创 conda操作总结,pip操作总结,python包安装

【代码】conda操作总结。

2024-08-01 22:42:12 486

原创 conda 安装和wheel安装什么区别

Conda: 适用于需要多语言包管理、完整环境管理和自动解决依赖关系的场景。适合于数据科学、机器学习等需要多个语言包和环境管理的项目。: 适用于纯 Python 项目,专注于快速安装和管理 Python 包。适合于简单的 Python 项目,尤其是当你只需要管理 Python 包时。选择conda还是pip(wheel)取决于你的具体需求和项目复杂度。对于复杂的多语言项目或需要强大的环境管理功能时,conda是更好的选择;对于简单的 Python 项目,pip(wheel) 更加轻量且易于使用。

2024-08-01 17:42:27 675

原创 运行脚本文件是bash和sh的区别

bash和shshbashshbash[[ ]]<()**shbashshbashshshshbashbashbashshshshbashshbashshbash。

2024-08-01 16:56:06 621

原创 遇见过的python包总结

dreeam:ipdb:opt_einsum:ujson:

2024-08-01 15:59:18 439

原创 wget命令是干嘛的,怎么用

尽管wget是一个强大的下载工具,但在 Python 脚本中通常使用subprocess模块来调用它。如果不想依赖外部工具,可以使用requests模块来实现类似的功能。两种方法各有优劣,可以根据具体需求选择合适的方式。

2024-07-31 20:08:41 696

原创 QLoRA是干嘛的

在文档级关系抽取任务中,QLoRA(Quantized Low-Rank Adaptation)是一种用于优化和加速深度学习模型的方法,尤其在大规模语言模型的微调(fine-tuning)过程中。QLoRA通过将模型的权重进行量化和低秩分解,从而降低计算和存储的需求,同时保持模型性能。

2024-07-31 11:02:44 529

原创 深度学习网络相关代码(持续更新)

sigmoid 函数将其输入的每个元素映射到 0 和 1 之间。因此,结果数组中的每个值都被归一化到了这个范围内。这个特性使得 sigmoid 函数常用于需要输出概率值或在 0 和 1 之间进行归一化的情况。会对输入的每个元素进行操作,返回一个与输入形状相同的 tensor,其中每个元素都是对应的 sigmoid 值。库:datasets。

2024-07-28 19:04:47 233

原创 安装python包,github,本地,requirements.txt等

命令克隆仓库,或者直接从 GitHub 网站下载 ZIP 文件并解压缩。有些项目可能有特定的安装步骤。在开始安装之前,最好检查一下项目的。文件或其他文档,以确保没有遗漏任何特定的安装指引。希望这些步骤对你有帮助!如果有任何问题,请随时提问。或者,如果你希望在开发过程中进行调试,可以使用。文件,用于列出项目的依赖项。文件来管理构建配置,你可以使用。在仓库目录中通常有一个。另一种常见的方法是使用。

2024-07-27 16:39:37 498

原创 设置混合精度训练(fp16),减少 GPU 内存使用并加快训练速度

这些参数用于启用和配置混合精度训练,能够显著减少 GPU 内存使用并加快训练速度。使用这些参数时,请确保你已经安装了 NVIDIA Apex 库,并在训练代码中正确初始化 AMP。

2024-07-27 14:03:22 581

原创 Tensor内存布局问题,view,reshape的优缺点

在你的情况下,当你对logits和label进行view操作时,可能会因为这些张量是非连续的而导致错误。使用reshape操作可以避免这种问题,因为它会自动处理内存布局问题,确保操作成功。

2024-07-27 11:27:23 336

原创 爱因斯坦求和约定torch.einsum

是中使用的爱因斯坦求和约定,它描述了多个张量之间的元素操作方式,并生成新的张量。xyzbbatch_sizehthcnum_labelsxyzproto_dim下面是einsum的形状是[x, y, z]xyproto_dimzent_head的形状是bbatch_sizehtxproto的形状是[b, c, y]bbatch_sizecnum_labelsyproto_diment_tail的形状是bbatch_sizehtzeinsum。

2024-07-26 16:44:27 392

原创 深度学习处理数据中维度变换操作手册

好的,我们可以通过具体数字来更清楚地了解维度变换。

2024-07-26 16:07:21 318

原创 os.environ[‘CUDA_VISIBLE_DEVICES‘] = ‘2‘或者export CUDA_VISIBLE_DEVICES=2

这段代码用于设置环境变量,以指定在当前程序中可见的CUDA设备。具体来说,这段代码将CUDA设备的可见性限制为设备索引为2的GPU。此环境变量指的是python运行中的环境变量,每次更新。

2024-07-26 10:33:03 471

原创 python类里边__init__和def forward()传递参数的不同

首先,定义一个简单的神经网络层。在这个例子中,我们定义一个只有一个线性层的神经网络。# 定义线性层# 前向传播定义层时传递的参数用于初始化层的结构和权重,而在前向传播中传递的参数是输入数据。两者的参数不同,是因为它们在神经网络训练和推理过程中承担了不同的角色。

2024-07-26 09:28:41 234

原创 python里的assert断言

如果第一个断言条件成立,程序会继续执行而不会有任何提示。如果第二个断言条件不成立,程序会引发一个。语句来进行实际的错误处理。在生产环境中,应该使用异常处理机制来进行错误处理。语句用于调试目的,帮助检查某个条件是否为真。如果条件为假(即条件不成立),语句可能会被禁用(通过使用Python的优化标志。异常,并可以选择性地提供一个错误消息。值得注意的是,在生产环境中,异常,并显示错误消息。

2024-07-25 10:48:11 154

原创 分布式训练中的参数local_rank

local_rank是一个常用于分布式训练中的参数,用于指示当前进程的本地编号。它帮助在分布式环境中区分不同的进程。通常情况下,local_rank的值为 -1 表示不进行分布式训练,值为 0 表示第一个(主)进程,其它正数表示其它辅助进程。在分布式训练中,我们常常需要确保某些操作(例如下载模型和词汇表)只由一个进程完成,以避免重复工作和资源浪费。以下是local_rank在你的代码中,local_rank不在[-1, 0]中表示所有非主进程或非单机单卡模式的进程。

2024-07-23 19:29:50 616

原创 设置日志记录(logging)

这段代码用于设置日志记录(logging),以便在训练过程中能够记录和输出相关信息。具体包括设定日志格式、日志级别以及输出一些初始状态信息。

2024-07-23 15:40:56 396

原创 设置CUDA、GPU和分布式训练

这段代码用于设置 CUDA、GPU 和分布式训练。它会根据args的参数来确定使用的设备(CPU 或 GPU),以及是否启用分布式训练。

2024-07-23 15:19:40 473

原创 远程调试 Python 脚本

这段代码用于远程调试 Python 脚本,特别是通过 Visual Studio Code(VS Code)的远程调试功能。它会在指定的服务器 IP 和端口上等待调试器的连接。

2024-07-23 15:13:41 498

原创 随机数种子的作用

设置随机数种子(random seed)的目的是为了确保随机数生成器在每次运行时产生相同的随机数序列,从而保证实验结果的一致性。随机数种子通过初始化随机数生成器的内部状态,使得在相同的种子值下,随机数生成器每次调用时生成的序列是相同的。

2024-07-23 14:36:35 1587

原创 深度学习基础代码总结(持续更新)

enumerate 是 Python 的一个内置函数,它允许我们在遍历一个可迭代对象(例如列表)时,同时获取当前元素的索引和元素本身。

2024-07-23 13:57:00 144

原创 SSAN代码解析

函数定义功能: 加载并缓存样本数据。输入args(参数配置),tokenizer(分词器),evaluate(是否评估),predict(是否预测)。输出: 返回构建的TensorDataset对象。处理分布式训练的屏障功能: 确保只有第一个进程处理数据集,其余进程等待使用缓存。初始化处理器和加载标签映射功能: 初始化DocRED处理器并加载标签映射。根据模式加载数据集else:功能: 根据evaluate和predict标志,加载验证集、测试集或训练集的样本。将样本转换为特征。

2024-07-22 23:13:46 97

原创 DocRED数据集

train_distant.json:包含远程监督(distant supervision)数据,可能是未完全标注或自动标注的训练数据,用于增强模型的训练集。load_train_annotated_rel2num.json:包含标注过的训练集关系与数量的映射,可能用于统计训练集中关系的分布。load_train_annotated.json:包含标注过的训练集数据,是训练集中标注了实体和关系的数据。load_test_rel2num.json:包含测试集关系与数量的映射,可能用于统计测试集中关系的分布。

2024-07-22 16:02:36 508

原创 import argparse包总结

【代码】import argparse包总结。

2024-07-21 20:26:21 117

原创 huggingface上的模型权重文件的功能详解

这个文件是tokenizer配置的一部分,定义了这些特殊token的ID及其在文本处理中的具体作用。加载模型时,tokenizer会根据这个文件正确处理这些特殊token。:包含特殊token的映射信息,这些token在自然语言处理任务中有特殊作用。这些文件包含了深度学习模型的各种配置和权重信息,适用于不同的框架和用途。这些文件共同构成了一个完整的深度学习模型的配置和权重,可以在不同的框架中加载和使用这个模型。

2024-07-19 20:02:10 989

原创 运行sh脚本文件常见错误总结

试着运行这个改进后的脚本,看是否还会出现同样的错误。如果有更多的错误信息,请提供详细信息,以便进一步诊断。确保脚本文件没有以Windows换行符(CRLF)结尾,这可能导致问题。

2024-07-19 17:46:27 380

原创 服务器相关总结

查看conda版本查看当前conda的配置文件位置编辑配置文件,默认路径是~/condarc在channels字段添加新的镜像源,例如清华镜像显示所有的channel添加清华镜像源

2024-07-19 17:26:49 457

原创 DocRE-SD代码解析

【代码】DocRE-SD代码解析。

2024-07-18 19:26:52 247

转载 疑难错误(转载)总结

解决Conda报错InvalidArchiveError的几种方法

2024-07-18 16:58:17 42

转载 疑难错误(转载)总结

解决Conda报错InvalidArchiveError的几种方法

2024-07-18 15:18:57 52

原创 Can‘t detach views in-place. Use detach() instead. If you are using DistributedDataParallel (DDP) fo

这个错误信息主要是关于使用 PyTorch 的进行分布式训练时,梯度视图无法就地分离的问题。具体来说,当设置为True时,梯度实际上是 DDP 桶的视图,因此不能直接调用detach_()方法。detach()Truedetach_()一般来说,detach()方法用于创建一个新的张量,该张量与原始计算图分离,而detach_()是一个就地操作。由于在 DDP 模式下,梯度是 DDP 桶的视图,就地操作会影响这些视图,从而引发错误。

2024-07-18 14:01:00 410

原创 Document-level RE中,关键词DocRED,Re-DocRED,Dev,Test,Ign F1,F1分别都是什么意思(附代码)

DocRED是一个广泛使用的文档级关系抽取数据集,用于训练和评估模型在文档级关系抽取任务上的性能。通常指DocRED数据集的修订版,可能包含改进的数据注释或修订的标注以提高数据质量。开发集用于模型调参和验证模型性能,通常不用于最终评估。: Test set。测试集用于评估模型的最终性能,通常在模型训练和调参后使用,且其标签对模型不可见。F1分数的一种变体,计算时忽略某些不确定的预测,例如DocRED中忽略NA (Not Available)类别的预测。: F1 score。

2024-07-17 22:06:43 429

原创 SSLRec代码分析

类,用于使用网格搜索方法进行超参数调优。它遍历超参数值的组合,根据配置构建和训练模型,并管理超参数的配置和记录。

2024-07-14 16:41:14 229

原创 【总结】深度学习的神经网络层(比如Linear层等)介绍

深度学习中的神经网络由多种不同类型的层组成,每种层都有其独特的功能和用途。以下是一些常见的神经网络层的介绍和示例代码,并附带详细的注释。

2024-07-13 11:34:52 677

原创 缺少验证集怎么办

通过这种方式,即使只有训练集和测试集,我们仍然可以通过交叉验证技术来有效地评估和选择模型,尽量减少过拟合的风险。在一些情况下,只有训练集和测试集也是可以的,但是会带来一些问题和挑战。

2024-07-13 11:25:17 481

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除