AI程序猿人-CSDN博客

原创几何图神经网络GNN：数据结构、模型与应用

本文重点在于几何图神经网络（GNNs）的方法和应用。介绍了必要的预备知识、几何GNNs作为通用数据结构在现实世界数据和模型之间的桥梁，以及现有的模型分类和成功应用。提供了全面的概述，包括数据结构、模型设计和应用，构成一个完整的输入-输出管道，对机器学习从业人员在各种科学任务上使用几何GNNs具有指导意义。同时讨论了未来前景和有趣的研究方向，并发布了相关资源。图1 几何图神经网络与传统方法在分子性质预测、蛋白质-配体对接和抗体设计方面的性能比较。图2 数据结构、模型到应用的全流程示例。

2024-08-16 12:07:33 342

原创专补大模型短板的RAG有哪些新进展？这篇综述讲明白了

同济大学王昊奋研究员团队联合复旦大学熊赟教授团队发布检索增强生成（RAG）综述，从核心范式，关键技术到未来发展趋势对 RAG 进行了全面梳理。这份工作为研究人员绘制了一幅清晰的 RAG 技术发展蓝图，指出了未来的研究探索方向。同时，为开发者提供了参考，帮助辨识不同技术的优缺点，并指导如何在多样化的应用场景中最有效地利用这些技术。大型语言模型（LLMs）已经成为我们生活和工作的一部分，它们以惊人的多功能性和智能化改变了我们与信息的互动方式。然而，尽管它们的能力令人印象深刻，但它们并非无懈可击。

2024-08-16 12:03:57 442

原创 LangChain之数据库操作：通过链Chain和代理Agent查询数据库信息

可以自定义所使用的prompt提示模板，这是使用官方的一个prompt示例# 导入langchain的实用工具和相关的模块# 连接到demo数据库# 创建LLM# 创建一个生成 SQL 查询的链# 运行查询问题response = db_chain.invoke("总共有多少用户？")response = db_chain.invoke({"query": "哪个用户的年龄最大？"})response = db_chain.invoke({"query": "所有用户的金额合计是多少？"})

2024-08-15 11:12:33 277

原创给大家推荐一本get新技能的书籍，人人都可动手做AI Agent基础入门！！！

代理”这个词在AI出现之前就有了，哲学家们研究过它。像亚里士多德和大卫·休谟这样的大思想家都讨论过代理的概念，他们认为只要能自己做决定，不管是人、动物还是别的东西，都能称作代理。到了20世纪80年代，AI的研究者也开始关注这个概念了。目前，我们倾向于把所有能够感知环境、做出决策并采取行动的实体或系统视为人工智能领域的代理。而AI Agent，即人工智能代理，被定义为一个能够自主执行任务、做出决策并与环境交互的系统。

2024-08-15 11:08:23 932

原创大模型强化学习实操——如何训练一个自己偏好的大模型（附代码）

在介绍原理前，我们来再次回顾一下一个类似于chatGPT这样大模型的训练流程。

2024-08-15 09:15:00 568

原创字节大模型面经——超细节大模型训练与微调实操经验总结

本篇主要从训练数据预处理、模型结构、训练参数设置与错误处理四大角度比较细节地分享大模型微调经验。大模型的训练和微调过程相对于以前NLP中fine-tuning模式存在一些新的坑，并且做一些简单的消融实验相对于以前的模式试错成本也更高；此外目前很多算法工程师更多精力都放在了处理数据上，工作之余很难有精力去做探索实验。所以小伙伴们在实践前可以多看看一些通用的实践经验，带着一些先验知识去探索，尽量规避自己陷入一些无意义的坑中。本篇将开启一个新系列，尽量细节的讲讲大模型中训练和微调的经验。本篇主要从。

2024-08-14 11:48:56 762

原创字节跳动：万卡训练大模型集群技术

字节跳动联合北京大学的研究团队发表了一篇论文《MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUs》，提出一个用于训练大语言模型的生产系统MegaScale，解决在万卡集群上训练大模型时面临的效率和稳定性挑战。该论文介绍了MegaScale的设计、实现和部署。此外，文中还提到了万卡以上的集群规模遇到的问题及其解决方案。本文将简单翻译部分内容。1大模型时代，算力就是生产力。

2024-08-14 11:47:10 877

原创 Transformer在量化投资中的应用

我们采用logistic回归、支持向量机和带有注意力机制的编码器等不同模型，对各资产下周的超额收益进行。

2024-08-13 11:46:25 615

原创一文搞懂Transformer架构的三种注意力机制

当人类的视觉机制察觉到一个物体时，通常不会从头到尾地扫视整个场景；一般会根据个人的需求集中关注特定的部分。比如下面这张图，我们第一眼应该是看到一只动物，然后，眼睛会先注意到动物的脸，然后得出初步结论，这应该是一只狼；就像右边注意力图所示，颜色更深的部分表示一般是我们人类最先看见（注意）的。注意力最早应用在机器视觉领域（CV，Computer Vision），后来才应用到NLP和LLM领域。多头（2头）自注意力可视化：

2024-08-13 11:44:57 1075

原创干货分享！如何评估大型语言模型（LLMs）的输出质量？评估方法大盘点！

本文探讨了评估LLM输出结果的一些技术，从人工评估到自动化评估。其中：一方面，自动化评估的时间成本效率更高，在某些情况下是非常实用的选择，例如在早期原型设计阶段。另一方面，人工评估仍然是获得模型应用准确性和实用性最强评估标准。每种评估方法都有其优点以及潜在缺陷，这个也要根据具体任务具体分析。。

2024-08-12 13:42:49 972

原创剑桥 | 提出Hypernetwork，解耦LLMs分词器(Tokenizer)，提高LLMs跨语言处理性能！

语言模型（LM）通常依赖于分词器将文本映射为token序列。针对不同任务场景，大多数LM都会用到子词级、字节级、字符级等分词器。此类模型有一个共同的问题，那就是。

2024-08-12 13:41:15 666

原创 AI编码无需人类插手！Claude工程师摔断右手，竟一周狂肝3000行代码

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。巧合的是，Cognition AI的总裁Russell Kaplan昨天也发表了长推，预测在AI越来越擅长写代码的时代，软件工程行业将如何发展。

2024-08-10 11:49:38 251

原创产品经理面试的技能：掌握产品经理的技能，提高自己的竞争力

产品经理是一种独特的职业，它需要结合技术、市场和用户的需求，为用户提供最佳的产品解决方案。在面试过程中，产品经理需要展示出自己在技术、市场和用户需求方面的熟练程度，以及如何将这些方面的知识融合到产品开发过程中。

2024-08-10 11:45:39 1542

原创大模型分不清 9.9 与 9.11 谁大，那 Embedding 模型呢？

这是我在维也纳举行的 ICML 会议上被问到的问题。在茶歇期间，一位 Jina 用户向我提出了一个 LLM 社区最近热议的问题。他问我们 Jina Embedding 模型能不能判断 9.11 比 9.9 更小，很多大模型在这个小问题上栽了跟头。我说：“说实话，我也不确定。” 他接着详细阐述了这个问题对于他研究的重要性，并暗示：Tokenizer 可能是问题的根源，我若有所思点点头，脑海里开始构思如何用实验来找到答案。

2024-08-09 10:48:37 735

原创 Embedding空间中的时序异常检测

通过实验，验证了该算法的有效性，但在后续的工程化应用中，还需要结合具体的应用场景进行适当的调整。比如采样点的数量、采样点的选取方法、样本Embedding方法、距离计算方法等。此外，在实践中，若要发挥出异常检测的真正价值，还需要考虑以下问题：检测到异常后，如何快速定位到异常样本；异常样本定位后，如何快速度评估分析，确定异常是否需要进一步处理；若需要进一步处理，如何快速定位到异常样本来源特征，制定出相应的攻防策略等。。

2024-08-09 10:47:44 986

原创不需要网络/不需要显卡，手把手教大家本地部署GPT

GPT4All是一个开源的本地运行的GPT模型，它不需要网络，只借助硬件来实现，而且对硬件要求不高，就算你的电脑没有显卡也可以使用CPU运行。网址如下，官网提供三种系统的客户端把官网拉到最下面会发现有很多已经训练好的模型。这里的每个模型都有介绍和硬件要求（运行内存大小），这里我比较推荐mistral模型和wizardlm模型，mistral模型比较通用，wizardlm模型可以输出很长的内容并且由北京大学参与训练，所以对中文支持更好！

2024-08-08 11:36:24 584

原创本地部署huggingface模型，建立自己的翻译应用

过去，我们使用翻译接口时，往往都是使用百度等的接口，每天有一定量的免费额度。今天为大家介绍一个可以进行翻译的模型，具备英译中、中译英的能力。并且在这个过程中，向大家介绍一个如何在本地部署模型。在之前的”五天入门RAG“中，我们介绍过如何线上运行，但这是需要网络条件的，当你不具备时，可以在本地安装使用。这个模型就是Helsinki-NLP/opus-mt-zh-en和Helsinki-NLP/opus-mt-en-zh。在后面，我们会再带大家体验具备语音翻译，转录的模型SeamlessM4T。

2024-08-08 11:33:36 1010

原创你的大模型为什么训不快？大模型预训练技术精要

大模型训练用时可以拆解成两方面：一个是模型运行时间，这部分要想快就需要买更好的机器，研究fused kernel来加速，一般时间周期长，难度高，这部分后面文章会有专门讨论。第二部分是通讯时间，大模型训练过程中需要不断从其他GPU，其他节点收集梯度信息更新模型。千万不可小看第二部分通讯时间，笔者在默认设置下在自己环境上跑大模型并行，发现通讯时间竟然高达90%，模型训练异常低效，优化后占比降低到20%左右，显著提升了模型训练效率，并且吞吐率到能对齐甚至略高于llama2官方的吞吐率。

2024-08-07 11:58:14 1319

原创前沿探索 | 让大语言模型更聪明！引入经验笔记本提升解决问题的能力

比如，对于高中生而言，他们可能会将错题和重要知识点记录在错题本中，并在考试前（最好是考试时）翻阅这本笔记来利用过去积累的经验帮助解题。基于这一类比，有研究者提出了一种自动化框架，名为。

2024-08-07 11:55:27 590

原创 Llama3.1是AI界的Linux？先部署起来再说！

就在今天，Meta 发布了Llama 3.1，这次带来的中杯、大杯和超大杯3个版本。从纸面数据来看，Llama 3.1超大杯已经能跟GPT-4 Omni分庭抗礼了。而中杯和大杯更是将同量级的对手摁在地上摩擦。要知道，Llama的对手可是闭源模型啊工友们！小扎同志说，开源AI会成为行业的标准，就像Linux一样！不管怎么说，既然你开源了，那我就在本地部署起来吧。本文使用Ollama在本地运行大语言模型，它不止能运行Llama 3.1，还支持阿里的qwen2等开源模型。同时借助OpenWebUI。

2024-08-06 11:28:17 837

原创基于中文金融知识的 LLaMA 系微调模型的智能问答系统：LLaMA大模型训练微调推理等详细教学

基于 LLaMA 系基模型经过中文金融知识指令精调/指令微调(Instruct-tuning) 的微调模型。通过中文金融公开问答数据+爬取的金融问答数据构建指令数据集，并在此基础上对 LLaMA 系模型进行了指令微调，提高了 LLaMA 在金融领域的问答效果。基于已有数据和继续爬取的中文金融数据，将继续利用 GPT3.5/4.0 API 构建高质量的数据集，另在中文知识图谱-金融、CFLEB 金融数据集等数据上进一步扩充高质量指令数据集。

2024-08-06 11:24:30 1156

原创别再被AI忽悠了！手把手教你写出杀手级Prompt

是不是觉得和ChatGPT聊天像是在和外星人交流？别担心，今天我就教你如何驯服这些硅基生物。掌握了这些技巧，你就能让AI乖乖听话，为你创作。\1. 搞清楚你到底想要什么首先，别像无头苍蝇一样乱撞。停下来想想：你究竟想让AI帮你干嘛？写封邮件？生成一份报告？还是解决世界和平？先把你的目的想清楚，这样才能更好地使用AI。\2. 让AI成为你的私人Prompt创造机\3. 别怕麻烦AI，问到它怀疑人生记住，AI不会累，但你可能会。所以，尽情地问问题，让它解释，再问，再解释。

2024-08-05 14:30:58 784

原创 COZE应用的灵魂，90+高质量prompt，一次带走

1、首先我们得搞清楚prompt的本质是什么？我认为prompt就是。

2024-08-05 14:28:51 621

原创 Spring AI 接入OpenAI实现同步和流式对话

本篇文章主要讲解OpenAI Key的获取方法，并实践了如何快速接入OpenAI大模型完成同步和流式对话功能，Spring AI框架目前已经支持多种大模型的接入，比如微软的Azure OpenAI，清华智普ChatGLB等。大家可以根据自己的需求进行选择大模型。后续文章我们会继续以OpenAI大模型为基础完成相关功能的实践，主要从以下几个方面进行；Spring AI 框架使用到的一些AI概念，让大家更深入理解Spring AI框架的实现原理。

2024-08-03 09:45:00 786

原创直观易用的大模型开发框架LangChain，你会了没？

LangChain 作为一个大语言模型（LLM）集成框架，旨在简化使用大语言模型的开发过程，包括如下组件：LangChain框架优点：1.多模型支持：LangChain 支持多种流行的预训练语言模型，如 OpenAI GPT-3、Hugging Face Transformers 等，为用户提供了广泛的选择。2.易于集成：LangChain 提供了简单直观的API，可以轻松集成到现有的项目和工作流中，无需深入了解底层模型细节。3.强大的工具和组件。

2024-08-02 16:19:00 939

原创多模态大模型面对误导性问题：看懂图片也会答错，一骗就中招_大模型都会回答错误的数学问题

本研究深入探讨了多模态大语言模型（MLLMs）在准确解读视觉内容并应对负面问题时面临的挑战。我们发现，尽管MLLMs展示出对视觉内容细致的理解，但在面对负面问题时往往会出现不准确的答案。为了量化评估MLLMs的表现，我们引入了MMR评估框架，旨在全面衡量其对视觉内容的理解和抗负面问题的鲁棒性。同时，我们提出了一种数据构建方法，并引入了高质量的微调数据，以提升MLLMs的鲁棒性和理解能力。这项研究强调了改进评估方法和数据策略对于推动 MLLMs 在实际应用中性能提升的重要性。

2024-08-01 10:58:18 741

原创 LLM大模型：Tree-RAG工作流程及实体树应用介绍

这项研究结合了检索增强生成（RAG）和微调技术。同时，使用在本地部署的开源模型来解决数据隐私问题，。此外，通过spaCy框架使用实体进行实体搜索和上下文生成也很有趣。通过这种方式，T-RAG能够在提供准确和相关响应的同时，保持对上下文的敏感性和对组织内部结构的理解。这种结合检索、生成和实体检测的方法，为构建高效、可靠的问答系统提供了一种有效的解决方案。。

2024-08-01 10:56:42 1091

原创基于分层自监督学习将视觉Transformer扩展到千兆像素图像

1对于计算病理学中的千兆像素全玻片成像 (WSI)，WSI在20倍放大倍率下可大至150000×150000像素，并在不同分辨率下呈现视觉标记的层次结构：从捕获单个细胞的16×16图像到4096×4096图像表征组织微环境内的相互作用。研究者引入了一种新的ViT架构，称为(HIPT)，它利用WSI中固有的自然分层结构，使用两个级别的自监督学习来学习高分辨率图像表示。HIPT使用10,678千兆像素WSI、408,218 4096×4096图像和104M 256×256图像对33种癌症类型进行了预训练。

2024-07-31 17:11:46 325

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人