自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(207)
  • 收藏
  • 关注

原创 几何图神经网络GNN:数据结构、模型与应用

本文重点在于几何图神经网络(GNNs)的方法和应用。介绍了必要的预备知识、几何GNNs作为通用数据结构在现实世界数据和模型之间的桥梁,以及现有的模型分类和成功应用。提供了全面的概述,包括数据结构、模型设计和应用,构成一个完整的输入-输出管道,对机器学习从业人员在各种科学任务上使用几何GNNs具有指导意义。同时讨论了未来前景和有趣的研究方向,并发布了相关资源。图1 几何图神经网络与传统方法在分子性质预测、蛋白质-配体对接和抗体设计方面的性能比较。图2 数据结构、模型到应用的全流程示例。

2024-08-16 12:07:33 342

原创 专补大模型短板的RAG有哪些新进展?这篇综述讲明白了

同济大学王昊奋研究员团队联合复旦大学熊赟教授团队发布检索增强生成(RAG)综述,从核心范式,关键技术到未来发展趋势对 RAG 进行了全面梳理。这份工作为研究人员绘制了一幅清晰的 RAG 技术发展蓝图,指出了未来的研究探索方向。同时,为开发者提供了参考,帮助辨识不同技术的优缺点,并指导如何在多样化的应用场景中最有效地利用这些技术。大型语言模型(LLMs)已经成为我们生活和工作的一部分,它们以惊人的多功能性和智能化改变了我们与信息的互动方式。然而,尽管它们的能力令人印象深刻,但它们并非无懈可击。

2024-08-16 12:03:57 442

原创 LangChain之数据库操作:通过链Chain和代理Agent查询数据库信息

可以自定义所使用的prompt提示模板,这是使用官方的一个prompt示例# 导入langchain的实用工具和相关的模块# 连接到demo数据库# 创建LLM# 创建一个生成 SQL 查询的链# 运行查询问题response = db_chain.invoke("总共有多少用户?")response = db_chain.invoke({"query": "哪个用户的年龄最大?"})response = db_chain.invoke({"query": "所有用户的金额合计是多少?"})

2024-08-15 11:12:33 277

原创 给大家推荐一本get新技能的书籍,人人都可动手做AI Agent基础入门!!!

代理”这个词在AI出现之前就有了,哲学家们研究过它。像亚里士多德和大卫·休谟这样的大思想家都讨论过代理的概念,他们认为只要能自己做决定,不管是人、动物还是别的东西,都能称作代理。到了20世纪80年代,AI的研究者也开始关注这个概念了。目前,我们倾向于把所有能够感知环境、做出决策并采取行动的实体或系统视为人工智能领域的代理。而AI Agent,即人工智能代理,被定义为一个能够自主执行任务、做出决策并与环境交互的系统。

2024-08-15 11:08:23 932

原创 大模型强化学习实操——如何训练一个自己偏好的大模型(附代码)

在介绍原理前,我们来再次回顾一下一个类似于chatGPT这样大模型的训练流程。

2024-08-15 09:15:00 568

原创 字节大模型面经——超细节大模型训练与微调实操经验总结

本篇主要从训练数据预处理、模型结构、训练参数设置与错误处理四大角度比较细节地分享大模型微调经验。大模型的训练和微调过程相对于以前NLP中fine-tuning模式存在一些新的坑,并且做一些简单的消融实验相对于以前的模式试错成本也更高;此外目前很多算法工程师更多精力都放在了处理数据上, 工作之余很难有精力去做探索实验。所以小伙伴们在实践前可以多看看一些通用的实践经验,带着一些先验知识去探索,尽量规避自己陷入一些无意义的坑中。本篇将开启一个新系列,尽量细节的讲讲大模型中训练和微调的经验。本篇主要从。

2024-08-14 11:48:56 762

原创 字节跳动:万卡训练大模型集群技术

字节跳动联合北京大学的研究团队发表了一篇论文《MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUs》,提出一个用于训练大语言模型的生产系统MegaScale,解决在万卡集群上训练大模型时面临的效率和稳定性挑战。该论文介绍了MegaScale的设计、实现和部署。此外,文中还提到了万卡以上的集群规模遇到的问题及其解决方案。本文将简单翻译部分内容。1大模型时代,算力就是生产力。

2024-08-14 11:47:10 877

原创 Transformer在量化投资中的应用

我们采用logistic回归、支持向量机和带有注意力机制的编码器等不同模型,对各资产下周的超额收益进行。

2024-08-13 11:46:25 615

原创 一文搞懂Transformer架构的三种注意力机制

当人类的视觉机制察觉到一个物体时,通常不会从头到尾地扫视整个场景;一般会根据个人的需求集中关注特定的部分。比如下面这张图,我们第一眼应该是看到一只动物,然后,眼睛会先注意到动物的脸,然后得出初步结论,这应该是一只狼;就像右边注意力图所示,颜色更深的部分表示一般是我们人类最先看见(注意)的。注意力最早应用在机器视觉领域(CV,Computer Vision),后来才应用到NLP和LLM领域。多头(2头)自注意力可视化:

2024-08-13 11:44:57 1075

原创 干货分享!如何评估 大型语言模型(LLMs)的输出质量?评估方法大盘点!

本文探讨了评估LLM输出结果的一些技术,从人工评估到自动化评估。其中:一方面,自动化评估的时间成本效率更高,在某些情况下是非常实用的选择,例如在早期原型设计阶段。另一方面,人工评估仍然是获得模型应用准确性和实用性最强评估标准。每种评估方法都有其优点以及潜在缺陷,这个也要根据具体任务具体分析。​。

2024-08-12 13:42:49 972

原创 剑桥 | 提出Hypernetwork,解耦LLMs分词器(Tokenizer),提高LLMs跨语言处理性能!

语言模型(LM)通常依赖于分词器将文本映射为token序列。针对不同任务场景,大多数LM都会用到子词级、字节级、字符级等分词器。此类模型有一个共同的问题,那就是。

2024-08-12 13:41:15 666

原创 AI编码无需人类插手!Claude工程师摔断右手,竟一周狂肝3000行代码

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。巧合的是,Cognition AI的总裁Russell Kaplan昨天也发表了长推,预测在AI越来越擅长写代码的时代,软件工程行业将如何发展。

2024-08-10 11:49:38 251

原创 产品经理面试的技能:掌握产品经理的技能,提高自己的竞争力

产品经理是一种独特的职业,它需要结合技术、市场和用户的需求,为用户提供最佳的产品解决方案。在面试过程中,产品经理需要展示出自己在技术、市场和用户需求方面的熟练程度,以及如何将这些方面的知识融合到产品开发过程中。

2024-08-10 11:45:39 1542

原创 大模型分不清 9.9 与 9.11 谁大,那 Embedding 模型呢?

这是我在维也纳举行的 ICML 会议上被问到的问题。在茶歇期间,一位 Jina 用户向我提出了一个 LLM 社区最近热议的问题。他问我们 Jina Embedding 模型能不能判断 9.11 比 9.9 更小,很多大模型在这个小问题上栽了跟头。我说:“说实话,我也不确定。” 他接着详细阐述了这个问题对于他研究的重要性,并暗示:Tokenizer 可能是问题的根源,我若有所思点点头,脑海里开始构思如何用实验来找到答案。

2024-08-09 10:48:37 735

原创 Embedding空间中的时序异常检测

通过实验,验证了该算法的有效性,但在后续的工程化应用中,还需要结合具体的应用场景进行适当的调整。比如采样点的数量、采样点的选取方法、样本Embedding方法、距离计算方法等。此外,在实践中,若要发挥出异常检测的真正价值,还需要考虑以下问题:检测到异常后,如何快速定位到异常样本;异常样本定位后,如何快速度评估分析,确定异常是否需要进一步处理;若需要进一步处理,如何快速定位到异常样本来源特征,制定出相应的攻防策略等。​。

2024-08-09 10:47:44 986

原创 不需要网络/不需要显卡,手把手教大家本地部署GPT

GPT4All是一个开源的本地运行的GPT模型,它不需要网络,只借助硬件来实现,而且对硬件要求不高,就算你的电脑没有显卡也可以使用CPU运行。网址如下,官网提供三种系统的客户端把官网拉到最下面会发现有很多已经训练好的模型。这里的每个模型都有介绍和硬件要求(运行内存大小),这里我比较推荐mistral模型和wizardlm模型,mistral模型比较通用,wizardlm模型可以输出很长的内容并且由北京大学参与训练,所以对中文支持更好!

2024-08-08 11:36:24 584

原创 本地部署huggingface模型,建立自己的翻译应用

过去,我们使用翻译接口时,往往都是使用百度等的接口,每天有一定量的免费额度。今天为大家介绍一个可以进行翻译的模型,具备英译中、中译英的能力。并且在这个过程中,向大家介绍一个如何在本地部署模型。在之前的”五天入门RAG“中,我们介绍过如何线上运行,但这是需要网络条件的,当你不具备时,可以在本地安装使用。这个模型就是Helsinki-NLP/opus-mt-zh-en和Helsinki-NLP/opus-mt-en-zh。在后面,我们会再带大家体验具备语音翻译,转录的模型SeamlessM4T。

2024-08-08 11:33:36 1010

原创 你的大模型为什么训不快?大模型预训练技术精要

大模型训练用时可以拆解成两方面:一个是模型运行时间,这部分要想快就需要买更好的机器,研究fused kernel来加速,一般时间周期长,难度高,这部分后面文章会有专门讨论。第二部分是通讯时间,大模型训练过程中需要不断从其他GPU,其他节点收集梯度信息更新模型。千万不可小看第二部分通讯时间,笔者在默认设置下在自己环境上跑大模型并行,发现通讯时间竟然高达90%,模型训练异常低效,优化后占比降低到20%左右,显著提升了模型训练效率,并且吞吐率到能对齐甚至略高于llama2官方的吞吐率。

2024-08-07 11:58:14 1319

原创 前沿探索 | 让大语言模型更聪明!引入经验笔记本提升解决问题的能力

比如,对于高中生而言,他们可能会将错题和重要知识点记录在错题本中,并在考试前(最好是考试时)翻阅这本笔记来利用过去积累的经验帮助解题。基于这一类比,有研究者提出了一种自动化框架,名为。

2024-08-07 11:55:27 590

原创 Llama3.1是AI界的Linux?先部署起来再说!

就在今天,Meta 发布了Llama 3.1,这次带来的中杯、大杯和超大杯3个版本。从纸面数据来看,Llama 3.1超大杯已经能跟GPT-4 Omni分庭抗礼了。而中杯和大杯更是将同量级的对手摁在地上摩擦。要知道,Llama的对手可是闭源模型啊工友们!小扎同志说,开源AI会成为行业的标准,就像Linux一样!不管怎么说,既然你开源了,那我就在本地部署起来吧。本文使用Ollama在本地运行大语言模型,它不止能运行Llama 3.1,还支持阿里的qwen2等开源模型。同时借助OpenWebUI。

2024-08-06 11:28:17 837

原创 基于中文金融知识的 LLaMA 系微调模型的智能问答系统:LLaMA大模型训练微调推理等详细教学

基于 LLaMA 系基模型经过中文金融知识指令精调/指令微调(Instruct-tuning) 的微调模型。通过中文金融公开问答数据+爬取的金融问答数据构建指令数据集,并在此基础上对 LLaMA 系模型进行了指令微调,提高了 LLaMA 在金融领域的问答效果。基于已有数据和继续爬取的中文金融数据,将继续利用 GPT3.5/4.0 API 构建高质量的数据集,另在中文知识图谱-金融、CFLEB 金融数据集等数据上进一步扩充高质量指令数据集。

2024-08-06 11:24:30 1156

原创 别再被AI忽悠了!手把手教你写出杀手级Prompt

是不是觉得和ChatGPT聊天像是在和外星人交流?别担心,今天我就教你如何驯服这些硅基生物。掌握了这些技巧,你就能让AI乖乖听话,为你创作。\1. 搞清楚你到底想要什么首先,别像无头苍蝇一样乱撞。停下来想想:你究竟想让AI帮你干嘛?写封邮件?生成一份报告?还是解决世界和平?先把你的目的想清楚,这样才能更好地使用AI。\2. 让AI成为你的私人Prompt创造机\3. 别怕麻烦AI,问到它怀疑人生记住,AI不会累,但你可能会。所以,尽情地问问题,让它解释,再问,再解释。

2024-08-05 14:30:58 784

原创 COZE应用的灵魂,90+高质量prompt,一次带走

1、首先我们得搞清楚prompt的本质是什么?我认为prompt就是。

2024-08-05 14:28:51 621

原创 Spring AI 接入OpenAI实现同步和流式对话

本篇文章主要讲解OpenAI Key的获取方法,并实践了如何快速接入OpenAI大模型完成同步和流式对话功能,Spring AI框架目前已经支持多种大模型的接入,比如微软的Azure OpenAI,清华智普ChatGLB等。大家可以根据自己的需求进行选择大模型。后续文章我们会继续以OpenAI大模型为基础完成相关功能的实践,主要从以下几个方面进行;Spring AI 框架使用到的一些AI概念,让大家更深入理解Spring AI框架的实现原理。

2024-08-03 09:45:00 786

原创 直观易用的大模型开发框架LangChain,你会了没?

LangChain 作为一个大语言模型(LLM)集成框架,旨在简化使用大语言模型的开发过程,包括如下组件:LangChain框架优点:1.多模型支持:LangChain 支持多种流行的预训练语言模型,如 OpenAI GPT-3、Hugging Face Transformers 等,为用户提供了广泛的选择。2.易于集成:LangChain 提供了简单直观的API,可以轻松集成到现有的项目和工作流中,无需深入了解底层模型细节。3.强大的工具和组件。

2024-08-02 16:19:00 939

原创 多模态大模型面对误导性问题:看懂图片也会答错,一骗就中招_大模型都会回答错误的数学问题

本研究深入探讨了多模态大语言模型(MLLMs)在准确解读视觉内容并应对负面问题时面临的挑战。我们发现,尽管MLLMs展示出对视觉内容细致的理解,但在面对负面问题时往往会出现不准确的答案。为了量化评估MLLMs的表现,我们引入了MMR评估框架,旨在全面衡量其对视觉内容的理解和抗负面问题的鲁棒性。同时,我们提出了一种数据构建方法,并引入了高质量的微调数据,以提升MLLMs的鲁棒性和理解能力。这项研究强调了改进评估方法和数据策略对于推动 MLLMs 在实际应用中性能提升的重要性。

2024-08-01 10:58:18 741

原创 LLM大模型:Tree-RAG工作流程及实体树应用介绍

这项研究结合了检索增强生成(RAG)和微调技术。同时,使用在本地部署的开源模型来解决数据隐私问题,。此外,通过spaCy框架使用实体进行实体搜索和上下文生成也很有趣。通过这种方式,T-RAG能够在提供准确和相关响应的同时,保持对上下文的敏感性和对组织内部结构的理解。这种结合检索、生成和实体检测的方法,为构建高效、可靠的问答系统提供了一种有效的解决方案。​。

2024-08-01 10:56:42 1091

原创 基于分层自监督学习将视觉Transformer扩展到千兆像素图像

1对于计算病理学中的千兆像素全玻片成像 (WSI),WSI在20倍放大倍率下可大至150000×150000像素,并在不同分辨率下呈现视觉标记的层次结构:从捕获单个细胞的16×16图像到4096×4096图像表征组织微环境内的相互作用。研究者引入了一种新的ViT架构,称为(HIPT),它利用WSI中固有的自然分层结构,使用两个级别的自监督学习来学习高分辨率图像表示。HIPT使用10,678千兆像素WSI、408,218 4096×4096图像和104M 256×256图像对33种癌症类型进行了预训练。

2024-07-31 17:11:46 325

原创 使用Pytorch从零实现Transformer模型

2017年Google在论文《Attention is All You Need》中提出了Transformer模型,并成功应用到NLP领域。该模型完全基于自注意力机制Attention mechanism实现,弥补了传统的RNN模型的不足。本文笔者将详解使用Pytorch从零开始逐步实现Transformer模型。

2024-07-31 17:08:36 856

原创 值得细读的8个视觉大模型生成式预训练方法

大语言模型的进展催生出了ChatGPT这样的应用,让大家对“第四次工业革命”和“AGI”的来临有了一些期待,也作为部分原因共同造就了美股2023年的繁荣。LLM和视觉的结合也越来越多:比如把LLM作为一种通用的接口,把视觉特征序列作为文本序列的PrefixToken,一起作为LLM的输入,得到图片或者视频的caption;也有把LLM和图片生成模型、视频生成模型结合的工作,以更好控制生成的内容。

2024-07-30 10:40:52 593

原创 大语言模型从零开始训练全面指南:预训练、Tokenizer训练、指令微调、奖励模型、强化学习

在这篇文章中,我们将尽可能详细地梳理一个完整的 LLM 训练流程。包括模型预训练(Pretrain)、Tokenizer 训练、指令微调(Instruction Tuning)、奖励模型(Reward Model)和强化学习(RLHF)等环节。

2024-07-30 10:39:03 1263

原创 一位美国的PM分享:AI产品经理的10大技能

从传统角度来看,一款成功的产品需要拥有稳定的功能,至少要满足甚至超出用户的期望,并且能够为业务的增长作出重大贡献。产品经理的主要职责包括设定和管理用户期望,定期收集可量化的反馈信息,严格地与工程师进行沟通,并确保产品能够应对业务和市场的不断变化。AI 产品相比传统产品来说则有很大的不同。比如,在我担任产品经理的时候,交付让客户感到满意的“确定性”产品是衡量成功的标准。只要标准一样,那么硬件产品的产出结果也几乎一样。同样的,相同的用户预期使得软件产品形态也不会有太大差异。但是 ,

2024-07-29 10:53:19 355

原创 AI产品经理的35岁危机

比如在Hoffman首次创业时,他的父母为他留了一间房间,万一创业失败,Hoffman就可以住在那里,重新找一份工作。比如前面那位A君,通过写畅销书,构建起了自己的B方案:专业培训师。当发现自己的身体,因为互联网巨大的工作强度,开始出现问题时,他果断把B方案转化成了A方案。当他开始全职从事专业培训师的工作,不久又运营了一个专业平台,在我看来那是他新的B方案。其实,只要我们构建好差异化优势,持续迭代,同时准备好自己的ABZ方案,那么就一定可以轻松飞跃35岁危机。

2024-07-29 10:50:47 1366

原创 大模型应用的10种架构模式

在塑造新领域的过程中,我们往往依赖于一些经过实践验证的策略、方法和模式。这种观念对于软件工程领域的专业人士来说,已经司空见惯,设计模式已成为程序员们的重要技能。然而,当我们转向大模型应用和人工智能领域,情况可能会有所不同。面对新兴技术,例如生成式AI,我们尚缺乏成熟的设计模式来支撑这些解决方案。作为一位老码农,我在这里整理总结了一些针对大模型应用的设计方法和架构模式,试图应对和解决大模型应用实现中的一些挑战,如成本问题、延迟问题以及生成的不准确性等。

2024-07-28 09:30:00 1283

原创 开源教程「动手学大模型应用开发」,从零基础到掌握大模型开发的关键技能!

动手学大模型应用开发」是一个面向小白开发者的大模型应用开发教程,以个人知识库助手项目为实践目标,通过这个项目完成大模型开发的重点入门。

2024-07-27 10:59:08 315

原创 提升你的LLM应用技能:大模型黑书,内行人推荐的火爆手册!

TransformerTransformer 是工业化、同质化的后深度学习模型,其设计目标是能够在高性能计算机(超级计算机)上以并行方式进行计算。通过同质化,一个Transformer 模型可以执行各种任务,而不需要微调。Transformer 使用数十亿参数在数十亿条原始未标注数据上进行自监督学习。这些后深度学习架构称为基础模型。基础模型Transformer 是始于 2015年的第四次工业革命的一部分(通过机器-机器自动化将万物互联)。

2024-07-27 10:47:40 785

原创 面向开发者的LLM入门教程系列之提示词工程(3)

对于我们大部分的用户来说,从头到尾的学习、开发、训练LLM不太现实,一是学习成本很高,二是经济成本也很高。但是我们可以学习怎么使用LLM来提高我们的生产力,以及基于LLM来开发我们自己的应用。在学习中我们可以使用示例中的代码,在kimi、文心一言等国内大模型的页面上进行手动输入提示词进行验证。只要我们找到了技巧,就可以运用到我们的生活工作中,来提高我们的生产效率。在这一章中,我们将通过一个故事,引领你了解如何从产品评价和新闻文章中推导出情感和主题。

2024-07-26 12:07:54 761

原创 面向开发者的LLM入门教程系列之提示词工程(2)

本章重点讲解了在开发大语言模型应用时,采用迭代方式不断优化 Prompt 的过程。作为 Prompt 工程师,关键不是一开始就要求完美的 Prompt,而是掌握有效的 Prompt 开发流程。具体来说,首先编写初版 Prompt,然后通过多轮调整逐步改进,直到生成了满意的结果。对于更复杂的应用,可以在多个样本上进行迭代训练,评估 Prompt 的平均表现。在应用较为成熟后,才需要采用在多个样本集上评估 Prompt 性能的方式来进行细致优化。因为这需要较高的计算资源。

2024-07-26 11:33:57 1124

原创 面向开发者的LLM入门教程系列之提示词工程(1)

是入门 LLM 开发的第一步。对于想要入门 LLM 的开发者,你需要充分掌握本部分的 Prompt Engineering 技巧,并能基于上述技巧实现个性化定制功能。本部分的主要内容包括:书写 Prompt 的原则与技巧;文本总结(如总结用户评论);文本推断(如情感分类、主题提取);文本转换(如翻译、自动纠错);扩展(如书写邮件)等。第一章 简介欢迎来到。

2024-07-25 12:10:34 1281

原创 强推一本大模型好书《大模型应用开发极简入门:基于GPT-4和ChatGPT》

先让我们细细看看这本书有哪些特别之处(因为本书封面上是一种很特别的动物——刺蛇尾,本书别名「蛇尾书」)。

2024-07-25 11:59:57 833

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除