夕小瑶-CSDN博客

原创刚刚！ACL2024最佳论文开奖！GloVe获时间检验奖

通过应用源自社会科学的说服分类法生成的对抗提示（PAP），能显著提高LLM越狱的成功率，在Llama 2-7b Chat、GPT-3.5和GPT-4上的攻击成功率均超过92%，优于基于算法的攻击。为填补这一空白，本文提出了首个大规模的变体NLP基准，涵盖了281种变体、涉及10个文本级任务的数据集。：研究人员提出了一个半监督的历史重建任务，只在少量标记数据和大量未标记数据上进行训练，以及一个比较重建的神经架构结合语言学家比较方法的基本见解，能够利用未标记的同源词集，在新任务上的性能优于强半监督基线。

2024-08-16 00:00:57 458

原创谷歌「Her」来啦！发布Gemini Live语音模式，现场演示两次翻车

现在，这个语音功能已经向订阅Google Advanced的用户开放测试，暂时仅支持英文交流，且只有安卓手机能优先体验。通过这些更新，Gemini将以语音助手的形式，提供更直观和对话式的体验，使其成为复杂任务的可靠伙伴。比如AI的新功能也会带来新的挑战呀，我们会继续注重于服务效率和质量呀，未来继续加油呀，等等等等。但，谷歌的发布会已经惊吓到我的小心脏了，虽然很多东西都是展望、期货，但至少Gemini Live是现在就能用的新玩意。还可以话锋一转，让Gemini把浓咖啡的原料，添加到Keep购物清单中。

2024-08-14 23:47:37 265

原创香港大学发布组合性文生视频基准，7大类20项指标，让20个大模型一决雌雄

香港大学研究团队发布的 T2V-CompBench 对 20 个文生视频大模型进行测试，其包含 7 类 700 个文本提示。结果显示，虽然商业模型整体表现较好，但所有模型在处理复杂场景时仍面临挑战。模型在动态属性绑定和生成数字方面表现欠佳，难以准确捕捉属性变化或生成正确数量的对象。同时，在处理空间关系、运动和动作绑定时也常出现混淆，显示出当前技术在复杂场景处理上的不足。研究人员可以根据 T2V-CompBench 测试结果对文生视频模型针对优化，或许有一天我们可以看到由大模型生成的电影呢。

2024-08-13 16:14:54 1022

原创排行榜断层第一！Cosine推出“最强、最接近人类”的AI程序员！

对AI写代码这件事情，大家已经不陌生了。谁还没有在写程序卡壳的时候问过AI呢？AI初创公司Cosine，宣布推出。根据第三方基准测试SWE-Bench，Genie的得分为30%，，拳打GPT4、脚踢Devin。▲SWE-Bench的测试结果。

2024-08-13 16:12:23 849

原创看了闭幕式，我觉的，除了抽象，还是抽象！和国产AI一起毒舌太快乐了…

身上粘着那些，又像尖刺又像羽毛一样的装饰品，衬托出它很努力的想变得前卫。之前开幕式上让全球观众都“陷入沉默”的“蓝精灵”、在屋顶跑酷跳跃、致敬刺客信条的神秘人，让我对闭幕式充满了期待。当然我们还是能看出来，有些AI还是非常有人情味的，即使通过prompt进行微调，它们说的话也是比较温和的。当你以为巴黎奥运会的闭幕式跟开幕式一样，还是浪漫文艺片时，这次闭幕式，浪漫的法国人民祭出了。镜头切的乱七八糟，有的运动员连一秒的镜头都没有，看得我是眼花缭乱，应接不暇。这衣品，真是一言难尽啊，就连我智商最在线的朋友。

2024-08-12 19:48:32 248

原创无比顺滑！告别TTS！贾扬清领衔的Lepton AI推出实时语音交互

这意味着开发者们可以随心所欲地挑选心仪的模型，再搭配上Lepton AI的语音黑科技，创造出既个性又高效的应用，享受“私人订制”服务。但这拼图可不是随便拼的，时间差一丁点，不是这边话音未落那边又响起来了，就是句子讲到一半突然卡了壳，尴尬得能抠出三室一厅。”，然后你就这么干等着，急不急人。到了这里，文本和语音并行处理，速度嘎嘎快，首次音频时间（TTFA）直接缩水到十分之一，自然无比顺滑。把问题往LLM（大语言模型）里一丢，等它回话，再让TTS（文本转语音）上阵，这一连串动作，听起来挺顺，实则很卡。

2024-08-08 23:23:48 520

原创玻璃心勿入，用了这个尖酸刻薄的AI智能体，博主们集体自闭！

如今，盐和胡椒粉的造型给人更多的是 "老爷爷 "的感觉，而不是 "全球领袖"。你的推文读起来就像二手车销售员写的小孩的发脾气。你只需花费一美元，并提供你想要让AI帮你分析的人的推特ID，然后由Wordware公司制作的名为“Twitter Personality（你的推特人格）”的就会开始分析该人在推特上发布的所有信息，并揭示出他们的人格特点（表面是分析人格，实则是赛博喷子啊）。先看看这个人，国内互联网圈刷推的人应该是都知道这个翻白眼的小女孩吧，小互，X上的人气很高，经常第一时间嗅的最新八卦动态。

2024-08-08 23:18:46 645

原创上海AI Lab 搭台，36个大模型一起角逐长上下文建模能力

上海AI实验室推出的NeedleBench评测框架为我们呈现了一场精彩的长文本处理能力大赛。在这场由36个大模型参与的角逐中，我们看到了令人意外的结果：被誉为AI界顶尖选手的GPT-4仅排第二，而Claude-3-Opus摘得桂冠。这一结果不仅展示了AI技术的飞速进步，也反映了长文本处理领域的激烈竞争。NeedleBench的评测结果揭示了当前AI模型在长文本处理方面的优势与挑战。虽然在单一信息检索任务中表现出色，但在涉及复杂逻辑推理的长文本任务中，即使是最先进的模型也面临显著困难。

2024-08-07 15:18:49 892

原创程序员窃喜！卡了大模型脖子的Json输出，OpenAI终于做到了100%正确

默认情况下，大模型在进行token输出时，可以在词汇表中选择任意一个词汇，作为下一个输出token。而在使用动态的约束解码技术后，大模型在下一个token输出时，便增加了一些约束，将模型限制在有效的token内，而不是所有token。很多人说，为什么非要纠结 JSON 格式的输出，我用的挺好的，啥 JSON 格式都没见过，这种要么就是用的不多，要么就不是做开发的！但很明显，93%的准确率也就意味着7%的不可靠，对于开发人员来说，不是100%的准确就是不够用的，所以OpenAI又用了第二个方法。

2024-08-07 15:16:35 1070

原创 Github 1.3K星的程序开发智能体！UIUC/CMU/耶鲁等联合发布OpenDevin技术报告

Micro Agent复用了现有通用Agent（例如CodeAct Agent）的大部分实现，它旨在降低Agent开发的门槛，用户无需编程，只需提供Agent的名称、描述、输入和输出的模式，以及可选的专门提示（例如，展示如何执行特定任务的示例），即可创建Micro Agent。预期的LLM响应将包含思维过程推理和下一个动作预测。通过这种设计，OpenDevin提供了一个强大的Agent执行环境，并确保了动作执行的可靠性和观察结果的丰富性，从而为Agent提供了与人类开发者相似的交互和执行能力。

2024-08-06 23:27:25 709

原创清华大学：未来你的同学可能都是机器人？基于多智能体的教室环境模拟！

矩阵A（左上）显示了教师与教师之间的互动，B（右上）显示了学生或沉默到教师的互动，C（左下）显示了教师到学生或沉默的互动，D（右下）显示了学生与学生之间的互动。值得注意的是，在没有AI"同学"的情况下，用户和助教的发言长度显著减少，这表明AI"同学"的存在能够促进更多的课堂互动。特别是AI"同学"的加入，显著提升了学生的课堂参与度。在这个虚拟空间里，AI扮演了各种角色：循循善诱的老师、耐心解答的助教，甚至还有性格各异的"同学"——有深思熟虑的"思考者"，也有活跃课堂气氛的"开心果"。

2024-08-03 23:59:56 464

原创 AI独角兽抢着上岸大厂了？Transfomer作者创办的Character.AI 正式被谷歌收编！

Character.AI最主要的收入来自于订阅会员套餐，但是截止到现在，订阅用户不到 10 万，仅占 7 月份 600 万日活用户的很小很小的一部分，尽管，包括语音聊天等功能上线，用户增长和产品运营表现良好，但付费转化率依然很低，近期收购价格相比去年 9 月的估值缩水了约 50%。从Character.AI 被收购我们可以看出，AI领域的竞争日益激烈，哪怕是独角兽，不能靠自身完成收益，最好的出处仍然是被雄厚的资金和技术实力的巨头公司收割。但是，大模型的运营成本高昂，需要大量的计算资源和数据支持。

2024-08-03 23:57:52 341

原创当Runway的AI遇上土耳其银牌枪手老哥……

各位兄弟最近奥运会看的怎么样了？就在昨天，一位土耳其的射击运动员突然走红了。这位叫优素福·迪凯奇的老兄，悠哉游哉地报了个混合团体10米气手枪，结果到了比赛那天，嘿，人家穿着最简单的白色T恤，鼻梁上架着副不起眼的近视镜，一手插兜，另一手轻松一挥，砰的一枪，那姿态，就像是刚从菜市场买完东西，顺道儿来比个赛似的。▲优素福·迪凯奇比赛照最让人瞠目结舌的是，就这样一副“没睡醒”的模样，他还硬生生地把银牌揣进了兜里。哦对了，据说他还穿着“人字拖”，简直是随性到了极点，让旁边那些全副武装的选手们情何以堪啊！

2024-08-02 17:05:15 846

原创人大高瓴发布Think-on-Graph 2.0，基于知识图的大模型推理再升级！

经常参加高考的朋友可能会体会到，比起死记硬背知识点，将知识整理成脉络往往会获得事半功倍的效果。其实对于大模型来说也是如此，哪怕被允许“开卷作答”，即通过检索增强（Retrieval-augmented generation，RAG）技术从知识库中为大模型取回相应知识作为参考，但当面对复杂问题的时候，RAG对大模型的增益效果也不尽如人意。毕竟“也正因如此，我们希望为大模型的思考方式注入类似知识框架的方法指导，而已经发展多年趋渐成熟的知识图（Knowledge-Graph，KG）或许将给我们一个解决方案。

2024-08-02 17:02:49 700

原创 Gemini 1.5 Pro发布，赢了榜单第一，却被网友泼冷水

在被OpenAI背刺这么多次后，谷歌终于长记性了。并在Google AI Studio和Gemini API上，进行experimental 0801版本的测试。在LMSYS竞技场上，这个测试模型以1300分的成绩成功击败GPT-4o，夺得了排行榜第一。

2024-08-02 17:00:33 653

原创 NVIDIA把Llama-3的上下文长度扩展16倍，长上下文理解能力超越GPT-4

长上下文对于提升大模型的理解能力有重要的作用，NVIDIA 通过将多种技术结合将 Llama-3 的上下文长度从 8K 扩展到 128K，弥补了在上下文长度层面与闭源模型的差距。扩展长度之后的模型 Llama3-ChatQA-2-70B 在长上下文理解任务上超越了 GPT-4等闭源模型。同时研究也揭示了在特定场景下 RAG 技术的优势，为不同应用提供了更灵活的选择。

2024-08-01 16:36:42 1046

原创 ChatGPT装进脑机系统！躺着就能和全网聊嗨, 这也太赛博了吧

Oxley表示，在过去的一年，公司也尝试了不同的AI大模型，但OpenAI的ChatGPT-4o的发布带来了新的可能性：“多模态4o是不同的，因为它使用来自环境的输入，这些输入就像用户大脑的延伸。它可以看、可以听、可以接收文本输入，所以当用户开始与提示互动时，它就有了实时的信息流，了解他们环境中发生的一切。

2024-08-01 16:33:28 847

原创北京大学：利用好不确定性，8B小模型也能超越GPT-4

与GSM8K和HumanEval这类需要LLM解决特定数学或编程问题的推理任务不同，AlpacaEval中50%的实例是信息查询类任务，且为开放式基准测试，没有确定的答案，其实例与难度比Arena-Hard和WildBench更简单。常用的解码策略有两种，一个是贪婪解码，即永远选择概率最高的下一个token，另一种就是采样方法，根据概率分布随机选择下一个token，常常使用温度参数平衡响应质量和多样性。对于采样生成，温度控制采样过程的随机性，较低的值使模型更具确定性，而较高的值使模型更随机。

2024-07-31 23:33:48 1027

原创大模型“挣钱”新方法！用GPT-4优化众筹文稿，提高筹款成功率11.9%！

本文的目标不仅是测试特征的预测能力，更重要的是探索可操作的洞察，以指导撰写有效的众筹活动文案。相比之下，企业主对他们活动的文案却有更多的控制权和灵活性，允许他们将实用的语言表述增强融入他们精心制作的信息中，比如使文案更具情感吸引力并更符合社会导向，更多地关注捐赠者或受赠者的利益，或使用不常见的词汇来传达他们的故事。然而，因为许多从业者在组织成功的众筹活动方面经验有限，超过40%的众筹活动未能筹集到任何资金，尤其是来自欠发达地区的企业（如下图，圆圈的大小表示活动的总数，颜色表示资助活动的平均百分比）。

2024-07-31 23:29:32 765

原创重磅惊喜！OpenAI突然上线GPT-4o超长输出模型！「Her」高级语音模式已开放测试

OpenAI回应是“一直在努力提高语音的安全性和质量”，并允诺会在秋季将这项功能开放给所有的Plus订阅用户。除了语音模型，在OpenAI官网，他们还悄然开放了一个GPT-4o Long Output长输出模型的alpha测试，这个模型的测试时间会维持数周，名为。此外，在GPT-4o Long Output官文中，并没有公布其他创新性的变革，也就是说，这个长输出模型与原GPT-4o模型生成质量是没有太大差距。总之，模型反应很快，大家玩的很开心，如果有小伙伴拿到了测试资格，欢迎各位分享以下你们的体验感受哦~

2024-07-31 23:27:31 538

原创今日arXiv最热大模型论文：北京大学最新综述：视觉大模型中的漏洞与攻防对抗

本文清晰地整理出现有LVLM攻击方法，涵盖了LVLM攻击的最新发展。希望这篇综述能够为探索视觉语言大模型的安全问题的研究人员带来帮助~

2024-07-31 19:26:37 1024

原创 Apple intelligence 正式开启测试！第一波文本工具测试体验来啦！

这个功能最恐怖的地方在于，

2024-07-31 19:24:50 698

原创一万亿token！34亿张图像，扩大10倍！史上最大开源多模态数据集MINT-1T发布！

众所周知，现在训练AI最需要的是什么？数据，数据，还是数据。——毕竟只有让AI学好了，AI才能好好地回答你的问题，否则就会答非所问。但是喂给AI的数据，现在和GPU一样，成了紧缺资源。前不久有人试图用AI自己造的数据来喂AI，结果发现这样的话AI越学越笨，最后连他亲妈来了都不忍直视的那种。MINT-1T是一个包含一万亿token的多模态预训练数据集，它是史上最大的同类数据集，并且比以前的开源数据集更加多样化。

2024-07-31 19:21:30 707

原创南京大学发布百万规模文本生成视频数据集OpenVid-1M

通过对OpenVid-1M数据集和MVDiT模型的分析和评估，可以看出此项工作在文生视频领域做出的贡献：OpenVid-1M数据集为研究者提供了一个大规模且高质量的数据集，而MVDiT模型则提升了视频生成的质量和文本一致性。“巧妇难为无米之炊”，文生视频作为一个在AI中较为年轻的研究方向，由许多至关重要的问题还尚未解决，其中之一就是缺乏大规模高质量数据集，因此，最近南京大学提出了一个名为OpenVid-1M的大规模高质量数据集，它包含了100万个带有字幕的高质量视频片段。

2024-07-29 23:21:04 1037

原创 AI数据训AI，引发模型大崩溃！牛津剑桥最新研究，登上Nature发警告

我们都知道，AI大模型是需要现成的数据来训练，只有喂给AI大量的数据，AI才能“学富五车”。为此，不少AI模型在研发的时候，特别注重数据的数量以及质量——就好比上学的时候老师告诉你们，读书要读名著，不能读乱七八糟的东西是一个道理。具体来说，每一代模型都是基于前一代模型生成的数据进行训练的，随着代数的增加，模型的输出质量逐渐下降。当模型的训练数据主要来源于先前版本的模型生成，而不是原始的真实数据时，模型会失去对原始数据分布的理解，导致模型的表现或输出逐渐偏离预期，甚至完全无法反映数据的真实分布或特征。

2024-07-29 23:18:50 976

原创华为诺亚发布无限上下文大模型，超越SoTA 4.3%

华为诺亚方舟实验室这次真给大模型界来了个大招！他们的EM-LLM模型不仅实现了"无限"上下文长度，还在LongBench测试中超越了此前的最佳成绩，平均提升4.3%。这就像给AI装上了记忆芯片。EM-LLM的成功展示了跨学科研究的威力，仿佛让LLM上了一个"人类大脑速成班"。这一突破可能带来众多有趣应用，从能轻松解读《战争与和平》的大模型文学评论家，到记住你上月所有对话的超级客服，再到能处理繁琐合同的法律专家和分析全面病史的医疗助手。

2024-07-28 23:07:09 936

原创小模型狂飙！6家巨头争相发布小模型，Andrej Karpathy：大语言模型的尺寸竞争正在倒退...

过去一周，可谓是小模型战场最疯狂的一周，商业巨头改变赛道，向大模型say byebye~。OpenAI、Apple、Mistral等“百花齐放”，纷纷带着自家性能优越的轻量化小模型入场。小模型(SLM)，是相对于大语言模型（LLM）而言的，它们一般来说具有较少的参数和较低的计算资源需求。前OpenAI和特斯拉AI研究员Andrej Karpathy更是直言LLM大小竞争会出现逆转的趋势，预测模型将向着更小更智能的方向发展。为了快速理解，中文翻译如下：大语言模型的尺寸竞争正在倒退...

2024-07-28 23:04:44 952

原创 AI浪潮下的“首届”奥运会！巴黎2024开幕在即，AI运动员助手、AI裁判员齐上场

幸运的是，AI技术已经为这类难题提供了解决方案。通过赛场上遍布的高清摄像头和植入球中的智能芯片，AI能够实时捕捉并分析比赛中的每一个细微动作，包括球的轨迹、速度以及是否越过关键界限，裁判员再也不用担心看不清比赛录像了。尽管Frank Ohme笑言探测黑洞对AI来说或许更为简单，但不可否认的是，AI在体育裁判领域的每一次尝试与突破，都在为人类带来更加公平、公正的竞技环境。想象一下，当你坐在家中，屏幕上跃动的不仅是运动员矫健的身姿，更有海量数据编织出的精彩花絮，为体育竞技这一全球共通的语言增添了丰富的层次。

2024-07-27 00:22:51 622

原创谷歌再被OpenAI截胡？训练数学AI拿下IMO银牌，不及SearchGPT放了空响..

我们都知道，现在的搜索引擎，例如Google，让我们不得不在一堆广告和不相干的内容中，找到我们需要的信息。在赛前，DeepMind通过证明或反驳数百万个数学问题来训练AlphaProof，并加强了模型的自证能力，以提供完美的解决思路。而AlphaGeometry 2与前身相比，使用了更大数量级的合成数据，并从头开始训练，以加强更复杂的几何问题的解决能力。也有网友厌倦了这种期货的发布方式，明明有好东西，却不舍得拿出来分享，只会让一小部分人去体验，真没格局！我们认为，比起现在的引擎，搜索可以有更多上升空间。

2024-07-27 00:19:23 783

原创免费不限次！智谱清影一上线就被玩疯了，国产AI视频生成卷起来了

而后，智谱在CogView的基础上延伸，于2022年提出并开源了在业界颇具影响力的文生视频模型CogVideo，这项工作被Meta提出的 Make-A-Video、Google的 Phenaki 和 MAGVIT、微软的女娲 DragNUWA、英伟达的 Video LDMs 等视频生成模型所引用。而CogVideoX，则是在CogVideo的基础上做了进一步系统性的优化，不仅生成效果更好，而且推理速度提升了6倍，实现了如今智谱清影仅用30s就能生成6秒视频的顺滑体验。

2024-07-27 00:08:35 740

原创减轻幻觉新SOTA，7B模型自迭代训练效果超越GPT-4，上海AI lab发布

本文通过迭代自我训练，逐步扩大数据集的多样性和规模，并提高幻觉标注器的准确性。最终得到的ANAH-v2仅用7B参数在各种幻觉检测基准测试中首次超过了GPT-4，并在第三方幻觉检测基准测试中表现出色。ANAH-v2不仅提供了一个基于的扩展数据集的自动幻觉评估基准，为未来幻觉缓解研究铺平了道路，还通过简单的重新排序策略展示了其在幻觉缓解中的潜力。相信ANAH-v2还可以为更细粒度的RLHF等更多幻觉缓解策略提供帮助。

2024-07-25 11:24:39 966

原创终于有人把大模型的内部一致性和自反馈讲明白了

这篇文章终于给大家梳理完了，信息量真的特别大，笔者现在已经写不动了。请允许我直接引用研究团队的话来吧：本文提出使用内部一致性的角度来观察LLM领域中最突出的现象：缺乏推理和幻觉的存在。本文从多个方面阐述了内部一致性的建模、沙漏演化模式、现状、来源和意义，并提出了内部一致性挖掘的自我反馈框架。我们总结了在自我反馈框架中所涉及的各种任务和独特的工作路线。这些工作路线可以帮助研究人员在一个庞大的系统中定位他们的工作的位置，并促进合理的实验比较。

2024-07-25 11:21:12 1047

原创重磅！Mistral Large 2深夜发布！Llama3.1仅一天被超越，最强开源再易主

第一次开源模型革命，突然就兴起了……Llama3.1发布后，Meta还沉浸在强烈的社会反响中时，法国的Mistral AI团队突然扔出王炸：它们的最新开源模型。而Llama3.1刚坐了一天王位，就被它踢下去了……

2024-07-25 11:13:42 483

原创复旦大学：没钱标数据的有福了！利用合成数据就能大幅提升大模型归纳推理能力

作者构建了一个新的基准——Case2Code，用于评估LLMs在代码领域的归纳推理能力，并提出了一个数据合成框架，仅使用小型LLM和代码解释器就能自动高效地从预训练代码文本中收集高质量的Case2Code训练数据。可以看到，无论学生模型规模如何，即便学生模型的规模几乎是数据合成模型的三倍，合成数据均显著增强了其代码推理能力，这一发现揭示了在大规模代码任务中，弱监督到强监督转换的可行性与潜力。因此，作者使用合成Case2Code数据集在不同的设置下训练不同的LLM，探索它如何影响LLM的代码推理学习。

2024-07-24 22:52:59 799

原创开源Llama 3.1一夜成最强大模型！超越闭源GPT-4o，OpenAI坐不住了

我们相信，开源将确保世界上更多的人，能领略使用人工智能的优势和机会，权力将不会集中在少数人手中，并且人工智能技术可以在社会中更公平、更安全地落地。但我们回看过去，在其他大厂的AI模型发布重大更新的前一天，OpenAI总会横插一脚发布ChatGPT的新版本。作为一个顶尖开源模型，它代表着世界上更多的人会有更多的机会，去深耕，去探索世界，去融汇知识，利用开源AI，我们可以将人工智能带来的福利，传递给世界上每个人。不止极客，不止你我，而是全社会。而Llama3.1宣传的核心就是：开源，开源，还是开源！

2024-07-24 22:48:51 468

原创 ACL2024主会：中科院发布表格理解大模型Table-LLaVA，刷榜23项指标

Table-LLaVA的提出，标志着多模态表格理解研究迈出了关键的一步。基于MMTab数据集，它在各项表格理解任务上取得了瞩目的成绩，展现了巨大的潜力。然而这只是一个开始。未来，扩大数据集规模、优化模型性能、拓展现实应用场景，以及与知识图谱等技术的结合，都是值得深入探索的方向。多模态表格理解必将在未来的人工智能发展中扮演越来越重要的角色，有望极大地提升信息处理的智能化水平，为各行各业带来变革。这场"多模态表格理解"的新征程才刚刚开启。

2024-07-23 14:03:27 1249

原创 Llama 3.1要来啦？！测试性能战胜GPT-4o

哎呀，Meta声称将于今晚发布的Llama 3.1，数小时前就在Hugging Face上泄露出来了？泄露的人很有可能是Meta员工？还是先来看泄露出来的llama3.1吧。而经过网友测试，该base版模型在AI的基准测试中有显著进步，其性能可以超越当前大模型天花板GPT-4o。而模型的instruct版本通常会更强，也许值得期待一手。这一模型的问世，可能会成为AI历史性的节点。它意味着开源模型首次在性能上，战胜当下最顶尖的闭源AI大模型（GPT-4o）。

2024-07-23 13:58:09 777

原创中科院张家俊团队最新综述，谈大模型研究的新领域：多模型协作

自我认知是LLMs具备的一种能力，即能够识别自己的AI模型身份，并认识到自己不仅仅是“有用的助手”或某个名称（如“Llama”），同时还能展现出对自己的理解。基于以上实验结果，作者选用了两个自我认知能力的最强的模型：Command-R 和 Llama-3-70b-Instruct，分别使用常用的“有用的助手”与本文提出的引导LLM具有自我认知的提示进行对比实验，探索自我认知提示的实用性和可信度。通过将这些提示输入到LLM中，分析响应，以确定LLM是否具有自我认知，并找出触发LLM自我认知的最有效提示。

2024-07-23 00:30:16 859

原创中科院张家俊团队最新综述，谈大模型研究的新领域：多模型协作

集成方法是另一种有效的协作策略，它不同于模型融合，主要关注模型输出的组合而非参数层面的整合。模型融合技术提供了一种巧妙的方式，可以将这些边缘解推向更优的中心位置，从而创造出一个性能更强大的模型。从模型融合的"强强联手"，到集成方法的"你方唱罢我登场"，再到合作策略的"各显神通"，可谓是五花八门，精彩纷呈。例如，Wortsman等人[2]提出Learned Soup，在验证集上优化混合系数，使损失函数最小化，从而结合多个模型的优势，提高整体性能。通过协作，可以充分发挥各个模型的优势，同时克服它们的不足。

2024-07-23 00:29:02 1023

原创 IMO数学竞赛第5题是何方神圣？大模型全军覆没了…

在第一次尝试中，假设他首次到达第二行的某个单元格，可能该单元格有坏人，他必须立即返回第一行，他无法到达更远的单元格。在第二次尝试中，假设他首次到达第三行的另一个单元格，由于他必须从第二行的不同单元格移动过来，可能存在坏人，因此他也可能在第二次尝试中失败。如果第二行的坏人不在边缘（即它位于第二行的中间某个单元格），憨豆在第二次和第三次尝试中将采用两条路径，这两条路径将覆盖除了两个可能有坏人的单元格外的所有单元格，因此至少有一条路径能够成功。让我们先看看，这些AI模型们的佼佼者是怎么解题的。

2024-07-23 00:26:01 1012

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人