搜索优化
Rewards
English
搜索
Copilot
图片
视频
地图
资讯
购物
更多
航班
旅游
酒店
房地产
笔记本
Top stories
Sports
U.S.
Local
World
Science
Technology
Entertainment
Business
More
Politics
时间不限
过去 1 小时
过去 24 小时
过去 7 天
过去 30 天
按相关度排序
按时间排序
4 天
清华微软最新力作:用物理学革新Transformer注意力,「大海捞针」 ...
本文的实验遵循LWM和Gemini 1.5的「多针」评估方案,在不同长度的上下文中,N根针被插入不同的深度。每根「针」都由一个简洁的句子组成,为特定城市分配一个独特的魔法数字。
4 天
这篇论文非常火!差分Transformer竟能消除注意力噪声,犹如降噪耳机
机器之心报道编辑:PandaTransformer 的强大实力已经在诸多大型语言模型(LLM)上得到了证明,但该架构远非完美,也有很多研究者致力于改进这一架构,比如机器之心曾报道过的 Reformer 和 ...
腾讯网
16 小时
NeurIPS 2024 | Transformer长度外推,全新位置编码DAPE大幅提升模型性能
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@ ...
7 天
何恺明新作发布:异构预训练Transformer引领AI视觉学习新时代
何恺明的异构预训练Transformer是一种新型的深度学习模型,旨在有效整合多种数据来源,实现更加全面的视觉理解。这一模型突破了传统Transformer在图像识别中的局限性,通过多模态数据的结合,使得AI可以更加精准地分析和理解复杂的视觉信息。
4 天
on MSN
AI 架构 Transformer 再进化:谷歌新方法突破长文本处理,注意力模块 ...
Transformer 架构的一大挑战是它们在处理长文本序列时效率低下,由于每个标记与序列中的每个其他标记都相互作用导致二次复杂度,这就导致随着上下文长度的增加,计算和内存需求呈指数增长。 现在解决这一问题的方法包括稀疏注意力机制(sparse attention mechanisms),它限制了标记之间的交互数量,以及通过总结过去信息来减少序列长度的上下文压缩技术。
7 天
何恺明新作出炉!异构预训练Transformer颠覆本体视觉学习范式,AI性能 ...
近些年来NLP和CV领域的突飞猛进,让我们看到了彻底改变机器学习领域的一个历史教训:对大规模、高质量和多样化数据进行预训练,可以带来通常优于特定模型的通用模型。 HPT全称为Heterogeneous Pre-trained Transformers ...
3 天
清华与微软联手打造Differential Transformer,让 AI 的注意力更集中,精度 ...
Intel最新提交的Linux内核补丁显示,明年的下一代低功耗处理器PantherLake,也就是酷睿Ultra300系列之一,将会集成第五代NPU,或者叫NPU5.0。按照Intel的说法,MeteorLake集成的是第三代NPU,算力11.5TO ...
1 天
Transformer lengths extrapolation突破:DAPE新位置编码显著提升性能
DAPE并不仅限于表现优秀,还表明了它在更大模型上的有效性。随着模型规模的增加,DAPE依然能够显著降低困惑度,保持良好的性能。例如,当模型规模从125M增加到350M时,在序列长度为8192的评估中,DAPE-ALiBi的困惑度便从3.82降至3.57。这些统计数据证明,DAPE不仅在小型模型中表现出色,即使在大型模型中其强劲的性能也得以保持。这为研究者们在未来的模型构建过程中提供了新的思路,进 ...
12 天
MIT团队新型LFM模型燃爆AI界:挑战Transformer架构的长效解决方案
LiquidAI的成立团队来自于MIT计算机科学与人工智能实验室,他们以第一性原理为出发点,致力于构建下一代高效、强大的通用人工智能系统。LiquidAI联合创始人包括在液态神经网络领域享有盛誉的科学家和研究员,他们的研究方向涵盖稳定的机器学习模型、 ...
13 天
「群体智能」剑指AGI革命!国产架构挑战Transformer霸权,首款非 ...
近日,Unity在巴塞罗那举办的Unite大会上宣布,Unity6引擎将于2024年10月17日全球发布,是Unity迄今为止稳定性与性能俱佳的版本。它将为开发者提供可定制的图形渲染功能,增强视觉效果的掌控能力;简化多人游戏开发,加速整个游戏的开发生 ...
12 天
非Transformer架构新模型爆火,从第一性原理出发,MIT团队打造
挑战Transformer,MIT初创团队推出 LFM(LiquidFoundationModel)新架构模型爆火。 LFM 1.3B、 LFM 3B两个不同大小的模型,性能超越同等规模Llama3.2等Transformer模型。
11 天
on MSN
非 Transformer 架构 AI 模型 Liquid 问世
IT之家 10 月 2 日消息,去年刚成立的 Liquid AI 公司于 9 月 30 日发布了三款 Liquid 基础模型(Liquid Foundation Models,LFM),分别为 LFM-1.3B、LFM-3.1B 和 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果
反馈