The Transformer - 搜索 News

4 天

本文的实验遵循LWM和Gemini 1.5的「多针」评估方案，在不同长度的上下文中，N根针被插入不同的深度。每根「针」都由一个简洁的句子组成，为特定城市分配一个独特的魔法数字。

4 天

这篇论文非常火！差分Transformer竟能消除注意力噪声，犹如降噪耳机

机器之心报道编辑：PandaTransformer 的强大实力已经在诸多大型语言模型（LLM）上得到了证明，但该架构远非完美，也有很多研究者致力于改进这一架构，比如机器之心曾报道过的 Reformer 和 ...

腾讯网16 小时

NeurIPS 2024 | Transformer长度外推，全新位置编码DAPE大幅提升模型性能

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@ ...

7 天

何恺明新作发布：异构预训练Transformer引领AI视觉学习新时代

何恺明的异构预训练Transformer是一种新型的深度学习模型，旨在有效整合多种数据来源，实现更加全面的视觉理解。这一模型突破了传统Transformer在图像识别中的局限性，通过多模态数据的结合，使得AI可以更加精准地分析和理解复杂的视觉信息。

4 天on MSN

AI 架构 Transformer 再进化：谷歌新方法突破长文本处理，注意力模块 ...

Transformer 架构的一大挑战是它们在处理长文本序列时效率低下，由于每个标记与序列中的每个其他标记都相互作用导致二次复杂度，这就导致随着上下文长度的增加，计算和内存需求呈指数增长。现在解决这一问题的方法包括稀疏注意力机制（sparse attention mechanisms），它限制了标记之间的交互数量，以及通过总结过去信息来减少序列长度的上下文压缩技术。

7 天

何恺明新作出炉！异构预训练Transformer颠覆本体视觉学习范式，AI性能 ...

近些年来NLP和CV领域的突飞猛进，让我们看到了彻底改变机器学习领域的一个历史教训：对大规模、高质量和多样化数据进行预训练，可以带来通常优于特定模型的通用模型。 HPT全称为Heterogeneous Pre-trained Transformers ...

3 天

清华与微软联手打造Differential Transformer，让 AI 的注意力更集中，精度 ...

Intel最新提交的Linux内核补丁显示，明年的下一代低功耗处理器PantherLake，也就是酷睿Ultra300系列之一，将会集成第五代NPU，或者叫NPU5.0。按照Intel的说法，MeteorLake集成的是第三代NPU，算力11.5TO ...

1 天

Transformer lengths extrapolation突破：DAPE新位置编码显著提升性能

DAPE并不仅限于表现优秀，还表明了它在更大模型上的有效性。随着模型规模的增加，DAPE依然能够显著降低困惑度，保持良好的性能。例如，当模型规模从125M增加到350M时，在序列长度为8192的评估中，DAPE-ALiBi的困惑度便从3.82降至3.57。这些统计数据证明，DAPE不仅在小型模型中表现出色，即使在大型模型中其强劲的性能也得以保持。这为研究者们在未来的模型构建过程中提供了新的思路，进 ...

12 天

MIT团队新型LFM模型燃爆AI界：挑战Transformer架构的长效解决方案

LiquidAI的成立团队来自于MIT计算机科学与人工智能实验室，他们以第一性原理为出发点，致力于构建下一代高效、强大的通用人工智能系统。LiquidAI联合创始人包括在液态神经网络领域享有盛誉的科学家和研究员，他们的研究方向涵盖稳定的机器学习模型、 ...

13 天

「群体智能」剑指AGI革命！国产架构挑战Transformer霸权，首款非 ...

近日，Unity在巴塞罗那举办的Unite大会上宣布，Unity6引擎将于2024年10月17日全球发布，是Unity迄今为止稳定性与性能俱佳的版本。它将为开发者提供可定制的图形渲染功能，增强视觉效果的掌控能力；简化多人游戏开发，加速整个游戏的开发生 ...

12 天

非Transformer架构新模型爆火，从第一性原理出发，MIT团队打造

挑战Transformer，MIT初创团队推出 LFM（LiquidFoundationModel）新架构模型爆火。 LFM 1.3B、 LFM 3B两个不同大小的模型，性能超越同等规模Llama3.2等Transformer模型。

11 天on MSN

非 Transformer 架构 AI 模型 Liquid 问世

IT之家 10 月 2 日消息，去年刚成立的 Liquid AI 公司于 9 月 30 日发布了三款 Liquid 基础模型（Liquid Foundation Models，LFM），分别为 LFM-1.3B、LFM-3.1B 和 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果