The Transformer - 搜索 News

3 天

清华与微软联手打造Differential Transformer，让 AI 的注意力更集中，精度 ...

Intel最新提交的Linux内核补丁显示，明年的下一代低功耗处理器PantherLake，也就是酷睿Ultra300系列之一，将会集成第五代NPU，或者叫NPU5.0。按照Intel的说法，MeteorLake集成的是第三代NPU，算力11.5TO ...

腾讯网18 小时

NeurIPS 2024 | Transformer长度外推，全新位置编码DAPE大幅提升模型性能

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@ ...

1 天

Transformer lengths extrapolation突破：DAPE新位置编码显著提升性能

DAPE并不仅限于表现优秀，还表明了它在更大模型上的有效性。随着模型规模的增加，DAPE依然能够显著降低困惑度，保持良好的性能。例如，当模型规模从125M增加到350M时，在序列长度为8192的评估中，DAPE-ALiBi的困惑度便从3.82降至3.57。这些统计数据证明，DAPE不仅在小型模型中表现出色，即使在大型模型中其强劲的性能也得以保持。这为研究者们在未来的模型构建过程中提供了新的思路，进 ...

4 天on MSN

谷歌推出 AI 架构 Transformer 新方法：突破长文本处理，

IT之家 10 月 9 日消息，科技媒体 marktechpost 昨日（10 月 8 日）发布博文，报道称谷歌公司推出了选择性注意力（Selective Attention）方法，可以提高 Transformer 架构模型的性能。

4 天

这篇论文非常火！差分Transformer竟能消除注意力噪声，犹如降噪耳机

差分注意力利用两个 softmax 注意力函数之间的差来消除注意力噪声。这个想法类似于电气工程中提出的差分放大器，其中两个信号之间的差用作输出，这样就可以消除输入的共模噪声。此外，降噪耳机的设计也基于类似的想法。

4 天

本文的实验遵循LWM和Gemini 1.5的「多针」评估方案，在不同长度的上下文中，N根针被插入不同的深度。每根「针」都由一个简洁的句子组成，为特定城市分配一个独特的魔法数字。

4 天

差分Transformer：颠覆注意力机制，消除噪声如降噪耳机般清晰！

差分Transformer的核心思想在于通过引入差分技术，在处理输入序列时显著降低噪声对模型性能的影响。这意味着，在面对复杂的输入数据时，该模型可以更清晰地捕捉到关键信息，而不被无关噪声所干扰。研究团队使用大量实验数据验证了其有效性，证据表明这种新模型在多项任务中都表现出色，尤其是在自然语言处理和计算机视觉领域的表现极具潜力。这一发现使得差分Transformer在学术界和工业界都引起了极大的关注 ...

1 天

被质疑、抄袭、魔改，非主流大模型的诞生之路

但彭博完全不在意这些声音，或许这就是成为另类的代价。——在诸多大模型公司都选择与OpenAI相同的Transformer架构时，彭博用了三年时间走上了另一条路，将Transformer改写成RNN形式，保留了较低的时间空间复杂度。“给我十万张卡和10 ...

Radio France Internationale15 分钟

2个小丑命运大不同「刽乐」登票房冠军「双重疯狂」惨跌

（法新社洛杉矶13日电）今天的业界数据显示，最新恐怖片「刽乐小丑3」一开映便登上北美票房一哥；上周冠军片「小丑：双重疯狂」则是遭遇破纪录的上映次周跌幅。追踪票房表现的北美院线联盟（Exhibitor Relations）数据显示，「刽乐小丑3」（Terrifier 3）11日至13日期间有约1820万美元进帐。分析师葛罗斯（David A.

时代财经 on MSN3 天

挑战Transformer架构，岩芯数智要以小博大！造像“人”的大模型

“最近面试，我经常问候选人一个问题：如果有一天你要离开这个世界，你希望在墓志铭上写什么？”在近期接受时代周报等媒体采访中，岩芯数智CEO刘凡平提出这样一个问题。刘凡平称，于多数人而言，这是一个需要思考超过30秒甚至更长时间的问题，而Transformer机制下的大模型会马上输出答案。这是Transformer大模型与人类大脑工作机制的不同，人类回答输出的时间会根据问题的复杂程度变化，复杂问题求 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果