Header Logo
AI训练营 AI实战派 AI自动化 AI精英圈 AI精英周刊 所有课程 博客 咨询
Axton是谁
登录
← Back to all posts

Meta 你到底行不行? Llama 4多模态模型、家用人形机器人 | AI 快讯 250407

Apr 07, 2025

Highlights

  • Meta发布Llama 4:首个原生多模态开源权重模型的突破与创新
  • Meta AI模型基准测试存疑:Maverick测试版与公开版差异引发质疑
  • AI学习与人类创作借鉴的界限:重新思考原创的定义
  • 微软AI生成Quake II演示:展示实时互动游戏模拟的现实局限
  • 人形机器人作为家庭助手的可能性与现实挑战

 

Meta 发布 Llama 4:首个原生多模态开源权重模型有何突破?

「阅读原文」

Meta Llama 4 模型

Meta 发布了 Llama 4 系列模型,这是他们首个原生多模态的开源权重模型。我一直觉得 AI 发展的关键不在于封闭系统,而在于开放生态如何推动创新速度。

Llama 4 系列包括两个主力模型:Scout(17B 活跃参数,16 专家)和 Maverick(17B 活跃参数,128 专家)。它们采用了混合专家(MoE)架构,这意味着每个 token 只激活部分参数,大幅提高了计算效率。Scout 能在单个 H100 GPU 上运行,支持前所未有的 1000 万 token 上下文窗口;Maverick 则在多项基准测试中超越了 GPT-4o 和 Gemini 2.0。

这些模型由更强大的 Llama 4 Behemoth(288B 活跃参数)蒸馏而来,后者甚至超越了 GPT-4.5 和 Claude Sonnet 3.7。Meta 的开放策略让开发者可以立即在 llama.com 和 Hugging Face 上下载这些模型,为个性化 AI 体验创造了更多可能性。

Meta 的 AI 模型基准测试结果有多可信?Llama 4 Maverick 测试版与公开版存在差异

[[Kyle Wiggers]]「阅读原文」

Meta AI 模型基准测试

AI 模型的基准测试分数看看就好,别太当真,尤其是看到漂亮数字的时候。

我们开发者选 AI 模型,很看重基准测试结果。但如果公司拿一个特殊优化版去跑分,再发布一个”普通版”,那这个分数还有多少参考价值?这会误导我们对模型实际能力的判断。

Meta 最近发布的 Llama 4 里的 Maverick 模型就是个例子。它在 LM Arena 上排名很高,但 Meta 自己也承认,送去测试的是一个未公开的、为对话优化的版本,这和公开发布的版本可能不一样。

研究者确实发现这两个版本行为差异挺大,跑分高的那个喜欢用表情、回答冗长。这种做法让基准测试的可信度打了折扣。

AI 学习作品与人类创作借鉴有何区别?重新思考原创的定义

[[the Guardian]]「阅读原文」

AI 与创作

AI ‘学习’ 作者的作品,这和人类创作汲取灵感,有多大区别?

这不仅仅是技术问题,更触及了 创造力的本质。人类的学习和借鉴被视为进步,为何机器模仿就引发众怒?这让我们不得不重新审视 “原创”的定义。

《卫报》读者来信提到,Ian McEwan 受 L.P. Hartley 影响,Orwell 的《一九八四》灵感来自 Zamyatin 的《我们》。人类创作向来是站在前人肩上。出版业追随畅销书模式也是常态。

因此,作者 Andrew Vincent 质疑:AI 大规模”训练”和人类创作者从他人作品中学习,本质上是否相同? AI 引发的争议,或许放大了创作中一直存在的借鉴现象。

微软发布AI生成的Quake II演示,但它的局限性告诉我们什么?

[[Anthony Ha]]「阅读原文」

AI 生成的 Quake II 演示

微软最近搞了个 AI 生成的 Quake II 试玩,这事儿值得看看,因为它展示了 AI 在模拟实时互动游戏世界方面的尝试和现实差距。他们想让你直接在 AI 模型里玩游戏,这想法挺有意思,但也坦诚技术还远不成熟,更像是个研究探索。

具体来说,他们用自家的 Muse AI 模型,拿 Quake II 的一个关卡数据去训练。你可以在浏览器里通过 Copilot 直接用键盘操作,和 AI 模拟的世界互动。

结果就是一个能跑起来的 Quake II 演示,但玩起来感觉很不一样。敌人模糊,计数器不准,最明显的是 AI 记不住东西,视线离开 0.9 秒物体就可能消失(缺乏物体恒存性)。微软觉得这”bug”有时还挺好玩,但也有人觉得这恰恰说明 AI 离真正理解和复现游戏机制还差得远。

人形机器人真的能成为我们的家庭助手吗?

[[By Cade Metz]]「阅读原文」

人形机器人家庭助手

人形机器人会走进我们家吗?它们的目标是接管很多体力活,比如打扫、洗碗,尤其是在家政和护理人员短缺的背景下,这想法有一定吸引力。

1X 公司的方法是先把机器人 Neo 部署到真实家庭,初期由人远程辅助操作,关键在于收集海量真实世界数据。就像 AI 需要数据学习写文章一样,机器人也需要观察和模仿来学会做家务。他们认为这是让机器人适应复杂环境的必经之路。

现阶段,Neo 这样的机器人还远谈不上成熟。文章提到,它能走动、打招呼、拿东西,但很多操作仍依赖工程师远程控制,甚至会意外摔倒。尽管如此,1X 计划年内向超过 100 个家庭提供 Neo,算是迈出了收集数据、迭代产品的第一步。

 

 

想掌握AI工作流自动化的核心技能?

从基础到高级的AI工具整合思维,掌握完整的工作流构建方法,快速提升工作效率10倍!现在订阅我的课程,还可享受限时优惠。
探索更多AI实战内容 →

 

Responses

Join the conversation
t("newsletters.loading")
Loading...
MAPS 四维罗盘™:用 4 句话,让 AI 从黑箱变蓝图
Hi 你好啊, AI 时代的竞争力 = 人机协作深度 × 系统设计能力 这是我 3 月直播里抛出的公式。今天,公式背后的框架首次亮相 —— MAPS™   Mindset · Architecture · Prompt · Systems 我把 120+ 条自动化工作流、数万行 Prompt 实验,抽干留下四块「积木」。每一块一句话(见下图),先帮你把 思路对齐; 接下来几周,我会逐层拆解,分享具体的方法和真实案例,帮你把 AI 能力逐步进阶,从工具技能 → 业务资产 → 系统优势。     上封邮件给您介绍的与 AI 协作的「橘子树 CORE 框架」就是一个很好的 M + P 的实践,AI 不是助手、不是工具更不是玩具,他是一个智能与我们相当甚至超越我们的个体,与 AI 的深度协作,需要时刻记住这一点。 但是,橘子树框架也只是“术”的层面,而与 AI 协作的“道”,就是我将会...
谷歌 AI 总动员:IO 2025 精华速览,他们是认真的 | AI 快讯 20250521
若想详细了解 Google I/O 2025 的内容,请看 OpenAI 的 Deep Research 报告: https://blog.botera.io/google-io-2025-ai-highlights-overview/ 本期 AI 快讯供您快速预览,由 Gemini 执笔,希望他没有偏心自夸。 忘了那些渐进式更新吧,Google I/O 2025 像是往 AI 这把火里直接浇了一桶航空燃油。核心信息就一个:谷歌要把自家 AI(特别是 Gemini)塞进你用的所有东西里,还要让它变得更强、更会干活。   核心引擎大升级:Gemini 2.5 “Deep Think”模式:Gemini 2.5 Pro 现在能像个深思熟虑的专家,在回答复杂数学、编程问题前并行考虑多种假设,准确率飙升。 超长上下文与原生音频:能处理百万级 Token 的输入,还能用自然、多变的语...
「节后收心」GPT-4o 因谄媚而首次回滚 | NotebookLM 中文脱口秀 | AI 快讯 20250506
Highlights GPT-4o 图像生成能力:80+精彩案例和提示词集锦 Google 推出 Material 3 Expressive:用设计语言连接用户情感 OpenAI 如何错过 GPT-4o 的谄媚问题及其反思 NotebookLM 即将推出 iOS 和 Android 原生应用 NotebookLM 终于支持中文了,现在它成了脱口秀演员 OpenAI 决定让非营利部门继续掌控公司的背后考量 Anthropic AI for Science Program:获取高达$20,000 API 额度支持 Sam Altman 与 Elon Musk 争夺”超级应用”市场的深层博弈 苹果与 Anthropic 合作开发 AI 编程平台的计划细节   GPT-4o的图像生成能力怎么样?这个项目收集了80+精彩案例和提示词 GitHub「阅读原文」 GPT-4...

AI 快讯

精选 AI 新闻,与世界同步!
© 2025 AI 精英学院 by Axton. All Rights Reserved.
Powered by Kajabi

Join Our Free Trial

Get started today before this once in a lifetime opportunity expires.