OpenAI 计划推出Strawberry模型、Adobe预览文本生成视频AI工具 | AI 快讯 2024.09.11
编辑摘要
今日重点关注内容:
• OpenAI推出Strawberry模型:智能但速度较慢
• 亚马逊在Rufus聊天机器人中测试广告功能
• 谷歌搜索结果将链接互联网档案馆
• GPT-4默认模型将于10月2日更新
• Mistral发布Pixtral 12B视觉语言模型
• 苹果即将推出新AI功能升级iPhone 16
• Adobe预览文本生成视频AI工具
• OpenAI融资谈判:估值或达1500亿美元
• 谷歌NotebookLM新功能:将笔记转为AI播客
您可通过点击这个链接查看往期「AI 快讯」的精选内容。
本周AI动态:OpenAI 计划推出新的Strawberry模型,智能但速度不快 | TechCrunch
@TechCrunch 「阅读原文」
人工智能领域再传新动向。OpenAI正酝酿推出名为"Strawberry"的新模型,据称在编程和数学问题方面表现优异,甚至能自我核实事实,避免其他模型常见的推理陷阱。然而,这朵"草莓"似乎有点"慢热"——回答一个问题竟需10至20秒,这对习惯快速响应的用户来说无疑是一大挑战。
Strawberry瞄准的是对准确性要求极高的任务,这可能吸引那些对当前AI局限性感到不满的企业。但其缓慢的反应速度和潜在的错误风险可能会阻碍其广泛应用。
OpenAI正面临投资回报的压力。在AI培训和人才方面投入巨资后,匆忙推出一个尚未完善的模型似乎并非明智之举,特别是如果它反应迟钝且容易出错。
与此同时,AI界还有其他动向:苹果公司最近的公告引人注目,ChatGPT与Apple Intelligence的整合也备受关注。此前,苹果曾表示计划与更多第三方AI模型合作,如Google的Gemini,但目前尚未有进一步消息。
在这场AI角力中,Strawberry能否成为OpenAI的制胜法宝,还是会成为昙花一现的实验品?让我们拭目以待。
亚马逊在Rufus聊天机器人中测试广告 | TechCrunch
@TechCrunch 「阅读原文」
亚马逊近期开始在其购物聊天机器人Rufus中测试广告功能,引起了业内广泛关注。这一举措首先被AdWeek发现并报道。根据亚马逊发布的更新日志,Rufus将根据用户的搜索历史和对话内容来展示相关广告。在某些情况下,Rufus还可能为现有广告文案生成配套文字。
亚马逊表示,引入广告旨在通过改善品牌和产品发现来提升Rufus的用户体验。公司发言人强调,这些广告将帮助顾客发现与其对话相关的商品选择。
这一做法与微软在其Copilot聊天机器人中插入广告的尝试如出一辙。业界普遍认为,在AI产品中加入广告是科技公司收回高昂AI研发和维护成本的一种方式。
Rufus作为亚马逊的新晋AI助手,其广告功能的推出无疑将为用户带来全新的购物体验。然而,如何在提供个性化推荐和保护用户隐私之间取得平衡,仍是亚马逊面临的一大挑战。随着AI技术的不断进步,我们可以期待Rufus在未来为消费者带来更智能、更贴心的购物建议。
谷歌将通过链接互联网档案馆为搜索结果提供更多背景信息
@9to5Google 「阅读原文」
谷歌搜索推出新功能,为用户提供了一条通往互联网时光机的捷径。这项与非营利研究图书馆The Internet Archive的合作,让用户能够直接从搜索结果跳转到Wayback Machine,探索网页的历史版本。
这一功能的推出,填补了今年早些时候谷歌移除缓存页面功能后留下的空白。用户只需点击搜索结果旁的三点菜单,选择"更多关于此页面的信息",即可访问Wayback Machine的链接。
谷歌表示,此功能旨在帮助用户,尤其是研究人员,快速访问网页的早期版本。The Internet Archive也对这一合作表示欢迎,强调了网页存档的重要性。
虽然该功能仍在逐步推广中,但谷歌已提供了集成效果的预览图。这一创新不仅为用户提供了更丰富的上下文信息,也为互联网历史研究开辟了新的途径。
通过这一更新,谷歌搜索不仅是寻找信息的工具,更成为了探索网络演变历程的时光门户。对于那些对网页变迁感兴趣的用户来说,这无疑是一个令人期待的新功能。
GPT-4o 默认模型将于2024年10月2日更新至最新版本
「阅读原文」
更新时间:2024年10月2日,GPT-4o默认版本将更新为最新的GPT-4o模型(gpt-4o-2024-08-06)。
新模型优势:
- 输入token费用减少50%。
- 输出token费用减少33%。
- 支持结构化输出(Structured Outputs)。
立即使用新版本:开发者可以通过API中指定gpt-4o-2024-08-06参数来立即访问新版本。
保留旧版本:若想继续使用旧版,需将模型参数指定为gpt-4o-2024-05-13。
自动更新:如果继续使用gpt-4o作为模型参数,系统将在10月2日自动更新到最新版本。
Mistral发布Pixtral 12B视觉语言模型 🔥
@reach_vb 「阅读原文」
人工智能领域再迎重磅新闻!Mistral公司推出了名为Pixtral的12B视觉语言模型,引发业界关注。这一新模型融合了Mistral Nemo 12B文本模型和Mistral专有的视觉模型,通过结合文本和视觉数据集进行训练。据称,Pixtral在视觉语言任务中的表现可与当前最先进的模型相媲美。
值得一提的是,Mistral采取了开放态度,将模型和相关代码在Hugging Face Hub上公开。这一举措无疑将促进整个AI社区的发展,为研究人员和开发者提供宝贵资源。
对于关注AI发展的人来说,Pixtral无疑是一个值得关注的新星。它的表现如何?能否在实际应用中脱颖而出?让我们拭目以待。
这里是关于你的 iPhone 16 未来将如何应用苹果智能技术的揭示
Umar Shakir 「阅读原文」
苹果公司即将推出一系列AI功能,为iPhone 16和Apple Intelligence带来重大升级。这些功能将从下个月开始在大多数地区进行beta测试,初期仅支持美式英语。
新功能包括智能写作工具,如文本重写、校对和总结功能,可以帮助用户优化邮件和其他文字内容。Smart Reply功能则为用户提供上下文相关的回复建议。
Siri也将迎来重大更新,不仅界面更加炫酷,还能理解更复杂的自然语言指令。用户还可以选择用打字方式与Siri交互。
照片功能方面,新增了类似Google Magic Eraser的"Clean Up"功能,以及基于自然语言的照片搜索和智能创建视频回忆的功能。
苹果还将推出电话录音及转录功能,以及在Notes应用中直接录音并生成文字稿的功能。
未来,苹果计划推出更多AI功能,包括Visual Intelligence和Genmoji。Visual Intelligence允许用户通过拍照搜索信息,而Genmoji则可以根据文字提示生成自定义表情。
这些功能将逐步推出,展现了苹果在AI领域的雄心壮志,有望为用户带来更智能、更便捷的使用体验。
Adobe预览即将推出的文本生成视频AI工具
Jess Weatherbed 「阅读原文」
近日,Adobe 公司揭开了其备受期待的人工智能视频生成工具的神秘面纱。这套名为 Firefly 的视频模型,不仅能将文字描述转化为生动的视频片段,还能基于静态图像创作出动态影像。
Firefly 的文字转视频功能堪称一绝。用户只需输入文字描述,就能获得相应的视频内容。更妙的是,它还提供了模拟不同拍摄角度和镜头移动的"摄像机控制"功能,让创作者可以随心所欲地调整画面效果。
而图像转视频功能则能让静态图片焕发生机,这对于需要补充 B-roll 素材或填补拍摄空档的创作者来说,无疑是一大利器。
质量方面,Firefly 生成的视频效果可以与 OpenAI 的 Sora 模型相媲美。不过,Adobe 的模型在商业应用上更具优势,因为它的训练数据来源于开放许可内容、公共领域资源和 Adobe Stock 素材。
值得注意的是,目前 Firefly 生成的视频片段最长为 5 秒。Adobe 计划今年晚些时候先以独立应用的形式推出 Firefly 的 beta 版本,随后将其整合到 Creative、Experience 和 Express 等平台中。
此外,Adobe 还预览了 Premiere Pro 的"Generative Extend"功能,它能够延长现有视频片段,类似于 Photoshop 中的 Content-Aware Expand 功能。这项新功能预计将于今年晚些时候推出。
总的来说,Adobe 的这套 AI 视频工具将为创意领域带来革命性的变革,让视频创作变得更加简单和高效。
OpenAI融资谈判:公司估值或达1500亿美元
人工智能领域的巨头OpenAI正在进行一场惊人的融资谈判,预计将筹集约65亿美元资金,使公司估值飙升至1500亿美元。这一数字较九个月前的估值增加了近700亿美元,若成功,OpenAI将成为仅次于TikTok母公司字节跳动的全球第二大私营企业。
投资阵容豪华,包括Thrive Capital、苹果、英伟达和微软等科技巨头。这轮融资彰显了OpenAI在AI革命中的核心地位,自2022年底推出ChatGPT以来,该公司引发了全球AI创业热潮。
然而,OpenAI并非一帆风顺。2023年底,公司经历了CEO Sam Altman被突然解雇又迅速复职的风波,导致多位高管离职。尽管如此,OpenAI仍在积极扩张,新招超过1000名员工,并不断推出ChatGPT的升级版本。
Sam Altman展现了卓越的融资能力,通过年度现有股份收购和传统融资相结合的策略,成功吸引了投资者的兴趣。值得注意的是,《纽约时报》因版权问题对OpenAI和微软提起诉讼,为公司发展增添了一丝法律阴霾。
OpenAI的这轮融资不仅反映了投资者对AI技术的热情,也凸显了公司在面对挑战时的韧性和前进动力。
谷歌利用AI技术,将笔记变成虚拟播客
Emma Roth 「阅读原文」
谷歌为其人工智能驱动的笔记应用 NotebookLM 带来了新功能。用户现在可以利用 Gemini AI 模型,将研究笔记转化为由两位虚拟主持人讨论的 AI 生成播客。这项功能位于 Audio Overview 部分,旨在通过对话形式总结内容、建立主题间联系,并增添一些轻松互动。
测试结果显示,生成的对话颇为生动,主持人能够指出像灯泡发明这样的历史事件背后的团队努力。然而,AI 生成的内容也存在一些不自然之处,如拼写某些词语或使用非人类习惯的表达方式。
这项功能虽然创新,但也引发了一些顾虑。例如,在讨论癌症或冲突等严肃话题时,AI 是否能保持适当的语气?此外,对话中的填充内容可能影响信息传递的效率和清晰度。谷歌强调,这一功能并不提供全面或客观的视角,仅反映用户笔记的内容。值得注意的是,生成过程可能需要几分钟,目前仅支持英语。
尽管存在一些局限性,这一功能仍为用户提供了一种新颖的方式来回顾和理解研究笔记。有兴趣尝试的用户可以在 NotebookLM 中打开笔记本,选择右下角的 Notebook guide,然后点击 Audio Overview 部分下的"Load"按钮。
保持健康,保持快乐!
Axton
Responses