OpenAI三位高管相继离职、Meta AR眼镜Orion亮相 | AI 快讯 2024.09.25
今日重点关注内容:
• Meta推出Llama 3.2模型,专注边缘AI和视觉处理
• Meta展示AR眼镜Orion,展现未来交互愿景
• OpenAI高层人事变动,三位高管相继离职
• Notion AI助手功能全面升级,提升工作效率
• ChatGPT推出语音对话功能,提供多种AI声音选项
• Google发布Gemini 1.5系列模型,性能提升价格下调
您可通过点击这个链接查看往期「AI 快讯」的精选内容。
Llama 3.2:革新边缘AI与视觉的开源定制新模式
「阅读原文」
Meta在Connect 2024大会上发布了Llama 3.2,这是一系列旨在提高AI可访问性和效率的新模型。其中包括11B和90B的视觉模型,能够进行图像推理、文档理解和图像描述等任务。同时还推出了1B和3B的轻量级文本模型,专为边缘设备和移动设备优化,支持多语言文本生成和工具调用。
Llama 3.2的一大亮点是其隐私保护和性能表现。轻量级模型可在本地处理数据,无需将信息发送到云端,既保护了用户隐私,又实现了即时响应。所有模型都支持8种语言的多语言对话,包括英语、德语、法语等。
Meta与超过25家公司合作,确保Llama 3.2在多个平台上可立即使用,包括Google Cloud、AWS等。此外,Arm、MediaTek和Qualcomm等公司将支持在设备端使用这些模型。
Llama 3.2在150多个基准数据集上进行了评估,显示出与领先基础模型相当的性能。Meta还强调了负责任的创新和系统级安全,推出了Llama Guard 3 11B Vision用于内容安全分类。
这次发布标志着AI技术在可访问性、效率和隐私保护方面取得了重大进展,尤其是在边缘计算和移动设备领域。
Meta的大戏登场
Alex Heath 「阅读原文」
元宇宙巨头Meta向世界展示了其首款增强现实(AR)眼镜Orion,引发了科技界的广泛关注。这款眼镜的核心技术在于利用硅碳化物镜片和Micro LED投影器,将图像直接投射到用户眼前,解决了可穿戴设备长期存在的笨重、发热和视野受限等问题。
Orion的功能令人印象深刻。它不仅能够进行AI辅助的视觉识别和信息处理,还支持手势追踪,让用户能够在虚拟空间中与"全息图"互动。在演示中,AI能够识别桌上的食材并生成悬浮的冰沙配方,展现了其强大的实时处理能力。
然而,Orion的量产之路并非一帆风顺。Meta CTO Andrew Bosworth坦言,由于良品率低下,公司目前只能生产约1000副用于内部开发和外部展示。尽管如此,扎克伯格仍对AR眼镜的未来充满信心。他预计在未来几年内,Orion的下一代产品将成为首款面向消费者的版本,届时会更小巧、更明亮、分辨率更高,也更加经济实惠。
Meta的愿景是通过一系列产品,从Ray-Ban Meta智能眼镜到即将推出的Hypernova,最终过渡到Orion这样的全功能AR眼镜,逐步引导消费者适应这项新技术。扎克伯格相信,在未来十年内,智能眼镜将成为人们与计算设备交互的主要方式。
OpenAI 首席研究官离职 | TechCrunch
@TechCrunch 「阅读原文」
OpenAI的高层人事变动再次引发关注。公司首席执行官Sam Altman在X平台上宣布,首席研究官Bob McGrew和一位研究副总裁Barret Zoph已经离职。这一消息紧随首席技术官Mira Murati的离职之后,在短短几小时内接连曝光。
Altman表示,这三位高管的离职决定是各自独立且友好的,但由于Murati离职的时机,公司选择一次性公布这些变动,以便更好地交接给下一代领导团队。
这波高层离职潮恰逢OpenAI正考虑从非营利组织转型为营利性公益企业,此举旨在吸引更多外部投资。这一战略调整可能是引发高管离职的潜在因素之一。
尽管OpenAI面临这些变动,但公司仍在人工智能领域保持着领先地位。这次高层重组或许预示着公司即将进入一个新的发展阶段,但也给外界留下了诸多猜想空间。未来OpenAI将如何调整其研发重点和商业策略,值得业界持续关注。
Sam Altman 推文如下:
|
全文翻译如下:
我刚刚向OpenAI发布了以下通知:
各位好——
过去6年半以来,Mira对OpenAI的进步和发展起到了至关重要的作用;她是我们从一个不为人知的研究实验室发展成为一家重要公司的重大推动因素。
今天早上Mira告诉我她要离开时,我感到很难过,但当然支持她的决定。在过去一年里,她一直在培养一批强有力的领导团队,他们将继续推动我们的进步。
我还要宣布,Bob和Barret也决定离开OpenAI。Mira、Bob和Barret是各自独立做出这些决定的,而且都是友好的分手,但Mira决定的时机使得现在一次性进行这些变动是有意义的,这样我们可以共同努力,平稳地交接给下一代领导层。
我非常感谢他们所有人的贡献。
成为OpenAI的领导者是全身心投入的工作。一方面,能够构建AGI并成为最快速增长的公司,将我们先进的研究成果交到数亿人手中,这是一种特权。另一方面,领导一个团队经历这一切是不间断的——他们为公司付出的努力远远超出了职责所需。
Mark将成为我们新的研究高级副总裁,现在将与首席科学家Jakub合作领导研究组织。这一直是我们为Bob someday制定的长期接班计划;虽然它比我们预想的要早,但我对Mark接任这个角色感到非常兴奋。Mark显然拥有深厚的技术专长,但在过去几年里,他也以令人印象深刻的方式学会了如何成为一名领导者和管理者。
Josh Achiam将担任新的使命对齐负责人,跨部门工作以确保我们在各个方面(包括文化)都能做到正确,以成功完成使命。
Kevin和Srinivas将继续领导应用团队。
Matt Knight将成为我们的首席信息安全官,事实上他已经在这个职位上工作很长时间了。这一直是我们的计划。
Mark、Jakub、Kevin、Srinivas、Matt和Josh将向我汇报。在过去一年左右的时间里,我将大部分时间花在了组织的非技术方面;现在我期待将大部分时间花在公司的技术和产品方面。
...
领导层的变动是公司的自然组成部分,尤其是对于快速增长且要求严格的公司来说。我显然不会假装这次变动如此突然是很自然的事,但我们不是一家普通的公司,我认为Mira向我解释的原因(永远不会有一个好时机,任何不突然的变动都会泄露,而且她想在OpenAI处于上升期时这样做)是有道理的。我们明天可以在全体会议上更多地讨论这个问题。
感谢大家的辛勤工作和奉献。
Sam
畅聊无界限
「阅读原文」
Notion AI,一款由GPT-4和Claude等大型语言模型驱动的智能助手,正为用户带来全新的工作体验。无论是在桌面端点击小脸图标,还是在移动端使用快捷工具栏,用户都能轻松激活这位数字助手。
Notion AI的用途广泛:它能帮你梳理工作背景,为个人项目提供建议,甚至协助你制定10公里跑步训练计划。在头脑风暴环节,它可以激发灵感,帮你突破思维瓶颈。写作方面,Notion AI堪称全能选手——从博客文章到Instagram说明文案,从邮件到诗歌,它都能为你起草。不仅如此,它还能总结研究提案、产品规格说明书或会议记录,提炼出关键信息。
对于全球化团队来说,Notion AI的翻译功能无疑是一大福音。此外,它还内置了拼写检查和语法纠正功能。最棒的是,所有这些功能都无缝集成在Notion工作区内,用户无需在不同工具间来回切换。
虽然Notion AI在数据保护方面采取了标准措施,但用户仍需注意其局限性。它可能会输出不准确或有偏见的信息,对于最新事件的了解也可能不够及时。不过,随着持续的研发,相信这些问题终将得到改善。总的来说,Notion AI正在为提高生产力、创造力和工作效率开辟新天地。
OpenAI 的高级语音功能已经全面开放给 Plus 和 Team 用户,要想全面了解高级语音功能,看 OpenAI 官方帮助中心的这一篇文章就足够了 👇
语音模式常见问题
「阅读原文」
在对话式人工智能领域,OpenAI 的 ChatGPT 又迈出了一大步。最新推出的语音对话功能让用户可以与 AI 进行口语交流,使互动更加自然流畅。这项功能分为标准版和高级版两种模式,目前已在 iOS 和 Android 移动应用上推出。
高级语音模式为用户提供了九种独特的 AI 声音选项,每种都有其特定的语调和个性。从轻松多变的"Arbor"到自信乐观的"Ember",再到睿智从容的"Sol",用户可以根据喜好自由切换。
值得注意的是,OpenAI 在隐私保护方面也做出了承诺。除非用户明确同意分享音频以改进服务,否则语音片段在转录完成后将被删除。此外,系统还设有每日使用限制,以确保服务质量。
虽然这项功能目前仅向 Plus 和 Team 用户开放,且在欧盟、英国等地区暂未推出,但它无疑为 AI 交互开辟了新天地。用户可以通过耳机和 iPhone 的 Voice Isolation 模式来优化体验,减少意外中断。
总的来说,ChatGPT 的语音功能不仅提升了用户体验,也为 AI 与人类之间的交流方式带来了新的可能性。这一进步或将推动对话式 AI 在日常生活中的更广泛应用。
Gemini模型正式推出,1.5 Pro降价,使用限额提高及更多更新
「阅读原文」
谷歌开发者博客最新发布了一则重磅消息,宣布了Gemini系列AI模型的重大更新。新版本Gemini-1.5-Pro-002和Gemini-1.5-Flash-002不仅性能大幅提升,还降低了使用成本。这次更新可谓诚意满满,为开发者和企业用户带来了实实在在的利好。
在性能方面,新模型在MMLU-Pro基准测试中的得分提高了7%,特别是在数学相关测试中进步显著,提升了约20%。更令人瞩目的是,模型现在可以处理高达200万个token的输入,这意味着它能够轻松应对长文档和多媒体内容的分析。
价格方面,Gemini 1.5 Pro模型的输入token价格下调64%,输出token价格下调52%,增量token价格也降低了64%。同时,API调用限制也大幅放宽,Gemini 1.5 Flash模型的每分钟请求限制翻倍至2000次,而1.5 Pro模型则增加到1000次。
此外,谷歌还推出了一系列新功能,如允许用户创建个性化AI助手的Gems、图像生成模型Imagen 3,以及增强对话式AI交互的Gemini Live。
对于开发者来说,这些模型可以通过Google AI Studio和Gemini API免费使用,大型组织和Google Cloud客户则可以在Vertex AI上使用。值得注意的是,开发者可以根据需求自行选择安全过滤器设置。
这次更新无疑是谷歌在AI领域的一次重要推进,旨在通过提供更高性能、更低成本和更灵活的使用限制,吸引更多开发者和企业用户采用其AI技术。
保持健康,保持快乐!
Axton
Responses