以Agent为中心的世界正在到来|AWS CEO最新万字实录
作者:iedumedia 浏览:1760次 发布于:2025-08-20
本次对话聚焦于AI对白领工作模式的颠覆性影响、软件开发范式的变迁、下一代基础设施的瓶颈挑战、AWS自研芯片的核心战略,以及未来模型生态的演进方向。
1.jpg

AWS CEO 访谈实录

8月19日,AWS CEO Matt Garman 接受海外播客Matt Garman的访谈,本次对话聚焦于AI对白领工作模式的颠覆性影响、软件开发范式的变迁、下一代基础设施的瓶颈挑战、AWS自研芯片的核心战略,以及未来模型生态的演进方向。

针对“AI将导致白领大失业”的普遍焦虑,Garman认为AI非但不会取代初级开发者,反而会成为他们最佳的培训工具,此外他不认同“单一全能模型将主导一切”的看法,坚信未来属于由大型通用模型与海量专用模型协同工作的“混合专家系统”。

此外,AI基础设施建设的瓶颈会在算力、电力、网络等多个环节之间动态转移,不存在单一、永久的解决方案。过去企业之所以没有大规模构建 AI Agent工作流,是因为他们必须自己搭建所有这些底层的基础设施,这非常困难。未来AI Agent将变得更加自主,从而真正地解放人力。

01
AI在白领工作中的真实价值定位


对于AI对白领工作的影响,各方观点不一,您的立场是什么?如果公司将员工的大量日常任务自动化,是否意味着公司将停止招聘,如何看待未来的招聘问题?


Matt Garman: 对于科技行业而言,眼下是前所未有的黄金时代。放眼整个业界,我个人持非常乐观的态度。首先,我们在人工智能和技术领域取得的诸多进展,在提升工作效率、成效以及释放个人潜能方面,展现出了巨大的潜力。但我认为,技术更有前景的应用在于,它能将人们从日常的繁重乏味的工作中解放出来。如果你审视当下许多白领的工作,会发现他们绝大部分时间所做的,并非是那些能让他们对工作充满激情的事情。比如,把数字录入某个特定系统、为了汇报而整理报告、或是为了搞清楚工作重点而费力地核对大量信息。这些事务占据了他们如今大部分的工作时间。

因此,我的看法是 AI 确实能解决这些问题。我认为人们会更乐于将时间投入到更具创造性的工作上,比如推动项目进展、进行有趣的分析,去做那些他们真正热爱而非厌烦的工作内容。然而在今天,这些繁琐的工作是必需的,几乎是每一份工作,无论你我还是其他人,都不可或缺的一部分。如果我们能压缩这部分工作,让人们有更多时间专注于自己真正热衷的事情,这将为公司和个人创造双重价值,而且我相信人们会更享受自己的工作。因此,我非常乐观,并不认为未来会出现人人都失业、世界由机器人主宰的局面。我绝不认为那会是我们的终点。我更倾向于相信,公司和个人的效率都将得到提升,人们也能将更多时间投入到自己充满热情的事业中。

(关于招聘)回顾产业发展史,我们总能看到效率的大幅飞跃。每一次技术变革都伴随着一个过渡期。我认为,其中最关键的一点是,从业者需要保持灵活性,拥抱学习,并接受自己工作的性质和内容可能会发生变化。换言之,两年前的工作内容,不一定和两年后的完全相同。但现实是,尽管我们已经拥有了电脑、自动化和机器人技术,当今世界也并未出现大规模失业。就业市场依然广阔,甚至出现了薪资更高的职位。总的来看,经济体量变得更大,平均每个人的状况也变得更好了。

所以,我认为可以这样来理解。举个简单的例子:过去,许多人需要耗费大量时间进行手动计算。现在有了 Excel,但这并不意味着计算人员就此失业,因为我们有了一个能完成所有计算的工具。大家只是理所当然地把它当成一个工具来使用。我觉得这是一个很好的类比。尽管 AI 是一项截然不同的技术,其颠覆性远超 Excel,但这个类比的核心逻辑是相通的:一个曾经的工作岗位,因自动化技术的出现而改变,人们转而从事更有价值的工作。我相信,这正是今天正在发生的事情。因此,我对这样的未来充满期待。当然,这也确实意味着人们将面临转变,我无意轻视大家心中的那份不确定感,也理解人们的担忧。我认为关键在于拥抱这项技术。

你越是积极地拥抱它、保持灵活、并理解它如何帮助你更快更好地完成工作,你就越能顺利地度过这个转型期。因为它将成为一项极其强大的技术,我一直对我的团队说,我相信AI 有潜力变革每一个行业、每一家公司和每一个岗位。但这并不意味着这些岗位会消失。AI 是在变革它们,而非取代它们。因此,对于上述的每一个领域,包括行业、公司和岗位,都是如此。如果你不积极投身、不主动去利用和学习这项技术,那么你可能真的会面临失业。相反,如果你能这样做,并意识到它如何能让你的工作完成得更好、更快,让你本人在工作上表现更出色、效率更高,甚至坦白说,能推动你去从事更多你可能真正喜欢做的事情,我认为在这样的未来里,公司会发展得更好,人们的生活会更富足,经济也会实现增长。


历史上技术变革范例不胜枚举,但悲观者指出当前AI变革的速度是根本不同之处,您认为这种速度会真正冲击白领就业市场吗?对于一位企业领导者而言,当看到员工生产力突然提升5倍、10倍时,最不可能的想法就是裁掉他们,反而会因为巨大的投资回报而更大力度地投资,是这样吗?


Matt Garman: 速度确实是一个关键因素。这无疑是一个飞速发展的技术领域,人们必须加速跟上它的步伐。所以,我承认这确实是一个挑战,人们必须与时俱进,拥抱变化。我为在座的开发者们举个例子。我听一些开发者表示,他们担心这些编程工具的出现,会让他们变得不再被需要。但我的观点恰恰相反:我们将需要更多,而不是更少的软件开发者。当然,软件开发者的工作内容可能会有所不同。那种独自待在地下室、连续几周埋头苦干的传统开发者形象,我怀疑在未来是否还会是主流。

但我们始终需要真正精通软件的人才。未来,这些专家可能会指挥 AI Agent 去执行具体的编码工作。事实上,我确实认为,大概在两三年后,单纯编写 Java 代码本身,可能不再是一项独立的任务。因为 AI 工具将非常擅长生成 Java 代码。未来,软件开发者的工作将更多地转变为:解构问题,决策要构建什么,整合方案,审阅返回的 Java 代码并判断是否完全符合要求,然后指挥 AI Agent 进行修改,并协调多个 AI Agent 协同工作。这样的开发者将能够创造出巨大的价值,因为他们被技术赋予了更强大的能力。

我们有多少次曾因自己大脑的思考速度与实际动手做的速度不匹配而感到沮丧?你有各种想法,渴望将它们付诸实践,但将想法变为现实总是耗时良久。如果你能为富有创造力的人才解锁这种能力,让他们能够快速解决问题、开发出有趣的应用或取得有意义的成果,那么拥有一个这样的人才所能创造的价值将不可估量。你为什么要放弃这样的人才呢?你只会激动地希望团队里有更多这样的人。当然,这需要人们转变思维,学会如何使用这些新工具。但根据我的经验,大多数人一旦迈过了最初的门槛,就会感到非常兴奋,因为这项技术确实极大地增强了个人能力,让你能够更快地进行创造和开发。

02
AI编程,代码行数是愚蠢的指标


能否估计目前AWS的代码中由AI编写的比例,以及您如何定义“由AI编写”?在工程师层面,是他们主动学习新工具,还是公司也建立了相应的培训机制来帮助他们?


Matt Garman:在过去一两年里,人们似乎很热衷于吹嘘 AI 编写了多少行代码。在我看来,这是一个很傻的指标。AI 完全可以生成无限多行的代码,但其中可能包含大量劣质代码。所以说,代码行数从来都不是衡量工作的最佳标准。通常,代码行数越少反而越好。因此,我一直不理解为什么大家会对这个指标如此津津乐道。对我们 AWS 而言,我看到的最新数据是,超过 80% 的开发者在他们的工作流程中,以某种方式应用了 AI。这包括多种场景:有时是编写单元测试,有时是协助撰写文档,有时是直接生成代码,有时则是通过一种基于 AI Agent 的工作流。例如,我们有像 Q CLI 或 Q IDE 这样的工具,能让开发者与 AI Agent 进行协作,共同完成开发任务。这个比例每周都在增长。所以我承认手头的数字可能不是最新的,但可以肯定的是,我们有超过 80% 的开发者,在为 Amazon 客户构建产品的过程中,以各种形式运用着 AI。

(关于工程师培训)Amazon 是一家大公司,员工背景各不相同。不过,我认为绝大多数 Amazon 的开发者都充满好奇心,所以没用过 AI 编程工具的人数基本为零。但要区分哪些人只是浅尝辄止,哪些人是真正用它来彻底变革自己的工作方式,我认为这正是培训的重要性所在。因为我们确实有一部分员工已经全身心投入其中,并真正摸索出了有效的工作方法。这其中存在一条学习曲线,关键在于要理解如何利用工具来改变工作模式,以及哪些做法能真正提效,哪些反而会拖慢进度。有很多这样的例子:当使用一些第一代编程工具时,你很容易陷入某个具体的方案出不来,而且很难回溯。它的过程非常线性,比如你在进行即兴编码,工具不断给你代码,当你发现“这不是我想要的结果”时,并没有一个简单的方法能返回上一步。你只能被困在当前的代码里。

而使用 Q 工具时,我们采用了一种以 AI Agent 辅助编程为核心的理念:你从一份你想构建的功能规格 (spec) 开始,然后与工具协作来逐步实现规格中的各个部分。即使你在即兴编码时,工具可能会自动修改规格的某些部分,但这份规格始终是你的核心依据。你随时可以返回并修改其中的任何方面或功能。我们看到这个功能让很多开发者有豁然开朗的感觉。其中一个很酷的应用是,你可以借此引导初级开发者学习什么是优秀的编程实践,以及我们是如何思考问题的。这让我想起一件我非常有感触的事。有一次在一个领导力会议上,有人对我说:“我们觉得有了 AI,公司里所有的初级员工都可以被替代了。” 我当时就想:“这是我听过最愚蠢的论调之一。” 这些初级员工可能是你成本最低的雇员,他们对 AI 工具的接受和使用程度最高,而且如果展望未来十年,你没有任何人才梯队成长起来,那公司要如何运作?所以我的观点是,你绝对应该像以往一样,继续招聘应届毕业生,教他们构建软件、分解问题的正确方法。而像 Q 这样的工具,其部分价值就在于它能引导你遵循最佳实践,帮助你学习如何构建系统,并与经验丰富的工程师更好地协作,由他们来传授构建这些系统的正确之道。


您是否会向即将或正在读大学的年轻人推荐工程师这个职业?


Matt Garman: 我的看法是这样的,我最大的孩子马上要读高中最后一年了。首先,我认为孩子们应该去学习任何他们真正充满热情的东西。但我想说,有些能力是需要被特别强调的,比如:你如何进行独立思考?如何培养解决问题的批判性思维能力?如何发展创造力?以及如何树立一种终身学习的心态,让自己时刻准备好去学习新事物?因为以目前的技术发展速度,如果你打算花全部时间只学习某一项特定技能,并指望靠它吃30年老本,那我唯一能向你保证的是,30年后这项技能很可能将变得毫无价值。但如果你学会了“如何学习”以及“如何思考”,我认为这才是学校教育的真正价值所在。工程学教育的伟大之处,并不在于教你某个领域的具体操作技巧,而在于培养你如何思考和如何分解问题的能力。我认为,如果刚毕业的年轻人能真正专注于此,他们的未来将一片光明。

03
AI驱动下大型企业重获初创敏捷性


当您审视内部的工程组织时,您如何衡量其在应用人工智能方面的成功?


Matt Garman: 我不会说我们现在已经找到了什么神奇的衡量标准,我也不认为这和过去有任何不同,它在一定程度上关乎生产力。技术日新月异,我们仍在探索最佳实践,因此我们鼓励大胆尝试,鼓励大家测试不同的工具和方法。我们也在试验不同的组织架构。一个很有意思的现象是,在过去,要构建一个庞大复杂的系统,你需要很多人,因为每个人都只能专注于自己的一小部分。而这项技术的一大优势在于,它能让你对自己主导的工作拥有更宏观的视野。

因此我们发现,在很多情况下,我们更倾向于组建更多专注于特定问题的小型团队。事实上,你可以将产品分解到不同领域,然后让高度专注的团队去攻克难题,这样的小团队能够运转得非常快。你之前在初创公司待过,初创公司相比大型企业的一大优势就是行动敏捷。其实,敏捷并非与生俱来,而是组织方式不同。我们从中认识到,这些新工具能赋能大型组织,让公司也可以通过组建小型作战单元来实现快速行动。当你能够快速行动,又有工具加持,就能为客户创造非凡的价值。我们相信,即使是对于一个规模相对较大的企业,这也将推动每个人加速前进。


04
AI基础设施的建设瓶颈会动态转移,无法通过解决单一问题来满足海量需求


展望未来二到五年,您认为基础设施扩建的瓶颈是什么,是芯片供应、能源还是其他因素?在规划时,了解用量来源至关重要,从增长角度看,您观察到增长最快的领域是哪里,是强化学习、推理还是训练?另外,同一种芯片可以满足所有这些不同的需求吗?


Matt Garman: 我在商学院时读过一本叫《目标》的书,它的核心观点是,当你在优化一条生产线时,瓶颈并非是固定的。你解决了一个瓶颈,下一个环节就会成为新的瓶颈。从很多方面来看,我们现在面临的情况正是如此。你提到的所有因素,在某个时间点都可能成为瓶颈。我并不认为问题只出在单一环节上,解决了旧的,新的就会出现。你必须系统性地解决所有问题。比如,不是说“只要我们有无限的芯片,就万事大吉了”,因为你还需要电力;就算你有无限的电力,如果没有足够的网络设备,问题依然存在。你必须确保所有环节都万无一失。

作为基础设施和云服务提供商,我们面临的挑战和机遇在于,这个市场机遇太庞大了。这意味着对算力、电力、服务器、芯片、HBM 内存、网络设备、磁盘等所有组件都有海量需求。过去几年,短缺问题无疑集中在 Nvidia 芯片及通用芯片上。我认为,随着芯片供应的缓解,瓶颈可能会转移到电力,或者再次回到芯片上。要让所有这些要素的供给与需求的增长完全同步,极其困难,因为很多环节都需要投入巨额资本。因此,我们的职责就是全盘考量这些问题。我们会展望未来一年、三年、五年,思考如何确保我们的业务和客户拥有支持其发展所需的电力,如何让他们能获得充足且多样化的算力资源,以及如何确保他们拥有所需的网络连接。这要求我们去预测未来数年人们到底需要多大规模的资源。有时我们会判断失误,导致资源不足,但这正是我们替客户承担的责任,让他们不必为这些复杂问题而分心。

(关于用量增长的来源)当前绝大部分的增长最终都源于推理,也就是客户使用终端产品的环节。大家都很热衷于讨论各种模型构建的新技术,无论是强化学习还是微调,虽然这些技术很有趣,但绝大多数的用量实际上来自最终用户,也就是对模型结果的推理调用。此外,还有一系列工作是关于如何创造出更好、成本更低、效率更高、能力更强、性价比更高的模型。这属于模型构建的范畴:在这个领域,我们有大量高度专注的初创公司,也有一批大型企业在思考如何创建自定义模型以及如何将多个模型组合应用。但实际上,一旦模型开发完成并投入使用,绝大部分的算力消耗都是由终端应用驱动的,比如用户提出一个问题、与应用程序交互或运行某个工作流。这才是用量的主要来源。我们对所有这些环节都给予同等关注。

从根本上说,对于基础设施或电力而言,这些用途之间的区别并不大。计算机并不在乎你用它来做强化学习、微调还是推理。如今,大多数平台实际上正在趋于融合,可能只是在网络层面会有些许差异,比如大规模训练任务可能需要特殊的网络配置。

(关于芯片的通用性)完全可以。以我们自研的 Trainium 芯片为例,它就是一个绝佳的平台,事实证明,它在推理和训练方面都表现出色。许多 Nvidia 的芯片也是如此,同一套服务器可以同时胜任这两种任务。


05
AWS史上最成功的一笔收购


与竞争对手相比,你们自研芯片的独特之处是什么?你们是否认为Nvidia的CUDA构成了难以逾越的护城河?有传言称Google可能出售TPU,AWS是否考虑过向第三方销售自研芯片?最后,我想深入聊聊对Annapurna的收购,外界可能低估了其重要性。在远早于生成式AI的时代,是怎样的洞察让你们决定自研芯片,并看中了Annapurna团队的哪些特质?


Matt Garman: 在自研芯片方面,我们的出发点始终是客户,而非竞争对手。我们关注的是客户到底需要什么。通过与客户交流,我们发现他们需要最广泛的选择。他们关心可以获得哪些不同的功能,有哪些不同的成本选项,以及如何在价格和性能之间权衡。我们几乎从未见过一个单一解决方案能够完美适配每一位客户的每一个工作负载。因此,我们的自研芯片之旅,实际上始于我们最初打造的产品——我们称之为 Nitro 卡。我们早在十年前就研发出了第一款自研芯片。我们收购 Annapurna 后,我们的芯片团队就此起步。这次收购让我们能够将所有的虚拟化功能从主处理器上卸载下来。我们不再使用昂贵的 x86 核心来处理网络虚拟化、虚拟机虚拟化、存储虚拟化等任务。通过将这些功能从处理器中分离出去,我们为客户带来了显著的性能提升。现在,客户可以从 EC2 实例中获得媲美裸金属服务器的性能,同时我们的安全架构也远超同行,这一点与其他任何云服务商在其产品中采用的方式都截然不同。时至今日,也就是十年后,这依然是我们一个极为重要的差异化优势。

在此基础上,我们决定更进一步,着手打造一款通用处理器。我们选择了 ARM 核心架构,最终研发出了名为 Graviton 的定制 ARM 处理器。我认为,Graviton2 是我们第一款真正达到企业级标准的通用处理器,并取得了巨大的成功。事实上,在我们最重要的客户中,绝大多数都已将部分甚至全部的 CPU 工作负载迁移到了 Graviton 上。当然,为了给客户提供充分的选择,我们依然销售大量的 Intel 处理器和 AMD 处理器。但 Graviton 作为一个高性价比选项,优势非常明显。以我们当前最新一代的 Graviton4 处理器为例,其绝对性能比市面上顶级的 x86 处理器还要快 20%,而价格却要低 20%。这对客户而言是极具吸引力的价值主张。当然,也有些工作负载仍然依赖于为 Intel 或 AMD 平台特定优化的代码或设计,许多客户也依然在这些平台上运行,并获得了出色的性能,他们对此非常满意。

时间快进到大约五年前,我们预见到 AI 工作负载的兴起——当时还不是生成式 AI,而是传统的 AI。我们意识到,应该着手研发自己的 AI 芯片,以补充现有的产品线。我们是全球第一家在云环境中提供 Nvidia 产品的服务商,因此我们亲眼见证了其广受欢迎的程度,同时也认为客户可能需要 Nvidia GPU 之外的替代方案。因此,我们着手打造了第一款 AI 加速器芯片 Inferentia。这款芯片专门用于推理,功耗相对较低。事实证明,它最大的客户是 Alexa。通过使用 Inferentia,Alexa 团队在处理用户语音交互时的推理成本降低了约 70%。那一刻,我们意识到自己正走在一条正确的道路上。随后,我们开发了第一代我们定位为训练芯片的 Trainium 1。我们从中积累了大量经验,其主要目的其实是建立软件生态系统,让开发者能够为我们的芯片编写程序。现在,我们已经推出了第二代产品 Trainium 2。

尽管如此,如今在 AWS 上,绝大多数客户运行的仍然是 Nvidia 的方案,我们相信这种情况在未来很长一段时间内都不会改变。Nvidia 拥有出色的团队、卓越的产品和强大的执行力,我们的许多客户也确实非常享受并习惯于使用其生态系统。

(关于CUDA护城河)CUDA 绝对是一款卓越的软件产品。它为开发者提供了一个与芯片编程的优秀接口,非常出色。但同时,我们一些最大的客户非常青睐 Trainium 带来的性价比优势。像 Anthropic 这样的公司正在积极拥抱并大规模使用 Trainium。我们自己也在底层使用 Trainium 来支持 Bedrock 平台的许多模型,尤其是在无服务器推理的场景下,客户无需关心底层芯片,我们就能将成本与性能的优势直接交付给他们。因此,我们认为,为客户提供选择的权利是极其重要的,未来我们也将持续增加更多选项,努力为客户创造更多价值。

(关于出售自研芯片)我的原则是,永远不说“绝不”。我认为那是一种有趣的商业模式,或许未来某天我们也会这么做。但目前,我们的芯片只在自有环境中使用,这能带来诸多好处,其中最关键的一点就是极大地简化了复杂性。你想想,如果你要研发一款商用芯片,也就是要在不同环境中运行的产品,你就必须为各种不同的服务器平台、数据中心环境做适配,还要操心固件更新等一系列问题。而我只需要为一种环境进行设计:它运行在 AWS 的数据中心,部署在 AWS 的服务器上,连接着 AWS 的网络。这是一个高度简化的技术栈。对外销售产品会引入巨大的复杂性。但话又说回来,我永远不会把话说死。

(关于收购Annapurna的洞察)我们欣赏那个团队的一个重要原因,就是他们极具使命感,并且能与 Amazon 的文化完美融合。当时,正如我之前提到的,我们正构思将虚拟化功能转移到一张专门的卸载卡上。我们环顾市场,想看看谁在做类似的产品。结果发现,根本没人有这个想法,自然也就没有这样的产品。但 Annapurna 当时正在研发一种可以提供网络虚拟化功能的高性能网卡,上面搭载了可进行通用编程的 ARM 核心。在研究这款产品时,我们萌生了一个想法:或许也可以利用它来卸载 EBS 卷 (我们的外部块存储产品) 的虚拟化。于是,我们开始与他们探讨方案的可行性。我们就像合作伙伴一样,与当时还是初创公司的他们共同进行设计,合作过程中我们发现彼此的团队一拍即合。他们极其聪明,富有远见,坚韧不拔,并且始终以客户为中心,对未来的构想也非常宏大。当我们意识到这背后蕴藏的巨大机遇时,便决定发起收购。这无疑是我们有史以来最成功的一笔收购。坦率地说,我认为这是商业史上最成功的收购案之一。而且值得一提的是,十年后的今天,当时团队的大部分核心成员仍然在 Amazon 工作。这正体现了我们在进行收购时非常看重的一点:你是否真正认同我们想要共同成就的事业?我们欣赏 Annapurna 的地方在于,他们渴望与我们共同成就一番伟大的事业,共同建设 AWS。我们对此充满激情,他们也同样如此,所以直到今天他们仍与我们并肩作战。


06
“单一模型主导一切”是过时观点


当您评估一个新模型并决定是否为其提供推理服务时,决策过程是怎样的?关于模型市场的未来,OpenAI的一些人认为将是一个全能模型的时代,但我个人倾向于我们将拥有更多专业化的模型,您对此有何看法?


Matt Garman: 虽然在当前快速扩张的阶段,我们必须做出一些资源上的权衡,但我们的最终愿景是为客户提供每一个可用的模型。我希望客户能够从全世界所有最顶尖的模型中自由选择。我认为未来模型的数量会极其庞大。当然,由于构建成本高昂,真正的大型前沿模型可能只有少数几个,但与此同时,会有大量针对特定用途构建的模型。事实上,仅在上个月,我们就刚刚在 Bedrock 平台上引入了几家新的初创公司,例如开发 AI Agent 工作流的 Writer,以及专注于视频理解的 12 Labs。未来我们会不断引入更多合作伙伴。我们还有像 Poolside 这样专注于代码生成的客户,形成了庞大的长尾生态。Stability 在持续推出有趣的图像和视频生成模型,而 Luma 则拥有目前市面上最顶尖的视频生成模型之一,非常出色。因此,我们会继续在 Bedrock 上添加和支持各类模型,我们对模型的种类不设限制,希望能支持所有开发者。这与我们 AWS Marketplace 的理念如出一辙。

你可以把模型类比为 SaaS 应用或其他软件,我们的目标就是让所有应用——从 Salesforce、ServiceNow 这样的大型企业级应用,到仅由一两人团队开发的小型应用,都能在 Marketplace 上架。我们的目标,就是为客户提供世界上所有的模型。当然,这需要模型提供方的合作,所以并非所有模型目前都已上线,有些模型仍由其他平台独家提供。但假以时日,我们希望能将一切变为可能。

(关于单一模型与专业模型之争)“单一模型主导一切”的观点,大概是两三年前的主流看法。而我们从生成式 AI 发展之初就一直认为:客户需要使用多种模型。观察当今大多数客户的系统,你会发现他们就在使用很多模型。通常,他们会用一个大型的顶级模型进行推理和规划,然后将具体任务分派给那些更擅长理解特定工作流程的专业模型。这些专业模型可能是在 Llama 模型基础上定制微调的,也可能是从 Anthropic 或 Nova 模型蒸馏而来的。客户需要在成本和能力之间进行权衡,所以他们实际使用的是一种混合各类专家模型的系统。我认为,这一趋势目前尚处于早期阶段。我们看到,现在许多企业都希望模型能深度理解他们自身的数据集。因此,他们会和我们探讨如何进行更好的微调,从而让模型真正理解他们的业务数据。比如在保险或支付等工作流程中,企业对其特定领域、客户和业务流程有深入的了解,并希望模型也具备这些知识。他们需要一个通用模型来提供强大的基础智能,但同时希望用自己的数据去优化它。此外,他们还希望在成本和性能间取得平衡,将某些任务,例如图像生成,交给专门的模型完成,而不是全部依赖那个通用模型。我们发现,这样的应用模式正变得越来越普遍。

此外,我认为随着我们进入一个更加以AI Agent 为中心的世界,模型固然至关重要,它是驱动这一切的引擎,但并非全部。如今,大家之所以如此追捧模型开发者,是因为这个领域新颖又有趣。但我认为,我们正快速进入这样一个时代:人们真正需要的是在底层调用模型来完成特定任务的应用程序。为此,你需要考虑应用框架、工作流程以及各种为实现特定业务目标而定制的模块。你需要为这个目标整合不同的组件。例如,像 ADP 这样处理薪资发放的公司,其工作流程与 Netflix 管理电影制作的工作流程截然不同。既然是不同的工作流程,就需要有定制化的设计来适配。因此,在与客户的交流中我们发现,人们能从 AI中获得的大部分投资回报,将来自那些能够代为执行实际工作的 AI Agent 工作流程。而这些工作流程需要一整套全新的能力,例如,你需要管理系统的内存、管理交互过程、需要有操作的审计日志,以及一系列根据具体业务定制的功能模块。

07
模型选择开源是一种商业模式选择,与技术是否领先没有必然联系


如何看待开源与闭源路线的权衡,以及AWS与Anthropic、OpenAI、Meta等公司的合作关系?您是否认为AWS会打造一个最前沿的模型来与闭源实验室竞争?如果AWS真的这么做,与Anthropic或Meta的关系会发生变化吗?许多人认为模型定价本质上是一场竞相压价的游戏,最终将趋同于芯片和电力成本,您对此有何看法?最后,开源模型在基准测试上似乎总是落后闭源模型三到六个月,您认为这个趋势会持续吗?


Matt Garman: 我们希望能与所有公司合作,并且我们与他们都建立了良好的合作关系。实际上,我认为这些模型大多是开放权重,而非开源。问题的核心在于,用户能在多大程度上根据自己的应用场景去定制化这个模型。像 Llama、Mistral 等模型的一大优势就是提供了高度的定制化能力。你可以引入自己的数据。真正的价值在于,将你自己的数据与模型结合,根据目标应用场景来强化模型能力,并最终形成一个定制化的工作流程。无论是直接提供开放权重让你自己动手,还是通过 API 让你能对所谓的“闭源”模型进行蒸馏或微调,你实际上都可以按自己的需求去定制它。这在某种程度上就是我们通过 Nova 提供的能力,你可能看不到模型权重,但依然可以进行大量的定制化。这也是现在有些人非常喜欢使用 Nova 的原因。我确实认为,未来每个人都会想要定制自己的模型。至于用户是选择通过 API、寻求专业服务,还是直接获取权重自行定制,这仅仅是定价以及托管环境不同所带来的差异。但从根本上说,人们都希望定制模型,我相信所有模型最终都会以某种形式允许用户这样做。

(关于自研前沿模型)我们始终认为,为客户提供选择至关重要。我们相信,通过我们正在打造的 Nova,能够提供一些独特且差异化的能力,并对其已取得的成果感到非常兴奋。同时,我们也非常珍视与众多在 Bedrock 平台上运行的伙伴,例如 Anthropic,的合作关系。因此,我们认为,为客户提供丰富的模型组合至关重要。这在今天非常重要,未来只会更加重要。所以,只要我们认为能为客户持续提供差异化的能力,我们就会继续在该领域投资。

(关于与合作伙伴的竞合关系)亚马逊有一项非常出色的能力,这也是过去 19 年来我在 AWS 引以为傲的成就之一:我们建立了一个独特的合作伙伴生态系统。在这个生态系统中,我们与合作伙伴建立信任,有时也会与他们竞争,但我们始终坚持共同服务客户。我希望并相信,在 AI 模型这个领域也会如此。从一开始我们就清楚,会有人在我们的平台之上构建服务,我们构建我们的能力,他们也构建他们的能力,这其中难免会产生冲突。有时,即便是像 Snowflake 或 MongoDB 这样的优秀合作伙伴,也存在竞争关系,类似情况还有很多。再比如在联络中心领域,像 Genesis 这样的客户,他们与我们的 Connect 产品存在竞争,但同时他们也是我们非常出色的合作伙伴。他们在我们的平台上构建业务,而我们承诺:绝不会在任何方面让合作伙伴处于劣势。我们会为他们提供最好的计算、存储和模型资源。我们不会因为你构建了与我们竞争的产品,就不给你优惠的价格。只要你有相应的业务体量,业务发展良好,并且我们的客户对此感兴趣,我们就会给你一个极具竞争力的价格。实际上,我们已经与许多这类合作伙伴建立了非常成功的市场推广策略。坦白说,我们也是花了一段时间才摸索出正确的方法:如何让一个团队可以与对手激烈竞争,而另一个团队又能成为同一个对手在全球范围内最好的渠道伙伴。这正是我们锤炼出的核心能力。这种能力至关重要,我相信在当前的情况下,它将继续适用。

(关于模型定价)将趋同于芯片和电力成本,我认为这不太可能成为现实。这些模型如今并非同质化商品,我看不出未来它们为何会变成那样。以云计算为例,当我们最初推出云服务时,所有人都告诉我们,这不过是一两年的事,云服务很快就会变成同质化的商品。但时至今日,它并没有。不同的云服务在可用性、功能和能力上都存在差异。我们必须持续创新,通过提供新的性价比优势和功能来赢得客户的青睐。我认为模型提供商也是如此。如果你今天去问客户,他们是否认为 Llama、Claude 和 GPT 是完全一样的同质化商品,他们肯定会说:“当然不是,它们在很多方面都截然不同。” 你可以继续问下去,它们和 Luma 的模型一样吗?当然不一样。你会发现每个模型都有其独特性。即便是开源模型,比如你问大家 Mistral 和 Llama 是否同质化,我想他们也会说不是,因为在不同的应用场景下,人们会各有偏好。所以,我认为所有人都必须不断增加新功能、持续创新。你所运营的云环境以及不断迭代能力的模型本身,都在创造巨大的价值。这里面有很大的价值空间,人们完全可以从中盈利。

(关于开源与闭源的差距)其实,成为闭源或开源模型,本身并没有什么内在的优劣之分,这纯粹是一种选择。我认为,中国的模型开发者开源了他们最好的模型,我们的许多客户都喜欢用 DeepSeek,Qwen 也是一个非常好的模型,还有一些其他模型都给我留下了深刻的印象。你看,这只是一种选择。OpenAI 也开源了他们的模型,虽然是一个比其前沿模型规模更小的版本。Anthropic 则选择不开源任何模型。而 Llama (Meta) 选择开源其所有模型。那么,Llama 的落后是因为它选择了开源吗?我认为不是。只是碰巧,他们目前的模型还没能赶上最顶尖的水平。但我相信 Meta 正计划做到这一点。至于他们未来会不会开源那个顶尖模型,我无从知晓。但这背后没有必然规律,这只是一种关乎价值创造的选择,取决于你作为一家企业的目标是什么,以及你认为价值捕获点在哪里。未来究竟会如何,谁也说不准。或许您的猜测比我的更准,我也不知道。我认为 Llama 的情况或许有所不同,但对于一些模型,特别是来自中国的那些模型,这个说法是完全正确的。


08
在真实应用场景中评估模型的真正标准


现在的模型在很多基准测试上表现已接近饱和,这是否意味着我们需要一套新的基准测试?您理想中的新基准测试是怎样的?您个人在拿到一个新模型时,评测标准又是怎样的?


Matt Garman: 我认为,基准测试特别适合用来衡量同质化商品。比如,如果你想衡量一块 SSD 的速度,基准测试就非常有效。你可以测出它的 IO 速率、流式吞吐率,基本上就能全面了解其性能。但是,系统的复杂性越高,基准测试的效果就越差。以数据库早期发展为例,当时大家普遍使用像 TPC-B 这样的基准测试。但现在,你几乎听不到任何数据库厂商再提它了,因为大家都已经过了那个只看基准测试的阶段,转而需要结合自己的应用场景来进行测试。我认为,AI 模型领域最终也会走向这个方向,你必须亲自测试,找出哪个模型最适合你的特定需求。因为基准测试有一个特点:一旦一个问题可以被基准测试所定义和解决,它就不再是那个最核心、最有趣的问题了。我认为我们正迅速接近这个临界点。因为让模型针对性地在基准测试上取得高分其实相当容易,但这并不能让它成为最好用的模型。

(关于个人评测标准)我可能不是评测这些模型的最佳人选,因为我认为评估模型需要综合考量多个方面。我个人的测试方法,是将其置于实际应用中进行评估。当我对一个模型进行初步测试时,我喜欢把它作为某个应用程序的一部分来使用。你可以从研究能力的角度来评估它,比如,它在多大程度上能整合各种想法,将其撰写成文档,并最终生成逻辑连贯的内容。这是我喜欢测试的方面之一,因为它能检验模型的多个维度:信息检索能力、提出新创意的能力,以及交互的流畅度。速度也是其中一个考量因素,当我想要了解一个新模型的表现时,速度是我最关注的指标之一。此外,我个人也喜欢测试这些模型的集成情况,所以评估的不仅是模型本身,还有它与系统集成的效果。以我们的合作伙伴 Perplexity 为例,有时你甚至不知道他们背后用的是哪个模型。我认为他们做得非常出色,拥有一个极佳的用户界面 ,它在回答问题和进行后台工作时,会让你感知到它正在“思考”。我认为,UI 的重要性正日益凸显,几乎与模型本身同等重要。Perplexity 团队在 UI 设计以及将其融入搜索体验方面做得非常出色。所以,我认为测试模型不仅仅是进行纯粹的基准测试,尽管那些也很有趣。实际上,延迟有时也是关键。如果一个模型速度太慢,那就无法满足实际应用场景的需求。因此,对于如何测试模型这个问题,我并没有一个标准答案,我更倾向于将模型应用到我们尝试解决的各种具体问题中,然后看哪个能带来更好的结果。


您认为“速度”这个因素被低估了,大家都在谈论质量,但很多应用场景中获得答案的速度至关重要,您怎么看?


Matt Garman: 在某些情况下确实如此。如今,消费者的大多数用例都是实时的,对吧?你提出一个问题,就希望能立即得到答案。所以,速度在一定程度上总是很重要的。但是,我们再来看 ADP 这样的例子。如果你有一个 AI Agent负责处理所有的工资单并执行相关的全部工作流,那么你实际上会更关心准确性,而不是速度。因为这些任务可以在月底统一处理,你可能有好几天的时间来完成。它并不需要瞬间完成,你知道任务的时间点,可以从容处理,但准确性是第一位的。实际上,我们几周前刚发布了一项功能,它能够采用一种名为“自动推理” 的方法,这是一种基于数学证明的方式来执行一系列规则,并将其应用于大语言模型,是的,超级酷。这正是一个追求准确性而非速度的典型例子。在这种情况下,或者说在许多 AI Agent工作流的场景下,异步模式是完全可以接受的。即便是在编程领域,情况也是如此。如今,当你在进行实时交互式编程时,延迟至关重要,对吧?你输入代码,就期望马上得到反馈。但在一个以 AI Agent为中心的工作模式中,你可以对它说:“好了,你去执行这项任务,再去执行那项任务,然后再执行这项任务。” 在此期间,你可以继续处理其他工作。AI Agent可能在一小时后返回结果,这完全没问题,因为你正在忙别的事情。当它返回结果后,你再来审阅。当然,如果它三周后才返回结果,那可能就太慢了。所以延迟在某种程度上始终是需要考虑的。但我确实认为,如果因为任务是异步的,或者因为模型可以花更长的时间思考从而给你带来成本更低、质量更高的结果,这完全取决于具体场景。因此,对于消费者的用例来说,其实时性和同步性的本质决定了速度的绝对优先。但我认为,对于大量的企业用例而言,异步交付结果是可以接受的。


09
AI Agent将解放人力,但目前尚未实现完全的自主运行


在哪些用例中,已经出现了可规模化、结果可靠、并能带来明确投资回报的AI Agent应用?最后,对于那些担心工作被AI取代的人,您会对他们说些什么鼓励的话?


Matt Garman: 我可以从几个方面来说明。首先是我之前提到过的编程用例。我认为 AI Agent辅助编程拥有巨大的机会,能够真正释放开发者的潜力,让他们创造出更多价值。所以我对 AI Agent在编程领域的应用感到非常兴奋,我们在这个领域看到了巨大的商业潜力和客户需求。其次,一直以来阻碍 AI Agent 发展的一个难题是,从头构建一个 AI Agent 本身就相当困难。而且即使你构建出来了,又该如何以可扩展的方式去运维它?当然,你可以为自己构建一些简单的、类似自动化脚本的 AI Agent,比如“读取我的邮件,然后把内容整理到指定位置”。这些更像是简单的、基于规则的 AI Agent。但当你要构建一个企业级的 AI Agent 时,管理起来就变得相当复杂。

我们在 Amazon Bedrock 中推出了一套名为 Agent Core 的功能,它为开发者提供了一系列构建模块,用于打造可扩展、安全、可审计、可衡量的 AI Agent。这些模块包括:一个完全无服务器化的安全运行时环境,它可以按需扩展至成百上千个实例,也能在没有任务时自动缩减至零,并确保 AI Agent始终在一个完全隔离的安全容器中运行。我们还内置了短期和长期记忆功能,使其能够记住当前和历史的交互内容。我们提供了 AI Agent网关等组件,允许 AI Agent与外部其他系统或其他 AI Agent进行安全的身份验证和交互,你甚至可以托管一个 MCP 服务器或处理其他复杂的交互场景,从而同时建立起安全和身份验证的双重边界。此外,我们还提供了内置的流程管理和“可观察性”功能,你可以方便地将监控数据接入 AWS 或第三方的服务。这是一个完全开放的框架,它兼容任何模型,无论你使用 Gemini、OpenAI 还是 Bedrock 的模型,它也兼容任何主流框架,比如我们自家的开源框架 Strands,或是 LangChain 等。

我们发现,过去企业之所以没有大规模构建AI Agent工作流,是因为他们必须自己搭建所有这些底层的基础设施,这非常困难。现在有了 Agent Core,我们看到开发者正蜂拥而至,开始真正思考如何利用它来释放业务潜力。我看到了它在处理企业工作流、提升个人生产力、市场营销、销售等多个领域的应用案例。几乎每个行业的人们都在利用它构建各种 AI Agent。当然,目前这些 AI Agent工作流大多仍包含“人在回路” (human in the loop) 的环节,尚未实现完全的自主运行。但我已经看到了一条清晰的路径——未来它们将变得更加自主,从而真正地解放人力,让人们能够成就更多。

(给焦虑者的鼓励)我认为这最终要回归到核心:如何让自己变得更有价值。这是一个不断创造价值的世界,AI 和 AI Agent本身并不会创造价值,它们的价值在于能够赋能员工,让你们每个人都能创造更大的价值。如果一个人非常擅长市场营销,我们希望他能专注于营销策略,而不是被组织营销活动等繁杂的琐事所困扰。如果一个人是出色的程序员,他真正的价值在于构建卓越的应用程序,而不仅仅是因为他碰巧掌握了某一门特定的编程语言。这正是人们需要去学习和提升的能力所在。你越是能够专注于解决客户的实际问题,并学习如何利用这些新技术和新工具,我就越不担心所谓的工作会消失,或者世界会变成一个只有机器人在工作的样子。


版权说明:
1、本文来源:数字开物。
版权归相关权利人所有,转载部分是出于传递更多信息之目的。智教新媒尊重原创,如涉版权,请联系删除。
2、如果您的文章希望被智教新媒报道,请发邮件到 service@iedumedia.com公邮,会有专人在1-2个工作日回复您。

关注智教新媒公众号