如果说AIGC开启了内容生成的智能时代,那么AIAgent则有机会把AIGC的能力真正产品化。
AIAgent像一位更具象的全能员工,被称为是人工智能机器人的初级形态,能够如同人类一般观察周遭环境、做出决策,并自动采取行动。
比尔·盖茨曾直言,“掌控AIAgent,才是真正的成就。届时,你将不再需要亲自上网搜索信息。”AI领域的权威专家们同样对AIAgent的前景寄予厚望。微软CEO萨提亚·纳德拉曾预言,AIAgent将成为人机交互的主要方式,能够理解用户需求并主动提供服务。吴恩达教授亦预测,在未来的工作环境中,人类和AIAgent将以更加紧密的方式协作,形成高效的工作模式,提高效率。
AIAgent不单是技术的产物,更是未来生活与工作方式的核心。
这不禁让人回想,当Web3和区块链刚引起广泛讨论时,人们也常常用"颠覆"一词来形容这项技术的潜力。回顾过去几年,Web3从最初的ERC-20、零知识证明,逐渐发展到了与其他领域相融合的DeFi、DePIN、GameFi等。
若将Web3与AI这两大热门数字科技相结合,会不会产生1+1>2的效果呢?融资规模越来越庞大的Web3AI项目,能否为行业带来新的用例范式,创造新的真实需求?
AIAgent:人类最理想的智能助手AIAgent的想象力到底在哪里?网上盛传一个高分答案,“大语言模型只能编个贪吃蛇,而AIAgent可以编出一整个王者荣耀。”听起来很夸张,但并未言过其实。
Agent,国内通常翻译为“智体”。这一概念由“人工智能之父”Minsky在1986年出版的《思维的社会》一书中提出,Minsky认为社会中的某些个体经过协商之后可得出某一问题的解,这些个体就是Agent。多年来,Agent一直是人机交互的基石,从微软的剪辑助手Clippy到GoogleDocs的自动建议,这些早期形态的Agent表现出了个性化交互的潜力,但在处理更复杂任务方面能力仍然有限。直到大语言模型(LLM)的出现,Agent的真正潜力才得以被挖掘。
今年5月,AI领域权威学者吴恩达教授在美国红杉AI活动上分享了关于AIAgent的演讲,在其中,他展示了其团队做的一系列实验:
让AI去写一些代码并运行,对比不同LLM和工作流程得出的结果。结果如下:
GPT-3.5模型:准确率48%
GPT-4模型:准确率67%
GPT-3.5+Agent:高于GPT-4模型的表现
GPT-4+Agent:远高于GPT-4模型,非常出色
的确。大多数人在使用ChatGPT这种LLM时,方式通常是:输入一段提示词,大模型会立即生成答案,不会自动识别和纠正错误删除重写。
相比之下,AIAgent工作流程是这样的:
首先,先让LLM写一个文章大纲,如有必要,先在互联网上搜索内容进行调研分析,输出初稿,然后阅读草稿并思考如何优化,如此循环往复、多次迭代,最终输出一篇逻辑严谨、错误率最低的高质量文章。
我们可以发现,AIAgent与LLM的区别在于,LLM与人类之间的交互基于提示词(prompt)进行。而AIAgent仅需设定一个目标,它就能够针对目标独立思考并做出行动。根据给定任务详细拆解出每一步的计划步骤,依靠来自外界的反馈和自主思考,自己给自己创建prompt,来实现目标。
因此OpenAI对AIAgent的定义是:以LLM为大脑驱动,具有自主理解感知、规划、记忆和使用工具的能力,能自动化执行完成复杂任务的系统。
当AI从被使用的工具变成可以使用工具的主体,就成为了AIAgent。这也正是AIAgent可以成为人类最理想智能助手的原因所在。例如,AIAgent能够基于用户历史线上互动,了解并记忆用户的兴趣、偏好、日常习惯,识别用户的意图,主动提出建议,并协调多个应用程序去完成任务。
就如同在盖茨的构想中,未来我们不再需要为不同的任务切换到不同的应用中,只需用平常的语言告诉电脑和手机想做什么,根据用户愿意共享的数据,AIAgent将提供个性化的响应。
单人独角兽公司正在成为现实AIAgent还能够帮助企业打造以“人机协同”为核心的智能化运营新模式。越来越多的业务活动将交由AI来完成,而人类则只需要聚焦于企业愿景、战略和关键路径的决策上。
就像OpenAI首席执行官SamAltman曾在采访中提到过这样一个引人注目的观点,随着AI的发展,我们即将进入“单人独角兽”时代,即由单人创办并达到10亿美元估值的公司。
听起来天方夜谭,但在AIAgent的助力下,这个观点正在成为现实。
不妨做个假设,现在我们要创办一家科技初创公司。按照传统方法,显然我需要雇佣软件工程师、产品经理、设计师、营销人员、销售和财务人员,各司其职但都由我来协调。
那么如果使用AIAgent呢,我可能甚至都不需要雇佣员工。
Devin—自动化编程
替代软件工程师,我可能会使用今年爆火的AI软件工程师Devin,它能帮我完成所有前端和后端的工作。
Devin由CognitionLabs开发,被称为是“世界上第一个AI软件工程师”。它能够独立完成整个软件开发工作,独立分析问题、做出决策、编写代码并修复错误,均可自主执行。大大减轻了开发人员的工作负担。Devin在短短半年内就获得了1.96亿美元的融资,估值迅速飙升至数十亿美元,投资方包括FoundersFund、KhoslaVentures等知名风险投资公司。
虽然Devin仍未推出公开版本,但我们可以从另一个最近爆火Web2的产品Cursor一窥潜力。它几乎可以为你完成所有工作,将一个简单的想法在几分钟内转化为功能性代码,你只需要发号施令,就能“坐享其成”。有报道称,一个八岁的孩子,在没有任何编程经验的情况下,居然使用Cursor完成代码工作并建起了一个网站。
Hebbia—文件处理
替代产品经理或财务人员,我可能会选择Hebbia,它能帮我完成所有文档的整理和分析。
与Glean侧重企业内文档搜索不同,HebbiaMatrix是一个企业级的AIAgent平台,借助多个AI模型,帮助用户高效地提取、结构化、分析数据和文档,从而推动企业生产力的提高。令人印象深刻的是,Matrix能一次性处理多大数百万份文档。
Hebbia在今年7月完成了1.3亿美元B轮,a16z领投,GoogleVentures、PeterThiel等知名投资者参投。
JasperAI—内容生成
替代社媒运营和设计师,我可能会选择JasperAI,它能帮我完成内容的生成。
JasperAI是一个AIAgent写作助手,旨在帮助创作者、营销人员和企业简化内容生成流程,提高生产力和创作效率。JasperAI能够根据用户要求的风格生成多种类型的内容,包括博客文章、社交媒体帖子、广告文案和产品描述等。并根据用户的描述生成图片,为文本内容提供视觉辅助。
JasperAI已获得1.25亿美元的融资,并在2022年达到了15亿美元的估值。根据统计数据,JasperAI已帮助用户生成超过5亿个单词,成为使用最广泛的AI写作工具之一。
MultiOn—网页自动化操作
替代助理,我可能会选择MultiOn,帮我管理日常任务、安排日程、设置提醒,甚至是规划出差行程,自动预订酒店,自动安排网约车。
MultiOn是一个自动化的网络任务AI代理,能够帮助在任何数字环境中自主执行任务,例如帮助用户完成在线购物、预约等个人任务,提升个人效率,或帮助用户简化日常事务,提高工作效率。
Perplexity—搜索、研究
替代研究员,我可能会选择英伟达CEO都在每天使用的Perplexity。
Perplexity是一个AI搜索引擎,能够理解用户的提问,拆分问题,然后搜索和整合内容,生成报告,以向用户提供清晰的答案。
Perplexity适用于各类用户群体,例如学生和研究人员可以简化写作时的信息检索流程,提高效率;营销人员可以获取可靠数据支持营销策略。
以上内容仅为想象,当下这些AIAgent的真正能力和水平尚不足以替代各行各业中的精英人才。正如LogenicAI联合创始人李博杰所言,目前LLM的能力还只是入门级水平,远远达不到专家级,现阶段的AIAgent更像是一个干活比较快但不太可靠的员工。
然而,这些AIAgent凭借各自的特长,正在助力现有用户在多样化场景中提高效率和便利性。
不仅仅限于科技公司,各行各业都可以在AIAgent的浪潮中获得益处。在教育领域,AIAgent可以根据学生的学习进度、兴趣和能力提供个性化的学习资源和辅导;在金融领域,AIAgent可以帮助用户管理个人财务,提供投资建议,甚至预测股票走势;在医疗领域,AIAgent可以帮助医生进行疾病诊断和治疗方案的制定;在电商领域,AIAgent还可以作为智能客服,通过自然语言处理和机器学习技术自动回答用户咨询,处理订单问题和退货请求,以此提高客户服务效率。
Multi-Agent:AIAgent的下一步在上一节关于单人独角兽公司的设想中,单一的AIAgent在处理复杂任务时面临着局限性,难以满足实际需求。而运用多个AIAgent时,由于这些AIAgent基于异构LLM,集体决策困难,能力有限,以至于还需要人类充当这些独立AIAgent之间的调度员,协调这些服务于不同应用场景的AIAgent去工作。这便催生了“MultiAgent(多智体框架)”的兴起。
复杂问题往往需要融合多方面的知识和技能,而单个AIAgent的能力有限,难以胜任。通过将不同能力的AIAgent进行有机组合,Multi-Agent系统可以让AIAgent发挥各自的长处,取长补短,从而更有效地解决复杂问题。
这非常类似于我们实际中的工作流程或组织结构:由一个领导者分配任务,拥有不同能力的人,负责不同的任务,每个工序执行的结果给到下一个工序,最终得到最后的任务成果。
在实现过程上,由较低级别AIAgent执行各自的任务,而由级别较高的AIAgent分配任务,并对它们的完成情况进行监督。
Multi-Agent还能模拟我们人类的决策过程,就像我们遇到问题时会找人商量一样,多个AIAgent也可以模拟集体决策的行为,为我们提供更好的信息支持。例如由微软开发的AutoGen就满足了这一点:
能够创建不同角色的AIAgent。这些AIAgent具有基本的对话能力,能够根据接收到的消息,生成回复。
通过GroupChat来创建由多个AIAgent参与的群聊环境,在这个GroupChat有一个管理员角色的AIAgent管理其他AIAgent的聊天记录、发言者顺序、终止发言等。
如果应用到单人独角兽公司的设想里,我们可以通过Multi-Agent架构创建几个不同角色的AIAgent,比如项目经理、程序员或者主管。把我们的目标告诉它们,让它们任意去想办法,我们只要在一旁听汇报,如果觉得有意见或者它们做得不对的地方,就让它们改,直到满意为止。
相比单一的AIAgent,Multi-Agent可以实现:
可扩展性:通过增加AIAgent的数量来处理更大规模的问题,每个AIAgent处理任务的一部分,使得系统能够随着需求的增长而扩展。
并行性:天然支持并行处理,多个AIAgent可以同时在问题的不同部分上工作,从而加速了问题解决。
决策改进:通过聚合多个AIAgent的洞察力来增强决策制定,因为每个AIAgent都有自己的视角和专业知识。
随着AI技术的不断进步,可以想象Multi-Agent框架将在更多行业发挥更大的作用,并推动AI驱动的各类新解决方案的发展。
AIAgent之风,吹向Web3迈出实验室,AIAgent和Multi-Agent道阻且长。
暂且不论Multi-Agent,即便是当下最先进的单一AIAgent,其需要的算力资源和计算能力在物理层面仍有明确的上限,无法做到无限扩展。一旦面临极其错综复杂、计算量密集的任务,AIAgent无疑将会遭遇算力瓶颈,性能大打折扣。
再者,AIAgent和Multi-Agent系统本质上是一种集中式的架构模式,这决定了它存在着极高的单一故障风险。更重要的是,OpenAI、微软、谷歌等公司基于闭源大模型的垄断商业模式,严重威胁独立、单一的AIAgent创业公司的生存环境,使得AIAgent无法顺利利用庞大的企业私有数据来使它们变得更聪明、更有效率。AIAgent之间亟需民主化的协作环境,使得真正有价值的AIAgent得以服务更广阔的需求人群,为社会创造更大的价值。
最后,虽然与LLM相比,AIAgent更贴近产业,但其发展基于LLM,而当前大模型赛道的特点是技术门槛高、资金投入多、商业模式尚且发展不成熟,AIAgent通常很难获得融资以持续更新迭代。
Multi-Agent的范式是Web3助力AI的绝佳角度,已经有不少Web3开发团队正在这些方面投入研发提供解决方案。
AIAgent和Multi-Agent系统通常需要大量的计算资源来进行复杂的决策和处理任务。Web3通过区块链和去中心化技术,可以构建去中心化的算力市场,使得算力资源可以在全球范围内更加公平和高效地分配和利用。Akash、Nosana、Aethir、IO.net等Web3项目可以对AIAgent决策和推理提供计算能力。
传统的AI系统往往是集中式管理,导致AIAgent面临单点故障和数据隐私问题,Web3的去中心化特性可以使得Multi-Agent系统更加分散和自治,每个AIAgent可以独立地运行在不同的节点上,自主执行用户提出的需求,增强了鲁棒性和安全性。通过PoS、DPoS等机制建立针对质押者、委托者的激励惩罚机制,可以促进单一AIAgent或Multi-Agent系统的民主化。
在这方面,GaiaNet、Theoriq、PINAI、HajimeAI都有非常前沿的尝试。
Theoriq是一个服务于“AIforWeb3”的项目,希望通过AgenticProtocol建立AIAgents的调用和经济系统,普及Web3的开发和许多功能性场景,为Web3dApp提供可验证的模型推理能力。
GaiaNet以节点为基础的AIAgent创建和部署环境,以保护专家、用户的知识产权与数据隐私为出发点,抗衡中心化的OpenAIGPTStore。
HajimeAI则在两者基础上发力AIAgent工作流在实际需求中的建立和针对意图本身的智能化、自动化,呼应PINAI提到的“AI智能的个性化”。
同时,ModulusLabs与ORAProtocol分别在AIAgent的zkML和opML的算法方向取得了进展。
最后,AIAgent和Multi-Agent系统的开发和迭代往往需要大量的资金支持,而Web3可以通过前置流动性的特点帮助有潜力的AIAgent项目获取宝贵的早期支持。
Spectral和HajimeAI均提出了支持发行链上AIAgent资产的产品构想:通过IAO(InitialAgentOffering)发行代币,AIAgent可以直接从投资者获得资金,同时成为DAO治理的一员,为投资者提供参与项目发展和分享未来收益的机会。其中HajimeAI的BenchmarkDAO希望通过众筹加代币激励的方式,将去中心化的AIAgent评分和AIAgent资产发行有机结合起来,打造AIAgent依托Web3融资和冷启动的闭环,也是比较新颖的尝试。
AI潘多拉魔盒已然开启,置身其中的每个人既兴奋又迷茫,热潮下是机遇还是暗礁,无人知晓。如今,各行各业都已不再是PPT融资时代,无论多么前沿的技术,也只有落地才能实现价值。AIAgent的未来注定是一场漫长的马拉松,而Web3正确保它不会在这场竞赛中黯然退场。