神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。
编者按:本文是对Claude操作计算机能力的一些思考。作者认为,组织要高瞻远瞩一点,不能把AI 部署视为纯粹的技术挑战。相反,组织必须思考这些技术对人类的影响。在 AI 达到人类水平的表现之前,其对工作和社会的影响已经十分深远且广泛,必须想清楚如何驾驭和应对。文章来自编译。
AI 实验室完全相信,更大、更强大的 AI 模型即将问世,他们相信这些模型可实现比人类博士更聪明的自主智能体和系统。OpenAI 的山姆·阿尔特曼(Sam Altman)与 Anthropic 的 Dario Amodei,两家领先AI实验室的CEO,他们在各自的博客中均讨论了超级智能机器时代的到来,其信心从中可见一斑。
但这些主张并非没有争议,我们也没法确定他们说得对不对。不过,就很多方面而言,我们并不需要超级强大的 AI 来改变工作的方式。目前第二代/GPT-4 类系统所蕴含的能力已经超过了我们能完全吸收的水平。哪怕今天的 AI 开发停止,我们仍需数年时间来将这些系统融入我们的世界。
今天的 AI 模型已经是多模态的了,能够处理和生成文本、图像、声音等多种媒体形式。它们可以编写代码、操作计算机、访问互联网等。这些能力已然存在,而且我们正开始看到出现了相互结合的迹象。尽管这些模型并不完美,且容易出现不一致性和“幻觉”,但在许多领域已经展现了自己的价值。在对完美准确性要求不高、需要征求第二意见、没人能提供帮助或 AI 表现优于人类的场景下更是如此。
人工智能作为经理、教练或者圆形监狱?
比方说,想想看如果人工智能将图像处理与“推理”能力相结合的话,意味着只需将视频消息交给 AI,便可以为其赋予智能,完成以前无法实现的任务。
又比如,只需将一段建筑工地的 YouTube 视频交给 Claude,并提示说:“这是建筑工地的视频,请对工地进行监理,寻找安全问题、可以改进的地方以及可以提供指导的机会。”不需要任何特殊训练,只需利用 Claude 3.5 Sonnet 的原生计算机能力,每隔几秒截取一次屏幕然后进行“分析”即可。在以下视频中,Claude 分析了建筑工地的各个方面:工人防护设备的使用情况、材料的摆放、工作模式以及潜在危险,并逐一记录。
这些观察非常有趣,但系统可以进一步扩展。我随后问道:“你得出了什么结论?请将你的观察结果写成一个问题清单。”AI 在几秒钟内生成了一张电子表格,总结了观察视频看到的内容,这项任务如果交给人类做的话会很耗时。注意观察它是怎么将视频发现的众多问题按优先顺序分解,并对如何解决问题作出逻辑推断的。
接着 Claude 又问我:“你是不是希望创建一个跟踪系统来进行完成验证?”听起来不错,于是我同意了。然后,它就做出了一个包含虚拟名字的示例数据跟踪系统。
从视频中回放的结果来看,结果似乎不错,但我不是专家,完全排除严重幻觉的可能性几乎是不现实的。出于这一点及其他许多原因,我绝不希望该系统被用来对人类进行奖罚。然而,在无人监控潜在危险环境或缺乏指导与建议的场景中,AI 可以提醒人类关注潜在问题或机会,作为一种有价值的资产。
这个系统只用简单的提示词就开发完成了。多做一点工作的话,哪怕没有新模型发布,AI 监工的错误率和成本也会不断下降。这些系统会变得更加完善。组织可能会禁不住诱惑,到处部署这些 AI 观察员,政府也可能效仿。一种本可以充当导师和安全检查功能的系统,可能会变成由 AI 全天候监视和评判每个人的圆形监控系统。企业和政府的选择将决定 AI 是用来帮助我们,还是监控我们——这是我们在充斥着AI的世界里需要做出的诸多复杂调整之一。不过,观察能力只是 AI 已经展现出的其中一项高级技能。
运用我们的工具与规则
在数字世界里,大多数知识工作都是通过计算机完成的——比如浏览网站、填写表格以及完成交易等。现代人工智能系统现在也可以执行这些任务,将以前只能由人类完成的工作给自动化了。这种能力已经不再局限于简单的自动化,连定性评估和问题识别也能完成。
比方说,我让Claude“去沃尔玛的网站,并以一个尝试购买商品的普通用户的身份测试其功能。然后访问亚马逊,做同样的事情,并在一份文档中写下你的发现”。同样,在视频里你可以看到,AI 会访问每个网站,模拟用户搜索和购买商品的过程。
然后,它写下了两份报告——一份叙述性报告以及一份测试报告。
从我的观察来看,报告没有发现任何“幻觉”。虽然这些报告并不算洞察力最强的,但相当可靠。AI 在被赋予任务时,能够迅速高效地完成,并在解决问题的过程中展现出一定的“判断力”。随着模型的改进和操作的简化,可以想象未来的管理者会利用 AI 智能体团队来执行分析和重复性任务。
更加离奇的应用
我们已经看到了多模态输入和工具使用如何改变了 AI 与世界的互动,而当我们加入多模态输出时,情况会变得更加奇特。比方说,我邀请了一位 AI 化身加入 Zoom 会议。从声音到图像乃至于行为,这个化身完全是由 AI 驱动的,——实际上,我给出的提示是让化身以 Zoom 会议最刻板、最官方的方式进行表现,你会发现视频感觉非常的怪异。
尽管“恐怖谷”现象(也就是非常像人类却又不完全像人类的表现)让人感到不适,比如略显不自然的声音,以及如换衬衫等显而易见的问题等,但这种互动基本上反映出典型的 Zoom 会议的情况。这只是第一代工具,其实已经可以了。在不久的将来如果有很多人被这种虚拟任务迷惑的话,我是不会感到惊讶的。
这些能力要求我们马上就得关注政策和实践。哪怕这些系统尚不完美,但从我们如何监控安全到我们如何开展会议,它们已经在重塑工作的基本面。组织今天关于 AI 部署的选择会设定未来很长一段时间内的先例。AI 驱动的监控是用来指导和保护工人,还是用来施加算法控制?AI 助手会增强人类能力,还是逐渐取代人类判断?
组织要高瞻远瞩一点,不能把AI 部署视为纯粹的技术挑战。相反,他们必须思考这些技术对人类的影响。在 AI 达到人类水平的表现之前,其对工作和社会的影响已经十分深远且广泛。从建筑工地监控到虚拟化身,我所展示的例子只是开始。目前最紧迫的任务是确保这些变革能够增强而不是削弱人类的潜力。我们现在所做的决策,不仅会影响未来的工作,还会影响在 AI 增强的世界里人类的未来。
译者:boxi。