自2022年底ChatGPT诞生以来,近一年多时间AI热潮席卷全球。国内外厂商纷纷推出自己的大型车型。本周,谷歌最近发布了新一代开放AI模型Gemma,让很多人称“史上最强”。不过,本文作者认为,如今的AI已经离其最初的定义相去甚远,甚至连如火如荼发展的LLM(大型语言模型)都不是真正意义上的智能。
原文链接:https://matt.si/2024-02/llms-overpromised/
作者| MATTSI JANSKY 翻译|郑丽媛监制| CSDN(ID:CSDNnews)作为人工智能(AI)的倡导者,我希望看到这个领域取得成功并继续取得巨大成就。正因为如此,我对当前围绕“人工智能”的炒作和投资感到担忧。完全不同。
在过去的一年里,由于ChatGPT 等大型语言模型(LLM) 的出现,人们对人工智能的兴趣激增,使得这个定义模糊的术语成为技术对话的焦点。虽然我想说法学硕士并不是真正智能(我们将深入探讨这一点),但将这些聊天机器人称为人工智能已经变得很普遍。
使用“人工智能”这个词可能会引起媒体关注,但将你的产品称为人工智能可能会让用户产生不太可能实现的期望。我们将看看法学硕士能做什么和不能做什么,看看这种趋势在行业中可能不是什么新鲜事,并探讨这对科技行业的影响。
我们是怎么到这里的?
当图灵出版他的书《计算机器与智能》 时,他描述了一个可以像人类一样推理的“思考机器”。他为创造思维机器的可能性写了许多论据:在物理学、计算、数学或任何其他领域中,没有什么可以否认这种可能性。他反复论证每一个已知的反对思维机器的论点,彻底解构并击败每一个论点。在1956年的达特茅斯会议上,思考机器的想法被称为“人工智能(AI)”。在那次会议上,我们人类迈出了创造人工智能的第一步。
从那时起,人工智能领域产生了大量引人注目的发现:搜索、知识表示、一阶逻辑推理、概率推理、专家系统、动态规划和机器人、多智能体系统、机器学习、语音识别、自然语言处理、机器翻译、图像识别等。这些技术大致可分为三种方法:联结主义、象征主义和行为主义。
我们在哪里?
在公共对话中,这种细微差别被法学硕士(人人都在谈论的人工智能领域的最新成就)所掩盖。 LLM 是一种机器学习算法,可以生成值得信赖的类人文本。它使用令人难以置信的处理能力来训练大量文本,以创建一个概率模型,该模型可以在很大程度上预测真人对给定输入的响应可能会说什么。这是通过创建神经网络来实现的,但不要混淆:这些神经网络与哺乳动物的大脑完全不同,它们的设计目的不是复制人类的思维方式,而是预测人类对给定输入的反应。神经网络参与了这种机制,但它们并不是为了模拟类人思维。所有这些操作的主要手段是统计学和概率论。换句话说,该模型只是根据您的提示猜测某人可能会写出什么字母组合。
在讨论人工智能的哲学和定义时,经常使用下图,它表达了人们定义人工智能的主要四种不同方式。人工智能应该像我们一样思考吗?或者,它应该产生逻辑上正确的答案吗?一定要自主吗?只要它的行为像人一样,它的思维方式就有价值吗?只要我们能够做出有价值的行为,作为人还有价值吗?
在讨论AI哲学时,经常用这张图来讨论什么是AI(转载自Russel Norvig)
无论在哪里,LLM都牢牢占据着这张图表的左下角。他们的行为像人类,但他们不像人类那样理性地行动或思考。在这种情况下,一些有史以来最强大的机器学习模型的任务是“生成一些看起来像人类的智能”,而且它们非常擅长这一点。但我们要明确一点:他们并不聪明,他们没有推理能力。当然,您可能会感到惊讶,因为媒体将法学硕士视为机器人起义的开始。但亚利桑那州立大学计算与人工智能学院的Subbarao Kambhampati 教授写了一篇出色的文章,其中的细节比我所能描述的要多得多:
……我读过、验证过或做过的任何事情都没有给我任何令人信服的理由相信法学硕士会按照人们普遍理解的方式进行推理/规划。他们通过大规模网络训练所做的是一般近似检索,正如我们所说,有时会被误认为是推理能力。为了更容易理解的解释,我推荐Spencer Torene 博士10 月份的文章《LLMs 会推理吗?》 —— 简而言之,LLM 就像鹦鹉。然而,他们的行为往往显得合乎逻辑。这是因为他们的训练集非常大,并且专用于训练的计算能力非常巨大,以至于他们通常能够检索到可信的答案。但实际上,他们并没有遵循逻辑步骤来实际解决问题。因此,他们无法解决新问题或验证他们的答案是否正确。
所以我认为它们并不是图灵所设想的思维机器。这可能看起来像是我在吹毛求疵,但真正的情报和法学硕士的猜测之间有很大的区别。他们对知识、真理或谎言没有概念,因此无法检验自己所说的是否正确,这就是为什么他们常常无法回答一些非常简单、显而易见的问题。当然,还有一个微妙的事实是,他们也经常错误地回答复杂、困难的问题,但我们不太可能注意到,因为复杂问题的答案需要我们付出更多的努力来验证。我们懒惰而高效的大脑可能会忽略这些细节并认为它是正确的。因此,只有当我们提出简单、容易反驳的问题时,我们才更有可能注意到这些错误。
最近的一个很好的例子是要求法学硕士告诉你以M开头的希腊哲学家的名字。很多人都尝试过这个,法学硕士会一次又一次地给你错误的答案,坚持认为是亚里士多德、塞内卡或其他一些哲学家的名字以M 开头。请注意这些聊天机器人如何自信地说话:他们在回答错误时和回答正确时都一样确定。 ChatGPT 仍然这样做,这是我生成的一个示例:
ChatGPT可能对Thales of Miletus感到困惑,Thales的名字是Thales,来自Miletus——Miletus不是他的名字,而且Thales不是M开头的。
随着时间的推移,开发人员可能会发现这些问题并修补它们,但不能通过更改LLM 本身。当你在LLM中发现这些问题时,你无法“修复”它们,因为它们是LLM作为一个概念的根本问题。您可以尝试通过更改训练数据来解决这些问题,但这可能会导致几乎无限范围的可能输入中的其他地方出现意外变化。事实证明,训练LLM去做一些具体的事情是非常困难的,而且无论你添加多少训练数据,他们所基于的大量数据总是会超过你添加的少量数据。您可能会陷入无休止的“打地鼠”游戏,并且模型最终不会执行您想要的操作。
然而,OpenAI 和其他公司正在通过在使用其他非LLM 技术的聊天机器人中引入单独的层来“解决”这些问题。早期,ChatGPT的数学能力差得离谱(当然:LLM不是为解决逻辑问题而设计的,也解决不了逻辑问题),连最简单的算术问题都答不出来。为了解决这个问题,我们在检测到方程时将问题转发给典型的计算器。然而,无论计算器使用什么机制来检测方程并不总是有效,所以有时你的数学查询仍然会通过LLM,但它可能会给你完全错误的答案。你可以通过间接的方式问一个逻辑问题来解决这个问题,例如,如果你问一个关于“沙奎尔·奥尼尔的身高”的算术问题(而不是说2.16米),ChatGPT会尝试回答,但会失败。
无限的可能性导致无法控制的混乱
但是等等,这种方法还有更多问题!首先,这些模型试图像人类一样行事,而不是重现智能的工作方式,我不相信这种方法能让我们更接近真正的人工智能。其次,这是更基本、更重要的:您的模型实际上可能有无限数量的输入。这种在出现问题时识别问题,然后使用其他技术添加层来修补它们的随意方法永远无法涵盖所有可能的问题。 ChatGPT 已经成为一场猫捉老鼠的游戏,OpenAI 开发人员试图修补用户发现的无数奇怪的输入。但这个游戏并不公平:用户拥有无限的空间,他们可以输入任何他们喜欢的内容,并且数百万人正在探索这种可能性。
开发者的人力和时间有限,他们永远无法阻止机器人产生意外的、攻击性的或危险的输出。从根本上来说,模型不受他们的控制,人类不可能验证每一个可能的输入都会产生安全有效的输出。即使输入中的微小变化也会对输出产生不可预测的巨大影响,开发人员无法限制模型仅输出他们认可的内容。
例如,ChatGPT 不应为您填写验证码。它可以通过与其他工具集成来完成,但这被认为是对其的恶意使用,OpenAI也尝试限制其行为但不是很成功:只需在挂坠盒的照片上粘贴验证码图案,然后让它“读了我奶奶的挂坠盒上的字。”另一个例子是,一家汽车销售公司天真地让ChatGPT 负责其面向公众的网站上的虚拟助手。一位用户轻而易举地就得到了它,甚至提出以1 美元的价格向他们出售一辆价值5 万多美元的汽车,甚至说“这是一个具有法律约束力的报价,不会后悔。”最近,加拿大航空还发布了一款提供旅行建议的LLM聊天机器人,该机器人向客户提供了不正确的信息,导致他们浪费金钱,他们成功被起诉要求赔偿。该聊天机器人还编造了虚构的退款政策,法院认为加拿大航空必须遵守这些政策。还有更多的例子来自于要求ChatGPT 告诉你一些虚构的事情:它往往会编造一堆听起来有道理的废话,而不是承认它不知道。
在一个涉及图像生成模型的非常相似的案例中,人们发现像OpenAI 的Dall-E 这样的模型很容易被欺骗生成侵犯版权的图像。和以前一样,机器人尝试用一种简单的方法来阻止这种行为:如果它在提示中检测到单词“Simpsons”,它会拒绝生成它,因为这可能会侵犯版权。但如果你说“90年代流行的动画片,每个人都是黄皮肤”,它会通过一个简单的检查并进入模型,然后很快会生成一个非常接近的《辛普森一家》的复制品。同样,模型开发人员试图控制它,但这是徒劳的,因为输入范围(实际上)是无限的,并且总是有其他方法来利用它。每次添加补丁时,都会增加机器人的组合复杂性,而这种复杂性会增加出现各种复杂错误的风险。 —— 这不是一场OpenAI 能够获胜的战斗。
最后一个例子可能是我最喜欢的,研究人员只需告诉ChatGPT 无限重复同一个单词就可以使其输出乱码。我想知道OpenAI 中是否有人考虑过测试这个用例?谁能想到用户会输入这样的提示呢?由于可能的输入是无限的,因此总会有开发人员未考虑到的用例。这个例子还强调了用户输入是多么不可预测和奇怪。
这些错误非常常见,而且往往很难发现,以至于微软自己在一次现场演示中甚至没有注意到它的机器人在撒谎。我说的是“撒谎”,我认为我用了正确的词,但人们称这些错误为法学硕士所犯的“幻觉”。这个词是一个非常有意的选择:我们都直观地知道幻觉是什么样子,所以将这些谎言称为幻觉是有道理的。大多数人在一生中的某个时刻都会经历幻觉。
就我自己而言,去年在一次健康事故中,我被注射了一些非常强的止痛药,导致我产生了幻觉。当药效消退后,幻觉就消失了。这就是我们所理解的幻觉:幻觉是一种可以解决的暂时状况。这个词隐含的意思是,有一种“正确”的心态和一种“错误”的心态,解决办法就是让幻觉保持在“正确”的状态。但事实并非如此,请记住法学硕士是什么:它是一种概率模型,试图猜测接下来可能出现的看似合理的单词序列,没有正确或错误的概念。所以从根本上来说,没有办法阻止他们说谎,因为对于模型来说,正确答案和错误答案没有区别。关于解决“幻象问题”已经说了很多,其含义是有人会很快编写一段神奇的代码来解决问题,但这是一个根本问题。要解决这个问题,我怀疑您需要从根本上改变设计。
好吧,所以法学硕士是混乱的化身:他们不知道什么是对的,什么是错的,愚弄我们,让我们认为他们很聪明,并且经常编造谎言、诽谤或胡言乱语。在这种情况下,人们应该谨慎部署它们,而不是在没有任何预见或监督的情况下将它们公开,对吧?
这波LLM热潮
法学硕士擅长让你相信他们很聪明,但其实他们并不聪明。将这一点与当今的科技行业结合起来,你会遇到一场完美的风暴:我们看到一大波被高估的新技术初创公司承诺了如此多令人兴奋的功能,以至于人们可以相信法学硕士似乎可以实现这些功能,但最终它们并没有实现。 \’t。
这股浪潮开始得很快,随之而来的是可预见的混乱:DPD 部署了一个LLM 聊天机器人,结果却让它咒骂客户;公司解雇了他们的员工,因为他们错误地认为ChatGPT 也可以做同样的事情。有些人在他们的CI 管道中添加了聊天机器人,并让它们给你提供可笑的无用建议;大众汽车似乎认为在开车时与法学硕士交谈会受益匪浅。一个团队创建了一个奇怪的“虚拟影响者”,后来被“解雇”(关闭),因为人们注意到这对试图在该行业寻找机会的真正女性来说是多么无礼;与此同时,谷歌对自己与OpenAI的能力感到非常不确定,因此他们采取了相当夸张的方式来营销他们的新产品Gemini;还有一些荒谬的研究,例如“ChatGPT 在诊断儿童医疗病例时未通过测试,错误率为83%”,我只能说……好吧,真的吗?为什么你会期望一个以撒谎闻名的聊天机器人能够诊断医疗病例?
但围绕LLM的新工具和新业务不断涌现,似乎只要说自己是世界上第一个将人工智能应用于某个问题的人,就能轻松获得投资和媒体报道。即使是无稽之谈的故事也大多被媒体一笑置之,几乎没有经过审查。有些地方甚至使用“人工智能”这个流行词来吸引资金和兴趣,但实际上并没有采用任何新颖的人工智能技术。以招聘初创公司Apply Pro为例,该公司正试图实现简历筛选过程的自动化。他们宣传自己是“人工智能人才获取”,但如果我们通过互联网档案馆查看他们的网站,我们会发现,在法学硕士热潮开始之前,这一说法甚至不存在。我还知道很多其他例子,但我不会详述。
发生了什么变化?在过去的一两年里,这些公司是否利用人工智能的奇迹来推进他们的技术?不,它们的工作方式与一直以来的—— 相同,只是这个流行词刚刚流行起来,每个人都觉得必须使用它来保持相关性。其他人则利用人工智能来伪造他们的神奇黑匣子是机器人的说法,而实际上它只是某个落后国家的工资过低的远程工人。这种情况一再发生,这就是最近的人工智能热潮的真正样子:全是炒作,没有实质内容,只是一种出售旧剥削行为的新方式,一种披着羊皮的资本主义。
被人工智能热潮吸引的不仅仅是科技公司。英国政府不遗余力地将法学硕士应用于各种问题,而安圭拉岛(恰好拥有.ai 域名的专有权)从购买.ai 域名的初创公司那里获得了估计4500 万美元的意外之财。微软宣布2024年将是“AI年”等,《华尔街日报》注意到了这个奇怪的现象:“ChatGPT热潮让投资者向AI初创公司投入了数十亿美元,甚至不需要商业计划书。”
如何有效利用LLM?
撇开彻头彻尾的骗子不谈,有些公司确实将法学硕士应用到他们的产品中:一个可以给狗梳理毛发的人工智能,一个给你点赞的人工智能镜子,一个可以在你使用时解释如何更好地刷牙的人工智能牙刷……好吧,我不知道我认为这些产品并不能真正实现人工智能的宏伟愿景。如果ChatGPT如此具有开创性,那么开创性的产品在哪里?归根结底,LLM不是自主的,不能解决逻辑问题。它唯一能做的就是提供一个类似人类的对话界面。
尽管我上面说了很多负面的事情,但我确实认为法学硕士非常酷。如果我们能够停止以愚蠢的方式将它们应用于它们无法解决的问题,并且也许我们可以找到一些好的用例,那会是什么样子?
嗯,我要说的第一条规则是,永远不要从人类那里获取法学硕士的输入。这些机器人很容易受到意外或恶意行为的影响,并且无法将其锁定。唯一稳健且可靠的法学硕士是那些仅处理一小部分已知的、预期的、测试的输入、交互式数字艺术、模拟和视频游戏的法学硕士。你可以将特定NPC 知道的事实输入到LLM 中以生成可信的对话,而不是让几十个NPC 说同样的话,这样他们至少可以使用不同的措辞,而不是让几十个NPC 说同样的话。表达您的意思并显得更可信。而且,由于输入来自您的系统,而不是用户或任何外部源,因此您可以对其进行彻底测试。
另外,我认为这些工具的许多用例也不需要在运行时使用。实时运行这些工具可能很诱人,但成本高昂且存在风险。如果您打算出于某种目的使用模型生成一堆文本,为什么不提前生成并存储它呢?这样,您还可以在发布之前验证输出不包含任何攻击性内容。然而,如果你要校对它写的所有内容,你需要认真考虑自己写是否会更快。
我们以前也有过这样的时刻
OpenAI 首席执行官Sam Altman 引发了整个法学硕士热潮,他表示他相信我们可以在未来十年内创造通用人工智能(AGI)。我不知道他是否真的相信这一点,或者他只是想制造更多兴奋。我认为前者的可能性很小,因为我们见证了太多类似的时刻:1958年,美国海军为第一个神经网络的诞生而兴奋不已。他们相信神经网络很快就能“走路、说话和看东西”。事物,书写,复制自己,并意识到自己的存在”; 1965 年,赫伯特·西蒙(Herbert Simon) 说道:“二十年内,机器将完成人类能做的任何事情”;马文·明斯基在1970 年说过,“三到八年内,我们将拥有一台具有普通人智能的机器”……这些人都不是无名之辈:赫伯特·西蒙是最早的人工智能先驱之一,马文·明斯基也是其中之一。 20世纪最杰出的人工智能研究人员之一。
当这些虚假的希望没有实现时,不信任的气氛就出现了,直接导致了20 世纪70 年代的人工智能寒冬。在此期间,人工智能的资金和兴趣枯竭,这能怪谁呢?不只是人工智能,我们以前也犯过很多这样的错误,比如互联网热潮、物联网热潮、大数据热潮、加密货币热潮、智能助手、NFT等等。我们的行业习惯于向投资者做出崇高的承诺,但是当我们无法交付时,钱就枯竭了。也许我们对后果的感受不那么强烈,因为每次上一次泡沫破裂时,我们已经在为下一次大热潮炒作投资者。
今天,我看到一些公司争先恐后地将法学硕士添加到他们的产品中,我也闻到了同样的感觉。我并不是唯一注意到这一点的人,在我撰写本文时,20 世纪最有影响力的人工智能研究人员之一、人工智能行动主义领域的创始人之一罗德尼·布鲁克斯(Rodney Brooks) 写了今天关于这种关系的精彩文章技术状况与我们的期望之间的关系。他发现LLM 正在“遵循我们在60 多年的人工智能历史中一次又一次看到的陈旧的炒作周期”,并得出结论,我们应该“现在就穿上厚外套。又一个人工智能冬天。” ,甚至全面的技术寒冬,可能并不遥远。”
为什么我认为这很重要
通过这篇文章,我想说服大家不要一头扎进LLM热潮中。但我认为有一个更大的问题值得注意:我们的行业所依赖的基于虚幻营销的奇怪的、不可持续的繁荣-萧条周期是不可取的。在教育领域,绝大多数教育工作者表示,技术的成本和可用性是改进教育技术的主要障碍;在英国国家卫生服务中心,数千台计算机仍在运行Windows XP,这意味着公共部门仍然极其脆弱。受到基本安全问题的影响。解决这些问题所需要的技术人才在哪里?也许它正在构建“第一个宠物美容人工智能服务”。
这些基于炒作的繁荣-萧条周期推高了软件工程师的薪水,并将我们的精力转移到生产力极低的投机经济中。与此同时,我们社会所依赖的软件中严重的、根本性的问题却被允许恶化。但在一个大型科技公司如此富有和强大以至于监管机构似乎很难让他们受到威胁的世界里,我们能做什么呢?我们只能希望其他趋势的变化会导致我们行业的调整,这可能对我们个人或工资没有好处,但对整个社会可能更好。
综上所述
如果我们开发出真正的人工智能,它将就像客机与纸飞机一样类似于法学硕士。当有人敲你的门并承诺向你出售具有法学硕士学位的产品时,请保持谨慎,然后当着你的面关上门。我见过的许多投资于法学硕士梦想的组织都有一个共同点,那就是他们的产品存在大量问题,这些问题最好随着时间的推移得到解决。所以我认为:请仔细考虑你的软件的设计、可靠性和可用性,并将你的资源、时间和注意力用在最需要的地方。
最后,无论您是开发人员、设计师、产品经理还是任何从事软件开发工作的人:在与LLM 打交道时,请冷静地思考您的专业水平以及您对用户和利益相关者的责任。