Post

The AI Con

本书中,我们将使用“人工智能”或“AI”来指代以此形式销售的技术。

与其他类型的炒作一样,人工智能炒作利用了人们的“害怕错过”(FOMO)心理:它不断重复传递这样的信息:一套技术——目前是指计算机科学与工程领域开发的一套统计方法——将改变世界,而你,无论是消费者还是企业经理,都必须使用它,否则就会被抛在后面。

大型语言模型以及其他任何以“人工智能”之名出售的东西,都不具备意识、感知能力,也无法作为独立思考的实体运作。

我们喜欢把 ChatGPT 这样的语言模型称为“合成文本挤压机”。就像工业塑料加工一样,语言语料库被强制通过复杂的机器,生产出一种看起来像交流语言的产品,但其背后却没有任何意图或思维。

面对合成文本挤压机器实际上并不像人类的论点,一些人工智能支持者采取了一种阴险的策略:贬低人类的意义。 23 2022年12月,针对对新发布的ChatGPT的批评,OpenAI首席执行官Sam Altman在推特上写道:“我是一只随机鹦鹉,你也是。”

大多数人工智能工具都需要大量的隐性劳动才能正常运转。这种巨大的投入不仅包括实时监控系统,还包括创建用于训练系统的数据。

红杉资本的 David Cahn 在2024 年 6 月写道,AI 公司需要实现约 6000 亿美元的收入才能在 AI 投资中获得回报。

每当我们以为自己已经达到人工智能炒作的顶峰——胡扯的顶峰——我们就会发现更糟糕的还在后头。

说白了,“人工智能”是一个营销术语,它并非指一套连贯的技术。相反,“人工智能”这一说法指的是,开发或销售特定技术的人希望通过让其他人相信他们的技术与人类相似,能够完成那些本质上需要人类判断、感知或创造力才能完成的事情来获利。

本书中,我们将使用“人工智能”或“AI”来指代以此形式销售的技术。

一切都在2010年代发生了改变,当时一种名为“深度学习”的大规模模式匹配方法首次变得实用。这并非源于任何神奇的或技术上的量子飞跃,而很大程度上源于基于微芯片成本下降和网络上有大量的数字化数据,可以通过一小部分集中数据共享的平台(Flickr、Tumblr、Google 等)轻松访问。

一个名为“神经信息处理系统”的研究会议NeurIPS第 18 届大会(简称 NeurIPS)的参会人数从 2010 年的 1,354 人增长到 2019 年的 13,000 人,再到 2020 年(受新冠疫情影响,改为线上)的 22,000 人。

炒作是对某个人、某个物品、某个技术或某个技巧的夸大,而你,作为消费者,绝对需要尽早购买或投资,以免错过娱乐、愉悦、金钱回报、投资回报或市场份额。

与其他类型的炒作一样,人工智能炒作利用了人们的“害怕错过”(FOMO)心理:它不断重复传递这样的信息:一套技术——目前是指计算机科学与工程领域开发的一套统计方法——将改变世界,而你,无论是消费者还是企业经理,都必须使用它,否则就会被抛在后面。

2017 年,一名巴勒斯坦男子被捕34 岁的他在 Facebook 上发布了一篇帖子,在帖子中他站在推土机旁,并配文(阿拉伯语)“早上好”,因此被以色列当局判处死刑。Facebook 的机器翻译软件将这句话用英语翻译成“伤害他们”,用希伯来语翻译成“攻击他们”——而以色列当局只是照单全收,从未向任何阿拉伯语人士核实是否正确。

所有这些故事的共同点是,有人过度吹捧自动化系统,人们根据其宣传的功能来使用它,然后自己或他人受到了伤害。

炒作并非偶然,而是因为它发挥了某种功能:吓唬员工,并承诺为决策者和企业领导者节省大量资金。我们破除炒作的部分工作就是追踪这些炒作的来源以及它服务于谁的利益。

大型语言模型以及其他任何以“人工智能”之名出售的东西,都不具备意识、感知能力,也无法作为独立思考的实体运作。

合成文本或解决数学难题的技术并非人工生命形式。然而,这样说对很多人有利:有产品可卖的企业家、有学术部门可资助的研究人员,以及拥有机构或追随者、并希望这种虚构得以延续的狂热分子。

简单地对文本中单词的分布进行建模并不能提供任何意义,也不能从中推断出交流意图。

语言模型只不过代表了关于哪些词组相似以及哪些词可能出现在什么语境中的大量信息。虽然这不是意义或理解,但足以生成几乎任何可以想象到的话题的似是而非的合成文本,但这非常危险:我们会遇到看起来就像某人可能说过的话的文本,并通过我们通常想象文本背后思想的过程,反射性地解释它。但那里没有思想

这就是为什么我们喜欢把 ChatGPT 这样的语言模型称为“合成文本挤压机”。就像工业塑料加工一样,语言语料库被强制通过复杂的机器,生产出一种看起来像交流语言的产品,但其背后却没有任何意图或思维。

面对合成文本挤压机器实际上并不像人类的论点,一些人工智能支持者采取了一种阴险的策略:贬低人类的意义。 23 2022年12月,针对对新发布的ChatGPT的批评,OpenAI首席执行官Sam Altman在推特上写道:“我是一只随机鹦鹉,你也是。”

关于意识和感知能力的宣传只是一种向你推销人工智能的策略。这个领域的大多数人似乎只是想开发出能够达到类似人类智能的技术系统,以便在这个已经非常拥挤的市场中脱颖而出。这个市场本身就很小:研究人员和创始人可以在微软、谷歌和Meta等几家大型科技公司之间无缝切换

有大量证据表明,文本生成机器生成的东西不值得阅读,或者像 GitHub Copilot 这样的代码生成工具那样,不值得编译。对该工具的初步安全审计表明,由于语言模型的训练方式,生成的代码特别容易受到常见的网络安全攻击。研究人员在测试中发现,40% 的 Copilot 生成的计算机程序容易受到一些最常见的网络安全漏洞的攻击。这是因为代码生成是通过在训练数据中重复最常见的编程习语来实现的。而这些习语并不是最安全的。

《纽约时报》针对 OpenAI 提起的版权诉讼的主要部分。 30投诉中包含了大量文本,这些文本均由 ChatGPT 提示生成,但输出的是报纸上的逐字文本。

2023年11月,自动驾驶汽车公司Cruise承认,其“无人驾驶”机器人出租车(Robotaxis)由远程工作人员监控和控制(按需)。《纽约时报》刊登了一篇报道,称这些汽车“经常”需要人工协助。

大多数人工智能工具都需要大量的隐性劳动才能正常运转。这种巨大的投入不仅包括实时监控系统,还包括创建用于训练系统的数据。这些工作人员需要完成一系列任务。

能够生成创意散文、诗歌或听起来像科学论文或新闻报道的文本的聊天机器人仍然只是将它们从训练数据中计算出来的词模式连接在一起。在视觉媒体领域,像稳定扩散(Stable Diffusion)这样的文本转图像模型可以创建蓬松云朵的图像,浩瀚的风景,或是英勇的战士与巨龙搏斗,都是与构建聊天机器人类似的技术流程的产物,只不过是应用于图像。这些是概率(又称“随机”)算法,训练基于从创意人士那里窃取的大量作品。

这些公司已经承认,由于生成式人工智能的出现,他们远远未能兑现气候承诺。微软略带羞涩地表示,与2020年相比,他们的间接排放量增长了近30%,而谷歌的排放量与2019年相比则增长了48%。

人工智能末日论不值得认真对待,如果不是因为其背后有巨额资金和政治影响力,最好还是忽略它。

揭穿炒作的最佳策略之一是就所推广系统的具体细节提出问题。

自动化的是什么?输入什么,输出什么?

你能把输入和输出联系起来吗?有什么证据表明输入中有足够的信息来决定输出?

这些系统被描述成人类了吗?

系统是如何评估的?

如果实施这套系统,谁和哪些组织会受益?无论系统给出正确答案的情况,还是错误答案的情况,谁又会受到损害?

这个系统是如何开发的?使用了哪些类型的数据劳动和数据收集实践?

那些被冠以“人工智能”之名的系统,表面上看似与人类相似,但实际上却源于人类的工作,而且通常是在剥削性的工作条件下。

2024年夏天,我们开始看到风险投资对人工智能失去兴趣的迹象——

而由于这种炒作最终(至少部分)是由风险投资的兴趣推动的,这或许是这场泡沫破灭的最初迹象。

麻省理工学院劳工经济学家达隆·阿西莫格鲁89 号公布的一项估计显示,未来十年,人工智能带来的生产率提升将不足 0.53%。在 2024 年第二季度财报发布后的投资电话会议上,Alphabet 首席执行官 Sundar Pichai 接受了质询。 90质疑其在人工智能上的大手笔投入——每季度高达 120 亿美元——何时才能获得回报。风险投资巨头红杉资本的 David Cahn 在2024 年 6 月写道,AI 公司需要实现约 6000 亿美元的收入才能在 AI 投资中获得回报。

科技泡沫有两种:一种留下了一些东西,另一种什么也没留下。有时,很难猜出你正在经历什么样的泡沫,直到它破裂,你才发现真相。

贯穿炒作的“错失恐惧症”(FOMO)。炒作者不仅会编造关于这项技术能做什么的奇幻故事,还会试图说服你,如果你不赶上这股潮流,你就会被甩在身后。

This post is licensed under CC BY 4.0 by the author.