人工智能和“长尾”理论

博融之坚 2023-07-27 5.37 W阅读

(原标题:人工智能和“长尾”理论)

互联网滋生了不平等。少数网站占据了大多数访问量,少数人在YouTube和TikTok上获得了大多数浏览量,少数播客和时事通讯吸引了大多数订阅者。

这种不平等是网络所固有的。网络越广泛,其枢纽就越大。大型枢纽是很高效的,因为它们容易连接更多的节点。看看航空地图,这一点就很明显了。像芝加哥、伦敦或新加坡这样的超级连接枢纽,可以让乘客从任何地方飞往任何地方,只需一次转机。

在线社交网络甚至比航空公司网络更不平等。部分原因是它们的规模更大,部分原因是它们的社会性。“社交网络”一词描述的是Facebook或微信等平台。但实际上,整个网络就是一个由个人生成的网页和帖子组成的社交网络。

我们用来探索网络的工具也是社交性的,而其这一特性加剧了(或导致了)不平等。

我们如何决定去哪里、关注什么内容?我们会主动地使用搜索引擎,或者被动地消费信息源上的内容。在这两种情况下,我们都依赖于社交系统。

1.利用“群体智慧”

1998年,斯坦福大学的两名博士生发表了一篇论文,描述了一种新的搜索引擎。在《大型超文本网络搜索引擎剖析》(The anatomy of a large-scale hypertextual Web search engine)一文中,拉里・佩奇(Larry Page)和谢尔盖・布林(Sergey Bryn)介绍了两项重要的创新。他们根据链接到每个网页的其他网页数量,来评估该网页的质量或“Page Rank”。他们还依靠每个链接的文本,来确定链接目标的内容。

在佩奇和布林设计的系统中,受欢迎的网页(有大量链接的网页)被认为是可信和重要的。而每个页面的主题,则是根据其他网站上指向该页面链接中的文字来确定的。简而言之,布林和佩奇的搜索引擎是根据其他页面的“意见”(链接的数量和相关描述),来确定每个页面的质量和相关性。

这么做成功了!1998年底,布林和佩奇成立了谷歌公司,这个搜索引擎很快就证明,自己优于当时流行的索引和爬虫。在谷歌出现之前,人们通过雅虎、AOL和MSN等精心策划的“门户网站”来浏览网页,或者使用原始的搜索引擎,这些搜索引擎很难与人工编辑的列表相竞争。

起初,谷歌的做法似乎有些牵强。1997年,布林和佩奇担心他们的搜索引擎项目,占用了太多自己攻读博士学位的时间,所以想把这个项目卖给世界上最受欢迎的网站和搜索引擎之一Excite.com。他们向Excite的首席执行官提出以100万美元出售该项目,后来甚至低至75万美元。多年后,Excite的首席执行官乔治・贝尔(George Bell)说,这笔交易失败的原因是,他不愿意让这项新技术推动Excite领先的搜索引擎。

佩奇和布林把谷歌留给了自己,而剩下的就是创造历史了。截至2023年1月,谷歌占据了全球搜索市场85%-90%的份额。随着网络的不断发展,人工编辑已变得不可能,而谷歌的自动“社交化”方法则提供了一种最好的方式,让无限量的内容变得有意义。同样的方法也启发了Facebook、YouTube和TikTok等社交媒体平台的“Feeds”算法,即向人们展示其他人喜欢的内容。粉丝多的人的推荐,比粉丝少的人的推荐更重要。

这种社交方式帮助谷歌和其他公司大规模地提供相关内容。但这是有代价的。

2.大众化受阻

2004年,克里斯・安德森(Chris Anderson)在《连线》杂志上发表了一篇文章《长尾理论》(The Long Tail),描述了互联网将如何改变我们生产和消费内容的方式。这篇文章后来被扩充成了一整本书。安德森认为,有三种力量正在重塑内容世界:

  • 制作的大众化:电脑、智能手机和数码相机,使任何人都能随时随地以低廉的成本制作内容。
  • 传播的大众化:互联网使内容可以在任何地方即时发送,几乎没有成本。
  • 搜索成本的降低:软件和在线平台可以帮助用户找到适合其特定喜好的小众内容。

安德森预测,这些力量将使更多的注意力(和收入),从传统的热门内容,转向小众市场、小型出版物和小众创作者的“长尾”领域。

图片来源:drorpoleg.com

他预计,互联网将终结“80/20法则”,即20%的产品产生80%的收入(以及接近100%的利润)。

图片来源:drorpoleg.com

但结果却截然不同。正如Spotify前首席经济学家威尔・佩奇(Will Page)在《泰山经济学》(Tarzan Economics)一书中指出的那样,音乐听众花费90%的时间收听流媒体平台上不到2%的歌曲。廉价的生产、廉价的传播和“群体智慧”的推荐,让世界变得更不平等了。与安德森的预测相反,热门歌曲比以往任何时候都更受欢迎,在经济上也更占优势。

公平地说,网络确实使机会大众化了:现在有更多的人可以通过创作内容谋生,消费者也可以涉足更多的小众市场和流派。但是,顶尖和一般表现者之间的差距比以往任何时候都要大。更多的人可以通过做自己喜欢的事情赚取每年10万美元的收入。但是,只有少数人可以成为亿万富翁,赚得比任何其他音乐家(或电影制作人、作家或教师)都多。

造成这种不平等的原因是,我们的搜索引擎和新闻源所采用的算法具有社会性。这种算法让更多的流量流向那些看起来受欢迎的东西:如果有一些人喜欢某篇文章,那么这篇文章就会被展示给更多的人;如果有一些人在听某首歌曲,那么这首歌曲就会被推荐给更多的人。旱的旱死,涝的涝死,凡是“受欢迎的”东西,都被认为是值得传播的。

这种态势也是造成主流出版物质量下降和政治两极分化的原因之一。要想脱颖而出,就必须放低身段吸引眼球,或采取一种能激起特定人群兴趣的立场,或两者兼而有之。

也许这就是进步的代价。我们现在可以接触到比以往更多的信息、音乐、视频和观点。每个人都有发言权。当下比以往任何时候都有更多的人有机会成为明星,做自己喜欢的事情谋生。这是一种社会可以接受的权衡。如果没有其他选择,我们可以学会忍受不平等、两极分化和堕落的主流文化。

但如果还有其他选择呢?

3.反社交网络

微软是ChatGPT的制造商OpenAI的早期投资者。而ChatGPT是一个“以会话方式交互”的智能软件。ChatGPT可以“回答问题,解决追问,承认错误,质疑不正确的前提,拒绝不恰当的请求。”你可以要求它解释“劳动价值论”,或者用威廉・华兹华斯(William Wordsworth)的风格写一份蛋糕食谱。

微软正在考虑对OpenAI进行一轮100亿美元的巨额投资。这笔投资不仅是财务上的,更是战略上的。据彭博社报道:

“微软正在努力将ChatGPT添加到其必应搜索引擎中,以求在(谷歌)占主导地位的搜索产品市场中占据优势。与谷歌搜索所提供的基本链接不同,该机器人能够以自然、人性化的方式回答查询,进行对话并回答后续问题。”

ChatGPT提供的结果目前仍然是非常不准确的。但如果假设它会变得更好,并能真正替代谷歌,那么理论上,必应可以提供更好的用户体验:用户可以提出问题并得到直接的答案,而不是得到谷歌提供的网站列表。谷歌本身也可能效仿必应的做法,利用必应的功能使自己的搜索引擎更具对话性和人性化。

这就是大家都在关注的:人工智能对网络搜索体验的影响。但是,这里面还有一个更大的故事:一场潜在的革命,它可能会影响人类注意力的分配、收入以及我们所消费内容的整体质量。

为了理解搜索可能会发生什么变化,让我们想象一个没有搜索引擎的世界。

4.“专家”的作用

在谷歌出现之前,我们是如何寻找信息的?我们依靠专家。因为专家拥有评估信息质量、准确性和有效性所需的知识。经济学家可以评估一篇经济学论文,物理学家可以评估一篇物理论文,编辑可以评估作者的推理和资料来源。即使内容涉及的是全新的观点,专家至少也能判断出作者的方法、手段和声誉(如果不能判断,也知道该问谁)。

在互联网出现之前,我们依赖于专家,避免了社会推荐系统固有的不平等性。专家可以根据各种客观标准来评出“赢家”,忽略或淡化受欢迎程度的作用。当无法获得客观标准时,专家们至少可以依靠事先商定的标准做出决策。

我们可以概括地说,在过去,一条内容之所以受欢迎,是因为它好;而今天,一条内容因为受欢迎而被认为是好的。这并不意味着受欢迎的内容在客观上是不好的,但这确实意味着,受欢迎度压倒了所有其他因素。

即使在过去,受欢迎程度也很重要。但那些生活在互联网和有线电视出现的人知道我的意思:我们过去生活在一个稀缺的世界里,由专家把关,决定哪些音乐、电影和文章值得被更广泛的受众接受。

那些生活在印刷机时代之前的人,对那个世界的感觉甚至更好。事实上,匮乏的世界在其他方面也是不平等、不公平的。专家、牧师和君主阻止了大多数内容获得关注,大多数人也没有机会发表意见。

但是,即使出于好意,专家们也不得不限制一些内容。他们并不想这样做,但别无选择。在互联网出现之前,对内容的评估和传播是有物理限制的。数量有限的专家不可能阅读、观看和收听所有人制作的所有内容。

人工智能和“长尾”理论

即使专家能够评估世界上所有的内容,传播仍然是受到限制的。电影院每年只能放映大约500部电影,电视和广播只能全天24小时播放,制作和发行成本使得发行有限数量的报纸、书籍、专辑和游戏无利可图。匮乏的世界在某种程度上更加平等,但仍远未达到理想状态。(80/20比98/2好,但不如50/50,即让50%的产品或人获得50%的关注和收入。)

这就是稀缺性的缺点:更高的质量和平等,是以更少的机会和活力为代价的。网络的丰富性颠覆了这一公式:在过去的二十年里,我们享受了更多的机会和变化,但代价是主流质量下降,不平等的加剧,以及两极分化的加剧。

有没有可能两全其美呢?或许有可能。

5.丰富的专业知识

人工智能可以使专业知识具有可扩展性。下一代ChatGPT可能会以专家的方式来评估内容(好=好),而不是以谷歌的方式来评估内容(受欢迎=好)。

我来解释一下。想象一下,一个软件能够真正理解其所读的内容,它不一定要“像人类一样”读懂,近似地读懂就足够了:它可以读懂并确定一般主题,评估作者所使用的方法,研究文章引用的资料来源,考虑论点的清晰度和逻辑性,并确定其是否有价值。对于音乐、绘画和其他任何形式的内容,也可以采取同样的方法,比如看看它这些作品是否具有一致性,如何与之前的作品相融合,借鉴了哪些模式,等等。

我想到的是雅虎的方法和谷歌的规模,基于对每个页面质量的系统评估来管理整个网络,而不是基于受欢迎度进行评估。

在这一愿景中,我们将把内容制作的大众化、网络的无成本传播和搜索的真正大众化结合起来(不仅仅是像谷歌那样使搜索变得更便宜,而且是使其真正具有可扩展性和智能性)。在这样一个世界里,好的内容将不再受制于实体影院、无线电波和打印机,也不再受制于受人群影响的社交算法的偏见。

换句话说:可扩展的专业技术将为更多人带来更好的内容、更少的不平等、更低的两极分化和更多的机会。

是的,谷歌在评估网页时已经考虑了语义。即使是最专业的人工智能,也必须依靠一些社会信号来确定可信度。但是,从“社交”搜索到“智能”搜索的转变,仍会极大地改变网络点赞和浏览量的分布,并减少赢家通吃的情况。

当然,自动化的“专家”也会有自己的偏见。随着我们越来越依赖机器的判断,世界将以意想不到的方式被重塑。就像2003年的克里斯・安德森一样,我们可能会发现,20年后,早期的趋势会变得非常不同。不过,我们又能有什么损失呢?我们真的有选择的余地吗?

本文系未央网专栏作者:小未 发表,内容属作者个人观点,不代表网站观点,未经许可严禁转载,违者必究!