人工智能和“长尾”理论

博融之坚 2023-07-27 5.37 W阅读

（原标题：人工智能和“长尾”理论）

互联网滋生了不平等。少数网站占据了大多数访问量，少数人在YouTube和TikTok上获得了大多数浏览量，少数播客和时事通讯吸引了大多数订阅者。

这种不平等是网络所固有的。网络越广泛，其枢纽就越大。大型枢纽是很高效的，因为它们容易连接更多的节点。看看航空地图，这一点就很明显了。像芝加哥、伦敦或新加坡这样的超级连接枢纽，可以让乘客从任何地方飞往任何地方，只需一次转机。

在线社交网络甚至比航空公司网络更不平等。部分原因是它们的规模更大，部分原因是它们的社会性。“社交网络”一词描述的是Facebook或微信等平台。但实际上，整个网络就是一个由个人生成的网页和帖子组成的社交网络。

我们用来探索网络的工具也是社交性的，而其这一特性加剧了（或导致了）不平等。

我们如何决定去哪里、关注什么内容？我们会主动地使用搜索引擎，或者被动地消费信息源上的内容。在这两种情况下，我们都依赖于社交系统。

1.利用“群体智慧”

1998年，斯坦福大学的两名博士生发表了一篇论文，描述了一种新的搜索引擎。在《大型超文本网络搜索引擎剖析》（The anatomy of a large-scale hypertextual Web search engine）一文中，拉里・佩奇（Larry Page）和谢尔盖・布林（Sergey Bryn）介绍了两项重要的创新。他们根据链接到每个网页的其他网页数量，来评估该网页的质量或“Page Rank”。他们还依靠每个链接的文本，来确定链接目标的内容。

在佩奇和布林设计的系统中，受欢迎的网页（有大量链接的网页）被认为是可信和重要的。而每个页面的主题，则是根据其他网站上指向该页面链接中的文字来确定的。简而言之，布林和佩奇的搜索引擎是根据其他页面的“意见”（链接的数量和相关描述），来确定每个页面的质量和相关性。

这么做成功了！1998年底，布林和佩奇成立了谷歌公司，这个搜索引擎很快就证明，自己优于当时流行的索引和爬虫。在谷歌出现之前，人们通过雅虎、AOL和MSN等精心策划的“门户网站”来浏览网页，或者使用原始的搜索引擎，这些搜索引擎很难与人工编辑的列表相竞争。

起初，谷歌的做法似乎有些牵强。1997年，布林和佩奇担心他们的搜索引擎项目，占用了太多自己攻读博士学位的时间，所以想把这个项目卖给世界上最受欢迎的网站和搜索引擎之一Excite.com。他们向Excite的首席执行官提出以100万美元出售该项目，后来甚至低至75万美元。多年后，Excite的首席执行官乔治・贝尔（George Bell）说，这笔交易失败的原因是，他不愿意让这项新技术推动Excite领先的搜索引擎。

佩奇和布林把谷歌留给了自己，而剩下的就是创造历史了。截至2023年1月，谷歌占据了全球搜索市场85%-90%的份额。随着网络的不断发展，人工编辑已变得不可能，而谷歌的自动“社交化”方法则提供了一种最好的方式，让无限量的内容变得有意义。同样的方法也启发了Facebook、YouTube和TikTok等社交媒体平台的“Feeds”算法，即向人们展示其他人喜欢的内容。粉丝多的人的推荐，比粉丝少的人的推荐更重要。

这种社交方式帮助谷歌和其他公司大规模地提供相关内容。但这是有代价的。

2.大众化受阻

2004年，克里斯・安德森（Chris Anderson）在《连线》杂志上发表了一篇文章《长尾理论》（The Long Tail），描述了互联网将如何改变我们生产和消费内容的方式。这篇文章后来被扩充成了一整本书。安德森认为，有三种力量正在重塑内容世界：

制作的大众化：电脑、智能手机和数码相机，使任何人都能随时随地以低廉的成本制作内容。
传播的大众化：互联网使内容可以在任何地方即时发送，几乎没有成本。
搜索成本的降低：软件和在线平台可以帮助用户找到适合其特定喜好的小众内容。

安德森预测，这些力量将使更多的注意力（和收入），从传统的热门内容，转向小众市场、小型出版物和小众创作者的“长尾”领域。

图片来源：drorpoleg.com

他预计，互联网将终结“80/20法则”，即20%的产品产生80%的收入（以及接近100%的利润）。

图片来源：drorpoleg.com

但结果却截然不同。正如Spotify前首席经济学家威尔・佩奇（Will Page）在《泰山经济学》（Tarzan Economics）一书中指出的那样，音乐听众花费90%的时间收听流媒体平台上不到2%的歌曲。廉价的生产、廉价的传播和“群体智慧”的推荐，让世界变得更不平等了。与安德森的预测相反，热门歌曲比以往任何时候都更受欢迎，在经济上也更占优势。

公平地说，网络确实使机会大众化了：现在有更多的人可以通过创作内容谋生，消费者也可以涉足更多的小众市场和流派。但是，顶尖和一般表现者之间的差距比以往任何时候都要大。更多的人可以通过做自己喜欢的事情赚取每年10万美元的收入。但是，只有少数人可以成为亿万富翁，赚得比任何其他音乐家（或电影制作人、作家或教师）都多。

造成这种不平等的原因是，我们的搜索引擎和新闻源所采用的算法具有社会性。这种算法让更多的流量流向那些看起来受欢迎的东西：如果有一些人喜欢某篇文章，那么这篇文章就会被展示给更多的人；如果有一些人在听某首歌曲，那么这首歌曲就会被推荐给更多的人。旱的旱死，涝的涝死，凡是“受欢迎的”东西，都被认为是值得传播的。

这种态势也是造成主流出版物质量下降和政治两极分化的原因之一。要想脱颖而出，就必须放低身段吸引眼球，或采取一种能激起特定人群兴趣的立场，或两者兼而有之。

也许这就是进步的代价。我们现在可以接触到比以往更多的信息、音乐、视频和观点。每个人都有发言权。当下比以往任何时候都有更多的人有机会成为明星，做自己喜欢的事情谋生。这是一种社会可以接受的权衡。如果没有其他选择，我们可以学会忍受不平等、两极分化和堕落的主流文化。

但如果还有其他选择呢？

3.反社交网络

微软是ChatGPT的制造商OpenAI的早期投资者。而ChatGPT是一个“以会话方式交互”的智能软件。ChatGPT可以“回答问题，解决追问，承认错误，质疑不正确的前提，拒绝不恰当的请求。”你可以要求它解释“劳动价值论”，或者用威廉・华兹华斯（William Wordsworth）的风格写一份蛋糕食谱。

微软正在考虑对OpenAI进行一轮100亿美元的巨额投资。这笔投资不仅是财务上的，更是战略上的。据彭博社报道：

“微软正在努力将ChatGPT添加到其必应搜索引擎中，以求在（谷歌）占主导地位的搜索产品市场中占据优势。与谷歌搜索所提供的基本链接不同，该机器人能够以自然、人性化的方式回答查询，进行对话并回答后续问题。”

ChatGPT提供的结果目前仍然是非常不准确的。但如果假设它会变得更好，并能真正替代谷歌，那么理论上，必应可以提供更好的用户体验：用户可以提出问题并得到直接的答案，而不是得到谷歌提供的网站列表。谷歌本身也可能效仿必应的做法，利用必应的功能使自己的搜索引擎更具对话性和人性化。

这就是大家都在关注的：人工智能对网络搜索体验的影响。但是，这里面还有一个更大的故事：一场潜在的革命，它可能会影响人类注意力的分配、收入以及我们所消费内容的整体质量。

为了理解搜索可能会发生什么变化，让我们想象一个没有搜索引擎的世界。

4.“专家”的作用

在谷歌出现之前，我们是如何寻找信息的？我们依靠专家。因为专家拥有评估信息质量、准确性和有效性所需的知识。经济学家可以评估一篇经济学论文，物理学家可以评估一篇物理论文，编辑可以评估作者的推理和资料来源。即使内容涉及的是全新的观点，专家至少也能判断出作者的方法、手段和声誉（如果不能判断，也知道该问谁）。

在互联网出现之前，我们依赖于专家，避免了社会推荐系统固有的不平等性。专家可以根据各种客观标准来评出“赢家”，忽略或淡化受欢迎程度的作用。当无法获得客观标准时，专家们至少可以依靠事先商定的标准做出决策。

我们可以概括地说，在过去，一条内容之所以受欢迎，是因为它好；而今天，一条内容因为受欢迎而被认为是好的。这并不意味着受欢迎的内容在客观上是不好的，但这确实意味着，受欢迎度压倒了所有其他因素。

即使在过去，受欢迎程度也很重要。但那些生活在互联网和有线电视出现的人知道我的意思：我们过去生活在一个稀缺的世界里，由专家把关，决定哪些音乐、电影和文章值得被更广泛的受众接受。

那些生活在印刷机时代之前的人，对那个世界的感觉甚至更好。事实上，匮乏的世界在其他方面也是不平等、不公平的。专家、牧师和君主阻止了大多数内容获得关注，大多数人也没有机会发表意见。

但是，即使出于好意，专家们也不得不限制一些内容。他们并不想这样做，但别无选择。在互联网出现之前，对内容的评估和传播是有物理限制的。数量有限的专家不可能阅读、观看和收听所有人制作的所有内容。

人工智能和“长尾”理论

即使专家能够评估世界上所有的内容，传播仍然是受到限制的。电影院每年只能放映大约500部电影，电视和广播只能全天24小时播放，制作和发行成本使得发行有限数量的报纸、书籍、专辑和游戏无利可图。匮乏的世界在某种程度上更加平等，但仍远未达到理想状态。（80/20比98/2好，但不如50/50，即让50%的产品或人获得50%的关注和收入。）

这就是稀缺性的缺点：更高的质量和平等，是以更少的机会和活力为代价的。网络的丰富性颠覆了这一公式：在过去的二十年里，我们享受了更多的机会和变化，但代价是主流质量下降，不平等的加剧，以及两极分化的加剧。

有没有可能两全其美呢？或许有可能。

5.丰富的专业知识

人工智能可以使专业知识具有可扩展性。下一代ChatGPT可能会以专家的方式来评估内容（好=好），而不是以谷歌的方式来评估内容（受欢迎=好）。

我来解释一下。想象一下，一个软件能够真正理解其所读的内容，它不一定要“像人类一样”读懂，近似地读懂就足够了：它可以读懂并确定一般主题，评估作者所使用的方法，研究文章引用的资料来源，考虑论点的清晰度和逻辑性，并确定其是否有价值。对于音乐、绘画和其他任何形式的内容，也可以采取同样的方法，比如看看它这些作品是否具有一致性，如何与之前的作品相融合，借鉴了哪些模式，等等。

我想到的是雅虎的方法和谷歌的规模，基于对每个页面质量的系统评估来管理整个网络，而不是基于受欢迎度进行评估。

在这一愿景中，我们将把内容制作的大众化、网络的无成本传播和搜索的真正大众化结合起来（不仅仅是像谷歌那样使搜索变得更便宜，而且是使其真正具有可扩展性和智能性）。在这样一个世界里，好的内容将不再受制于实体影院、无线电波和打印机，也不再受制于受人群影响的社交算法的偏见。

换句话说：可扩展的专业技术将为更多人带来更好的内容、更少的不平等、更低的两极分化和更多的机会。

是的，谷歌在评估网页时已经考虑了语义。即使是最专业的人工智能，也必须依靠一些社会信号来确定可信度。但是，从“社交”搜索到“智能”搜索的转变，仍会极大地改变网络点赞和浏览量的分布，并减少赢家通吃的情况。

当然，自动化的“专家”也会有自己的偏见。随着我们越来越依赖机器的判断，世界将以意想不到的方式被重塑。就像2003年的克里斯・安德森一样，我们可能会发现，20年后，早期的趋势会变得非常不同。不过，我们又能有什么损失呢？我们真的有选择的余地吗？

本文系未央网专栏作者:小未发表，内容属作者个人观点，不代表网站观点，未经许可严禁转载，违者必究！

1.利用“群体智慧”

2.大众化受阻

3.反社交网络

4.“专家”的作用

5.丰富的专业知识

相关阅读