智能涌现?|AI大模型中国爆发元年:跌跌撞撞 蹒跚前行

博融之坚 2024-01-07 8.88 W阅读

南方财经全媒体记者 石恩泽 深圳报道

年初,AI技术的突破不仅让元宇宙的梦想得以延续,还成为中国数字经济的新引擎。

梦想结合现实,AI成为各界人马的兵家必争之地。从区域层面看,北京高校众多,拥有全中国最多的大模型团队,上海高度关注芯片和数据的应用,誓要成为最强“卖铲人”;深圳因其市场化层度高,则发力于AI应用创新。

不仅政府层面高度重视,上游数据公司呼朋引伴忙着建立自己的联盟;中游大模型层的互联网大厂纷纷行动,相关发布会接踵而至;下游AI应用创新公司更是如雨后春笋一般涌现。

今年,南方财经全媒体记者在深圳采访了十余家不同赛道的AI应用公司。本篇将对今年采访过的公司做一个回顾和梳理,分别谈谈AIGC产业链上游数据层、中游大模型层、下游应用层所面临的挑战,以及突破难关后将迎来的新世界。

“卖铲人”困境

业界将AIGC产业链按上中下大致分为三大部分,其中最上层为基础层,也就是建造大模型的“钢筋水泥”――数据、算力和算法。

作为大模型的养料,数据的好坏直接影响大模型的“三观”。因此,年初AI概念股里,数据公司被股民誉为AI时代“卖铲人”,先涨为敬。

然而,中文数据语料库的缺乏,让不少从业者忧心。华傲数据董事长贾西贝认为,“数据是AI大模型的胜负手”。好比说,大模型是一个对数据有着巨大食量的小孩,若是有一天这个小孩没有可食用的数据了,那么他的智力就停滞了。同时,若是发展AI却不重视数据,那么今后中国在全球AI大模型竞争中,将会诞生一批营养不良的“早产儿”和“野蛮人”。

智能涌现?|AI大模型中国爆发元年:跌跌撞撞 蹒跚前行

网络上那么多数据,为何中文数据还是陷入数据荒境地?从源头来看,一方面公域数据被政府“养在深闺”,没得到充分利用开发,另一方面私域数据则被各大互联网平台视为“新石油”,为了推出自家大模型而各建各的孤岛。

从生态层面来看,国家战略上正在积极推进数据交易所的建设。然而,目前数交所面临的问题则是,场内交易始终不如场外交易量大。一则是场内交易的标准还在逐步完善,例如数据资产入表虽然已被提升日程,但还未开始大规模推行;二则是不少传统行业还没意识到数据的重要性,以及数据交易可撬动更深层次、更大范围的价值。

如今数字经济和数据要素已经密不可分了。例如,一辆有自动驾驶模式的车在出口过程中可能就涉及数据出境问题;以及大模型里携带了千亿级、万亿级的参数,若是作为软件进行出口,则不可避免要思考数据审查问题。再过五年,凡是软件出口、金融服务贸易出口、汽车出口、生物医药等等,都将涉及数据跨境问题。“若是没有建立自身的数据合规体系,中国外贸料在未来寸步难行。”已成为不少专家的共识。

模型与应用存在隔阂

今年BAT等互联网大厂有关大模型的发布会,没少开。每个发布会上,大厂高管的例行公事就是,先把自己的参数和GPT做个对比,然后再洋洋洒洒带货一堆可提升效率的工具。

但是这一波波带货,却没能打入做AI应用创新的老板心里。若说大厂在数据上玩命造孤岛,那么大模型则是强化孤岛的铜墙铁壁。

有不少AI初创公司创始人私下告诉南方财经全媒体记者,在真金白银的付费意愿面前,他们更愿意将票投给OPENAI的ChatGPT。“无论是在技术,还是商业化成熟度上,OPENAI都做得更好”。一位创始人如此说道。

那么国内大模型对比OPENAI还有哪些地方需要提升?

首先是“套壳”疑虑。有不少业界人士对南方财经全媒体记者分析,有不少国内大模型都是建立在Transformer的开源基础上,也就是说,国内大模型的底座都是英文数据集训练而生,这才有了“套壳”的质疑。

但这也从侧面反映出,在模型底座架构的搭建上,国内缺乏大量专业技术人才。“目前国内大部分模型都是建立在开源基础上的‘微调’”。一位不愿具名的大模型初创公司从业者说道。

然而,国内大模型公司大多不愿意承认这一点。他们会以“本土化”来进行包装,并进一步放大自身的渠道优势。或者说,大模型对他们而言的商业价值,就是作为存储数据“仓库”的云的一种升级。

也正因躺着做渠道久了,“大厂病”随之而生。大部分厂商的销售技能还停留在卖“云服务”,而没有深入赛道了解,各行各业的痛点和需求。这导致的问题就是,大厂设计出来的一堆大模型应用工具,并不被下游应用层公司所认可。反倒是,在赛道内深耕多年的老兵,更加懂得行业内的需求。这类老板所创业的Agents公司,往往能够通过微调ChatGPT等国外大模型,泛化出更适合国内垂直行业小模型。

缺少生态的繁荣

“所有场景都值得用AI再做一遍”这句话成为下游应用层的新机遇。

诚然,生成式AI作为一个提升效率的强大工具,今年已深入各个赛道进行了一波“试水”。在与各个赛道的融合上,中关村大数据产业联盟副秘书长颜阳对南方财经全媒体记者表示,越是靠近C端,越是容易带来效率的巨大提升,因为数据相对而言较好获取。

而工业则是“天然反AI”。不少工业界人士表示,AI虽然能提升效率,但是若想应用于工业界,还需要经过漫长的验证周期,才能投入产线上进行大规模使用。“对比一条产线出现故障产生的后果,AI所能带来的效率提升将不值得一提。”一位不愿具名的工业机器人独角兽高管对南方财经全媒体记者如此说道。

其次,工业产线每日产生的数据并不适合上云。“我们对接的不少半导体厂都要求数据不出厂,因为对于他们而言,只有‘拔掉网线’最安全。”上述高管说。然而,若在生产过程中产生数据“断点”,将难以完成闭环,从而也难以发展出适合大规模使用的AI工具。

除了工业生产面临如此问题,医学界也面临同样境况。数坤科技公共事务部总监李丹彤表示,一般医疗数据“不出院”,但对于创新企业而言,数据不能仅通过科研方式进行迭代更新,还需要在医院层面也打通。若想要从全生命周期评估一家医院的AI技术,不仅要临床数据,还要财务、人力等行政部门的数据。

而涉及到手术机器人层面,则更为复杂。对比医疗影像设备,天智航董秘黄军辉表示,手术机器人将更加依靠医生的经验与个案的积累。“在这个层面上,你需要跟其他合作方进行协同融合。”

因此,中国医学装备协会专家王才有总结称,“在AI领域,一切创新都需要拿数据说话。”基于此,他建议,若以市为单位建设一个通用型数据平台,来收集全市器械上市前的中试应用数据和上市后的临床数据,将有助于推进AI在医学领域的产业发展。但若是成功将AI应用于医疗影像辅助诊断上,人力成本上可降低近60%。

再来看,距离C端更近的服装行业。虽然不存在数据难以获取的问题,但却让业内不少设计师都陷入了知识焦虑。通过一句话、几个关键词、几张图片就可以在短短几秒钟生成定制艺术风格,让服装行业正在遭受AI冲击。

“如今中国设计师异常焦虑,深怕错过任何一个AI工具。而这导致的问题就是,企业在对自己公司状态还没有清晰认知的时候,就喜欢盲目跟风上系统。这个浮躁的风气也让不少企业老板,一味追求短期效果。”上海国际时尚教育中心数字时尚学院院长金宏渊说。

虽然产业界的各方人士,都表达了AI应用落地的困难。但创投机构则更加看好AI应用落地。这也让创投机构在今年下半年,纷纷将关注重心从大模型转移至AI应用上。

恒邦资本副总裁杨华表示,接下来尤其关注AI工具在应用场景里快速落地、快速长大的能力。也就是说,创业者应当思考如何利用大模型已经搭建出来的强大能力,在技术上尽快实现产品化、规模化。

不少国内AI应用创新创业者认为,西方是基于语义大模型往下探寻市场的路径,而中国是通过一个个生成式专家系统应用场景的叠加,搭建出一个有中国特色的AI金字塔。“GPT来了,我们有了‘电’。但光有‘电’不行,我们还要找到‘电灯’。”非均衡医疗创始人李博说。