数据要素、人工智能与数智时代的理论创新

数字时代的创新及其对经济学研究的影响

江小涓 宫建霞 李秋甫[1]

进入21世纪,以互联网、大数据、人工智能等为代表的数字技术带来数据生成、传递和处理能力的极大提升,使得数字时代的创新呈现数据驱动的新形态。科学界对于数字时代海量数据带来的科研价值早有探讨,普遍认为海量数据和智能分析工具极大地增强了我们洞察和理解世界的能力,使科研人员能够从海量数据中挖掘出隐藏的关联和规律,加速知识发现,推动科学研究向数据驱动的范式转变。相比科学研究,创新的内涵更加广泛,熊彼特的经典创新理论认为创新不仅仅是科技创新,还包括新产品引入、新技术应用、新市场开拓、新资源利用、新组织形成五个方面。在创新实践中,数字技术的迅速发展和海量数据的产生已经引起创新要素、创新主体、创新过程和创新组织等诸多方面的重要改变。构建更具包容性和解释力的理论框架,深入分析数据对创新过程的系统性影响及其对社会经济体系的整体影响,对于深化创新理论研究、构建国家创新体系以及强化创新政策导向等意义重大。“创新”这个题目涉及经济社会各个领域,其相关理论研究和讨论面甚广,限于笔者精力和能力,本文仅以数字时代最显著的特征以及与之密切相关的经济学核心问题为对象,探讨若干观点。

一、海量数据推动创新范式变革

1.传统创新范式的简要回顾

由于不同时代科学技术产生的基础和条件不同,经济社会发展对科技的诉求不同,创新范式必然具有时代特点,这是创新理论研究的重要内容。据不完全统计,自熊彼特提出“创新”一词以来,国内外提出的创新范式概念多达几十种。比较具有代表性的如:从内外部动力维度提出的技术推动型、需求拉动型创新范式;从主体维度提出的三螺旋创新范式;从知识、要素维度提出的知识创新范式[2];从技术、市场、组织、管理、文化和制度维度提出的全面创新范式[3]。可见,学术界关于创新范式的理论研究丰富且内涵广泛,主要从创新要素、创新主体、创新过程、创新组织、创新体系等不同视角,聚焦特定实践现象,解释创新范式的时代特点。

传统视角的创新范式主要循着科技供给推进和市场需求牵引的两条轨迹及其交互关系这个主线演进。其中,在学术界和产业界有相对较高认同度的一项分析就是英国经济学家罗思韦尔(Rothwell)于20世纪90年代提出的五代创新范式。[4]第一代:技术推动的线性范式(1950—1960年),社会需求远大于科技供给,创新是基础研究—开发研究—产业化的线性过程。第二代:需求拉动的线性范式(1960—1970年),社会供给和需求总体平衡,创新是市场需求拉动的结果。第三代:技术与市场的耦合范式(1970—1980年),世界经济进入高通胀率与需求饱和并存的时代,创新是技术推动和市场拉动交互作用的结果。第四代:技术创新的整合范式(1980—1990年),社会供求进入动态平衡期,创新是研发、设计、生产和市场销售等平行推进的过程。第五代:系统集成与信息化范式(1990年至今),社会供求关系变化提速、市场竞争更加激烈,创新进入系统整合与网络化阶段,不同创新组织利用信息技术实现更密切的横向和纵向联系。罗思韦尔的五代创新范式,较为清晰地呈现了专家学者关于创新范式的理论探索(见图1)。

图1 创新范式:传统视角及理论阐释

2.从信息到数据:创新范式演进的重要驱动力

当下我们进入数字时代,数据生产、流动和共享的意义重大,数据成为创新的重要资源,重新定义了创新链条上各方的交互方式、地位和作用。各种创新力量的地位和作用重新分化组合,带来知识和产品生产方式及生产组织形态的根本性变化,创新范式必定发生重要变化。

在数字时代之前,信息在科技创新中举足轻重的作用被学术文献和著作广泛提起和强调。其中具有奠基性意义的代表是信息论创始人香农(C. E. Shannon)和控制论创始人维纳(Norbert Wiener)。香农认为信息最基本的特征是消除不确定性,一条信息所含的信息量取决于它能消除多少不确定性。[5]维纳认为信息是有别于物质、能量的世界三大要素之一,是人们适应外部世界并与外部世界进行互动交换的消息总称,意味着熵的减少(熵代表一种无序程度)。[6]从传统学者对信息的理解中,我们可以体会其本质内涵:信息可以减少不确定性。许多创新学者在探讨信息对创新的作用时普遍认同这一观点,并在此基础上进行延展讨论。例如,有学者指出创新是一种知识创造,信息的流动能够增加、重组和改变隐性知识和显性知识之间的相互转化,从而创造新价值。[7]也有学者认为创新在某种程度上就是利用现有信息产生新信息的过程,信息对创新的作用不言而喻。

从信息时代到数字时代,数据成为信息最重要的表现形态和载体,成为人类经济社会现实活动在数据空间的一个映射,带来科技创新的重要变化。长期以来我们既有科研范式,也有创新范式。科研范式跨越实验观测、理论推演、计算仿真阶段,正在进入“数据驱动”的第四范式。创新范式依次经历技术推动、需求拉动、技术与市场耦合以及系统集成与信息化阶段,进入“数据密集型创新”阶段。无论科研范式,还是创新范式,范式的演进并不是依次替代的关系,而是不断叠加、不断超越、不断融合的进程,它们原本各自演进,但是现在两者正在逐渐趋向同一个方向,即“数据驱动”(图2)。其重要的原因是,无论是科学问题还是创新问题,最终在很大程度上都可以还原成数据问题。在高能物理、生物医学、地球科学、海洋科学等以信息科学为支撑的基础研究领域,源自高密度高通量数据技术的科学发现和前沿技术创新变得愈加重要。

图2 科研范式和创新范式的演进路径

对创新而言,数据数量的重要性不言而喻。更多的数据往往意味着更广泛的信息覆盖,也意味着可能蕴含更多的潜在信息关联,数据挖掘产生的价值也就更大。需要指出的是,绝大多数数据的价值还在于其实时性,数据愈多,更新愈快,其创新价值愈强。数据的生成过程非常复杂,常常是多方主体相互协作的结果,数据规模越大,能够链接到的数据就越多,从而进一步促进数据主体间的联系,有效嵌入多方知识,促进创新。更多的数据还意味着蕴含更多的潜在关系。大语言模型以其庞大的参数规模和海量的训练数据著称,训练和迭代需要的数据量高达几百GB(吉字节)甚至TB(太字节)的级别,GPT-3(GPT为生成式预训练模型)的训练语料库达45TB。纽约干细胞基金会和谷歌研究院合作开发的高通量细胞表型分析平台,基于48TB的帕金森病患者的细胞图像数据集训练人工智能模型。

海量数据和复杂算法使人类能够观察和解决复杂科技问题。一是解决已知复杂问题,揭示以往人们已知方向却难以及时证实的复杂关联。例如AlphaFold 2精确预测超过100万个物种的2.14亿个蛋白质三维结构。二是揭示未知复杂关系。海量数据和高效计算能力可以在不依靠假设的情况下发现数据间隐藏的复杂关联。中美合作的深度势能团队基于机器学习和大规模并行方法,将分子动力学模拟规模拓展到1亿个原子,效率提升1 000倍以上。三是实时校正科研方向。科研人员可以将数据驱动和理论模型驱动的方法相结合,更好地提出科学假设,优化实验设计,还能利用机器人、自动化等技术手段自动高效地开展大规模、高通量并行的模拟实验,实现过程性微调而无须失败后调整。微软与美国太平洋西北国家实验室(PNNL)合作,利用大数据分析和高性能计算,从3 200万种无机材料中筛选出一种全固态电解质材料,极大地提升了新材料按需研发的速度。四是洞察颗粒化场景并进行个性化赋能。数据对于场景刻画的颗粒度更加细微,覆盖面更加广阔,能为更精确的场景洞察赋能。例如,在数字医疗中,人工智能技术通过对遗传信息、生物标志物、生活习惯、社会环境等多维度的复杂颗粒数据进行分析,能够为不同患者提供个性化的治疗方案。

数据驱动的创新不仅能够揭示海量数据间的复杂关系,洞察颗粒化场景并赋能,而且能够推进和深化理论机制的多样化探索路径,甚至带来新能力的动态涌现。基于对这种新型科学研究范式的理解和重视,2023年3月我国科技部联合自然科学基金委员会启动“人工智能驱动的科学研究”(AI for Science)专项工作。[8]可以预期,数据驱动的科学研究将迅速成为未来科学发现最重要的范式和路径。

二、数据关系的重要性与创新的若干显著特征

人们对物质世界奥秘的理解,更多取决于对数据之间关系的理解。诸多算法的本质都是在寻找数据之间的关系,深度学习就是学习如何发现数据间的各种关联。[9]例如,谷歌的Transformer,其核心就是一种被称为自注意力(Self-Attention)的机制,特别擅长捕捉长序列的上下文关系(Long-Range Dependency),即一段序列中每一个元素和其他元素相关程度的高低。AlphaFold 2预测蛋白质结构,其本质也是寻求氨基酸之间的关系。从理解经济社会的角度看,数据本质上也是关系性的。我们常讲的定量分析,就是探求数据之间的关系,例如相关关系或因果关系。数据规模大的意义也在于可以通过算法找出更多的数据关系。同时,数据具有可以无限次复用和融合的性质,数据之间产生交互、融合和分享的过程,就是数据之间关系的形成过程。

我们可以抽取影响创新效能的四组重要数据关系,即数据生成、传递和获取,数据数量、深度和广度,数据交互以及数据共享,初步探析数据关系影响创新范式的内在逻辑和客观规律。(1)数据生成、传递和获取:信息的生成、传递和获取速度是创新的决定因素之一,例如研究成果相关信息的生成、传递和获取速度(在线阅读快于纸质书刊),社会对科技需求相关信息的生成(网上搜索信息快于市场调研信息)等。在数字时代,原始数据伴随科学技术和生产生活行为同步产生,无须专门生成、传递和获取。(2)数据数量、深度和广度:大数据时代信息数量和信息广度呈现海量和异构特征,海量数据提升创新成功的可能性,广泛的异构数据消除认知偏误,降低创新风险。一定的数据广度和深度是发现数据隐藏关联模式的基础。AlphaFold 2的成功就得益于DeepMind(人工智能公司)与欧洲分子生物学实验室共同建立的一个包含人类98%蛋白质的数据库。数据数量、深度和广度赋能我们在更深的层次理解物质世界和经济社会,使关联分析、知识图谱等需要海量计算的知识发现路径成为可能。(3)数据交互:多维信息交互能够提升交流效率和获得多元的外界知识和经验的能力。数据交互可以避免创新主体对自身的路径依赖,吸收外界信息,实现内外部数据的交叉融合,增强数据挖掘能力。例如,银行通过与供应链企业合作,实现全链条交易数据的交互,有效进行风险防控,识别优质客户,创新金融服务。伴随数据交互,数据主体之间的联系更加紧密,增强协同创新。(4)数据共享:数据具有可以无限次复用复制的特性,不因共享而损耗,所以天然具有“共享”属性。同一组数据被共享愈多,其共享面扩大就会激发更多的信息,产生倍增和叠加效应,其创造的价值就愈大。数据共享还具有较强的社会互动示范效应,引导社会合作和知识分享,赋能更多社会主体进入创新者群体。

海量数据复杂交互形成的“数据关系”,全量、全程、全域嵌入科技创新全链条,决定产业创新能力,并推动创新主体和创新组织的深刻变化。在此,我们探讨数字时代最显著的几个特征。

1.以数据为基础促使产学研链条中产业重要性提升

进入数字时代,数字平台成为海量数据的生产者和汇聚者,并拥有强大的算法能力,在创新链条中间的地位大大提升,位势不断增强。

(1)数据支撑企业从事基础研究。数字领域基础研究往往需要巨大的数据、算力和算法的投入,大型科技企业的雄厚财力以及事业发展平台足以吸引大批顶尖人才,从而以数据、算力和算法的最佳组合推动探索“从0到1”的原始创新。2012年,华为成立诺亚方舟实验室,之后该实验室研发出神经应答机,并发布基于深度学习的对话生成模型。2015年腾讯成立智能计算与搜索实验室,主要面向机器学习、视觉技术、语音、自然语言处理四大方向前沿技术。2017年,阿里巴巴成立达摩院,从事包括机器学习等领域的研究工作,该研究院于2018年研发出一款可以做图像视频分析和人工智能机器推理运算的神经网络芯片Ali-NPU,并于2020年发布全球首个自动驾驶“混合式仿真测试平台”,在人工智能领域发表1 000多篇论文。2024年,阿里云凭借原生数据库PolarDB的优异性能获得国际人工智能领域顶会ICDE(IEEE International Conference on Data Engineering)工业赛道最佳论文的称号。

(2)数据支撑企业进行前沿技术开发。在数字时代,大型数字企业具有巨量链接和海量数据获取、处理与迭代能力,是数字前沿技术的重要创新力量。在自动驾驶、云计算、渲染引擎、虚拟现实等前沿数字技术领域,国内发明专利企业占比接近甚至超过80%(见图3),国际发明专利排名前20的均为企业,明显高于一些典型的传统领域,大型数字企业走在创新前沿。再以大模型技术为例,大模型的训练和调整需要极其巨大的数据、算力和算法的投入,进一步放大了产业界的优势。2002—2014年,学术界在开发最先进的人工智能系统方面处于领先地位。2014年之后,由于需要大量的数据和计算资源,只有少数大型科技企业具备开发和应用大模型的能力。而在2018年之后,产业界主导AI大模型创新,和学术界、非营利组织以及各类联合研究的差距逐步拉大。到2022年,32个重要的机器学习模型诞生在产业界,学术界仅有3个(见图4)。

图3 国内发明专利情况(自动驾驶、渲染引擎、虚拟现实)

资料来源:根据智慧芽检索数据绘制,数据截至2022年4月。

图4 不同部门发布的重要机器学习系统数量

资料来源:Maslej, N. , Fattorini, L. , and Brynjolfsson, E. Artificial Intelligence Index Report 2023 [R] .Stanford University, 2023。

(3)创新成果服务海量客户无须“转化”。大型数字平台连接上亿消费者和百万级、千万级生产者,实时生产和汇聚海量数据,而且能够通过先进的数据采集、感知技术获得具有深度、广度的数据,在强大的算力和算法支持下,准确感知市场需求及其变化趋势。同时,研发结果可以直接应用于海量用户,用户使用反馈也能快速传递给研发团队,持续的数据交互使研发方向能够根据环境变化进行灵活调整,更好地优化相关服务。字节跳动拥有7.5亿日活用户,其核心推荐算法有几百亿的原始特征和几十亿的向量特征,推荐系统不仅基于海量内容数据,还通过捕捉用户行为数据、场景数据进行实时反馈和优化,快速更新用户标签,提升个性化的推荐效果。天猫平台利用大数据优势,为“天猫小黑盒”提供趋势洞察、全域仿真、实验场景设计等服务,使得日用品创新周期平均缩短24天。

(4)数据交互形成研发簇群覆盖场景化技术体系。在数字时代,平台往往是大场景运作、跨产业运营、多领域并行推进,集成整合的技术、产品和服务类型众多,能够增强各创新主体之间的场景化数据交互能力,极大地促进创新。百度的Apollo对外开源核心软件架构与算法,形成包含芯片、传感器、人工智能、OEM(原厂委托制造)、教育、平台服务等的自动驾驶创新网络(见图5)。在芯片方面成立昆仑芯公司,2022年昆仑芯二代在百度无人驾驶车辆Robotaxi上实现大规模部署和落地。在传感器制造方面,Apollo与行业领先企业禾赛科技合作,定制全新架构激光雷达用于第五代完全无人驾驶车。在人工智能方面,百度全资收购语音交互公司KITT. AI、机器视觉公司xPerception。2019年,Apollo与英伟达合作推出全球首款商用L2 +自动驾驶系统。在教育方面,Apollo与国内诸多知名高校及教育平台合作,开设自动驾驶相关课程、举办自动驾驶仿真赛,推进人工智能技术人才培养。

(5)依托数据获得投资洞察力。平台企业具有独特的数据优势,能够保持对未来创新方向的高度敏感,同时具有较强的投资能力。近几年,我国新创企业高度集中在数字与智能领域,这既是新创企业自身对科技发展方向的把握,也是创投企业在数智领域集聚投资的引领结果。2021年中国排名前100的独角兽企业中,62%的企业获得过来自大型数字科技企业的投资,在A轮和B轮融资中获得数字科技企业的投资比例达48%(见图6)。

图5 百度Apollo自动驾驶平台研发生态

图6 2014—2021年平台企业风投(CVC)情况

资料来源:根据IT桔子数据库整理绘制,数据截至2021年12月31日。

2.数据交互支撑的开源开放式组织形态

随着数据成为重要的创新要素,任何一个创新组织链接的数据愈多、更新愈快、交互愈强,其创新能力就愈强。因此,开源开放式创新成为重要的创新组织形态。

(1)开源技术:汇聚海量数据支撑共享交互。开源技术源于软件,指源代码向公众开放的软件技术。在数字时代,开源成为一种创新理念与文化形式,指共创共享的技术创新,已经成为软件、网络和数字领域的开发和创新模式。全球97%的软件开发者和99%的企业使用开源软件,72%以上的移动操作系统基于开源Linux内核,全球70%以上的新立项软件项目采用开源模式。

当前,技术领域的主流大数据软件大多是开源的,以人工智能为例,从早期的开放数据(ImageNet、IMDb、GLUE等),到后来的开源算法(ResNet、Transformers、EfficientNet等),再到现在的开源框架(谷歌的TensorFlow框架、Meta的PyTorch框架),其突飞猛进的发展与人工智能开源历程密不可分。面对数据、算力和投入的海量需求,开源有独特的数据共享交互优势。一是开源社区能够获得海量数据、海量软件资源以及透明高效的项目信息与开发轨迹。截至2023年8月,作为人工智能框架开发者最关注的主流框架,TensorFlow的开源代码提交次数达152 279次,Star数达177 000(Star数表征开源项目流行度),从底层开源代码到中间模型库,再到上层算法迭代,构筑人工智能开发底座。二是开发资源的充分复用、软件产品的实时发布、应用反馈的实时交流和分享,极大提升数据的交互效率,构建应用场景,促进产用协同创新。美国橡树岭国家实验室利用TensorFlow在Summit超级计算机上训练了1.1EFlop/s(每秒百亿亿次浮点运算)的极端天气预报模型;雨林保护组织Rainforest Connection基于TensorFlow开发了世界首款可自动识别盗伐行为的热带雨林环保系统。三是开源的代码公开、规则公开、过程公开以及公平公正的交互共享社区等特性加速了可信协作模式的构建,能够实现世界范围内智慧资源的分布式协作和接力式开发,促进了社会共创共享理念和文化的繁荣。

虽然目前人工智能通用大模型的领先者还是采用闭源模式,如微软的Turing-NLG、OpenAI的GPT-4等,而且“领先者加速”使大者更大、强者更强的趋势仍在继续,但后继者很可能采用开源模式与之竞争,Meta的LIama、阿里云的通义千问、零一万物的Yi-34B均是开源的,希望能与先行闭源大模型形成有效竞争。

(2)开放科学:处理海量数据支撑超大规模科学项目。数据生成、传递和交互方式的不断演进,使开放科学逐渐成为科学研究方式变革的一类趋向性目标。这一方面适应了科学研究范式的改变,以预印本、新的影响评价等为代表的新型科学交流方式进一步促进了科研信息的深度交换;另一方面,伴随着数据交互方式的不断演化,以“自由”“开放”“合作”“共享”为特征的开放科学事业也不断引导发掘和利用海量数据,以提高科学研究水平。

在新冠大流行时期,世界卫生组织(WHO)和很多药品机构共同设立了涵盖基因序列数据、临床试验结果、药物治疗公平分配、开放式创新的数据开放平台。这个平台非常有效,平台上各方都承诺只要有了新的专利、新的数据测序就立即上传,这对全球疫情的毒株变异预测和采取应对措施发挥了非常重要的作用。2021年11月,来自博茨瓦纳和南非的科学家在同一天将存在变异情况的基因测序数据上传至开放科学平台GISAID上,引起科学界的迅速关注。在不到三天的时间,世界卫生组织将这一变异宣告为第五个关切变异株即“奥密克戎”(Omicron),这是在以往流行病学研究中未曾出现过的速度。

在天文学、高能物理、生命科学、空间科学等领域,国际大科学项目成为推动重大科学发现的主流模式,各国或国际组织均致力于大科学数据的开放共享,并将各国科学家联合起来开展分布式协作研究。例如,全球生物多样性信息网络(GBIF)是一个面向全世界用户的有关全球生物多样性的综合性信息服务网络,拥有61个国家的科学数据。近年来,我国不断加强开放数据基础设施建设,以高海拔宇宙线观测站(LHAASO)项目为例,2022年全年采集11PB(拍字节)数据,包含10万亿个宇宙线事例,数据和计算资源向全球开放,全年的数据访问和处理量达到448PB,在宇宙线前沿研究方面获得了“PeV超高能光子”“超高质量暗物质寿命”等多项重大科技成果。

数据的加入为我们回顾科技创新发展历程提供了新的角度,即从信息传递角度观察科学、技术和产业的关系,三者之间的关联与互动受多种因素的影响,其中信息传递内容与形态的特点是重要因素(见图7)。科学、技术与产业三者的关系从分离状态到关联状态,再到即时融合与交互反馈状态,信息在创新中的作用实现了动态跃升。一是信息稀缺与三者分离状态。工业革命之前,由于信息传递不畅,科学发现、技术发明和产业发展不能相互知晓,科学家追求知识和精神上的满足而不考虑应用,产业中的技术行家也无从知晓和吸收科学成果,奉行“实践出真知”。科学、技术与产业各行其道。二是信息增加与三者关联加深。信息传递技术的发展(例如通信)和载体的丰富(例如学术期刊),使科学技术化和技术科学化趋势日益明显。科学家可以瞄准产业需求,科学研究的目的是发明、设计更为精良的机械、装备、技术和工艺;产业中的技术行家可以搜索科学成果,在其指导下开发新技术,并用之于生产。科学、技术与产业的关联度开始形成并不断加强。三是海量数据与三者的快速交互与实时反馈。随着大规模标准化生产能力的形成,用户端反馈具有了“可传递、可汇聚、可归类”的性质,用户端也加入上述链条,形成“产学研用”双向多点信息传递的创新链条。

图7 从信息(数据)角度的观察:科学、技术和产业的关系

三、数据驱动的创新给经济学研究带来的机遇和挑战

进入数据驱动创新时代,数据规模和实时性有极大提升,算法和算力也得到极大改进,数据驱动创新的一个突出特点是能够解决高度复杂的问题(复杂性科学),揭示数据间隐藏的复杂关联,更好地理解和处理经济社会问题,同时也带来新的挑战。

1.多源多模态数据支撑复杂经济问题分析

创新本质上是一个经济学问题,当代经济学的一个重要研究类型是实证研究,即以数据为基础推断变量之间的因果关系。[10]但受限于数据数量和质量、因果关系可解释性要求和计算能力等因素,过往相关实证研究的数据量较小,并且采用确认因果关系或某种因素影响程度的处理方法,如主因素法、双重差分法、断点回归法等。

然而,经济活动是动态复杂系统,金融风险的生成和控制经常被举例为社会科学领域的复杂问题。小样本数据和少数测量维度难以真实描述创新的本质,在大尺度一般规律和微尺度具体创新场景的处理上都显得“数不从心”。影响经济的因素很多,这些因素有的可观测,有的不可观测。大数据不仅可以利用大量高频异质性微观经济主体的行为数据来研究他们之间的各种社会网络(如地理网络、行业网络、平台网络、数字网络)及其动态演变,而且能够从文本或者社交平台等多模态数据中提取有关情绪、情感、心理预期、满意度等传统数据中难以获得的信息,并通过构建指数等形式将心理、情感等变量定量化,例如投资者情感指数、国民幸福感指数、社会舆情指数、政策不确定性指数等。

近些年来,我国经济政策特别强调解决“信心和预期”问题,这涉及对心理、意识、情绪等因素的感知和互动关系判断。在以往关于经济社会问题的研究中,上述因素是一类重要但难以获得数据进行定量研究的问题。创新的本质是一种长期风险投资,预期和心理等因素的影响更加明显。如今,对多模态数据,特别是文本数据的处理能力,提供了许多与经济社会相关的情绪和预期等实时信息,支持对这类问题进行更接近“真实过程”的分析研究。[11]值得指出的是,数据驱动的研究范式蕴含着学科交叉方法和路径,有利于经济学、社会学、计算机科学、心理学等各领域学科专家的通力合作,为错综复杂的经济现象提供更多视角和洞见。

2.数据主导带来的垄断挑战和科技风险的不确定

规模报酬是经济学的一个基础理论概念,在以往以实体产品为主的时期,企业在达到一定规模后,其规模报酬呈现递减的规律,即随着生产规模的扩大,产出增长比例低于投入增长比例。在数据和人工智能时代,规模报酬出现了本质变化。规模报酬递增的特点由“边际增量”改变为“新能力涌现”。为了描述和分析这种新型的收益递增,我们借用深度学习领域的一个重要概念——规模涌现规则(Scaling Law,也称规模定律)。[12]规模涌现规则的基本原理是,随着模型规模的增加,模型的性能也会提高。

对于这个规则的未来适用边界,研究者有不同看法,但对于这个规则在当前阶段的适用性大都持赞同态度。大型平台企业不仅拥有数据和算力方面的优势,而且其市值和利润的快速上升也使头部企业有足够的资源来投入人工智能的研发,规模经济和范围经济效应十分显著。当规模越过阈值后,规模效应“边际”转变为“质变”甚至“涌现”,涌现后来者无法企及的全新能力,包括深度泛在的感知能力、对多元变量关系的洞察能力、对高度复杂问题的预测能力等,为企业带来强大的市场竞争力。当前的问题在于,大企业的规模优势在带来创新能力提升的同时,有可能导致市场结构和竞争关系的根本改变。从经济学理论出发,这种趋势必定会导致垄断性的市场结构。

在以往的软件行业发展中,开源模式是约束垄断形成的重要力量。微软于1983年开发的Windows系统(闭源)曾于2009年占据93.79%的市场份额,同时期的安卓(Android)系统(开源)只占2%。而到2017年,安卓系统以38.97%的市场份额首次超越Windows系统37.07%的市场份额,成为全球第一大操作系统(见图8)。现在,相对后期的智能大模型如Meta的LIama、阿里云的通义千问、零一万物的Yi-34B均是开源,希望能与现行闭源大模型形成有效竞争。但由于先行者优势较之软件时代更加突出,我们还不能确定开源开放这类创新组织和市场内生的制约因素是否有可能削弱数据领先占有者的市场支配地位。从长期看,创新者之间强者愈强的“马太效应”、创新者与数据提供者之间的权益失衡、创新成果使用带来的社会分化与不平等问题将更加凸显。我们还不能将这些问题完全交给市场去处理,政府可以考虑加大对于开源开放的鼓励和引导,使之成为企业社会责任的标识和追求,成为社会认同的创新文化,以约束头部大型平台的垄断风险,提升创新效率,促进创新收益的公平分享。

图8 全球主要操作系统的市场份额变化(2009—2023年)

所有的科技都有负面作用,例如核技术、克隆技术和基因技术,这些技术的发展和应用始终伴随社会的担心和不同的声音。不过在人工智能出现之前,科学共同体的力量、国家规制的力量和国家间合作的力量共同发挥作用,其负面性并没有成为突出问题。在数字技术急速发展的同时,其应用泛在而无形,更可能面临“科林格里奇困境”,即一项技术的社会后果在技术生命的早期难以预料,而当不希望的后果被发现时,技术往往已成为整个经济和社会结构的一部分,以至于对其控制十分困难。这意味着传统的社会适应机制——试错并纠正——变得不再适用,以及对行为后果承担责任的回溯模式目前已越发失灵。在新一轮生成式人工智能爆发的浪潮中,大模型的加速迭代与能力扩张更是对“价值对齐”产生了巨大的挑战,大模型的伦理风险成为模型本身进一步演化升级时首要回答的问题,并将其内置于创新全链条中予以高度关注,而非仅在成果应用环节加强“治理”。

总之,在数字时代,数据和数据关系作为最显著的新变量,全量、全程、全域嵌入科技创新活动,推动形成由数据和数据关系驱动的创新范式。数据成为驱动创新的重要源泉,大型平台既是生成数据的源泉,更是汇聚多重能力的主体,在规模涌现规则的加持下地位显赫,在相当程度上决定着整个社会的创新进程。开放型创新组织有利于汇聚异质性、多样化的数据和各种资源,成为重要性日益提升的主流创新组织形态。上述特征在提升创新效率的同时生发出新的不确定性,有可能使市场结构和福利分配出现与“合理状态”不一致的改变。人文社会科学领域的学者对此要保持持续关注和深入研究,确保科技进步有益于人类福祉和社会公平。

[1] 江小涓,中国社会科学院大学教授;宫建霞,中国社会科学院财经战略研究院博士后;李秋甫,清华大学马克思主义学院助理研究员。

[2] Nonaka, I. , Takeuchi, H. The Knowledge-Creating Company: How Japanese Companies Create the Dynamics of Innovation [M] . New York: Oxford University Press, 1995:127-128.

[3] 许庆瑞,郑刚,陈劲.全面创新管理:创新管理新范式初探——理论溯源与框架[J] .管理学报,2006(2).

[4] Rothwell, R. Towards the Fifth-Generation Innovation Process [J] . International Marketing Review,1994,11(1):7-31.

[5] Shannon, C. E. A Mathematical Theory of Communication [J] . The Bell System Technical Journal,1948,27(3):379-423.

[6] Wiener, N. Cybernetics [J] . Bulletin of the American Academy of Arts and Sciences, 1950,3(7):2-4.

[7] Nonaka, I. A Dynamic Theory of Organizational Knowledge Creation [J] . Organization Science,1994,5(1):14-37.

[8] 新华社.科技部启动“人工智能驱动的科学研究”专项部署工作[EB/OL] .(2023-03-27). https://www. gov. cn/xinwen/2023-03/27/content_5748495. htm.

[9] 江小涓,宫建霞,李秋甫.数据、数据关系与数字时代的创新范式[J] .中国社会科学,2024(9).

[10] 洪永淼,汪寿阳.大数据如何改变经济学研究范式?[J] .管理世界,2021(10).

[11] 大卫·伊斯利,乔恩·克莱因伯格.网络、群体与市场[M] .李晓明,王卫红,杨韫利,译.北京:清华大学出版社,2011.

[12] 这个概念描述了模型性能与模型规模(如参数数量、数据规模和计算资源)之间的关系。