
没有高质量数据集,词元产出的就是“劣质燃料”,无法支撑可靠的智能决策。
文|王雅迪
ID | BMR2004
在词元(Token)经济时代,高质量数据集已成为决定AI模型经济价值与商业竞争力的核心战略资源。它直接决定了模型生成词元的精准度、可靠性及信息密度,优质数据能以更少的推理词元实现更高效的决策与创造,显著降低无效计算和错误输出的成本;反之,低质量数据则会产生大量“垃圾词元”,不仅浪费算力,更可能引发合规与安全风险。
作为专为政府、公共服务机构、大型集团企业提供数字经济基础设施的服务商,中国电子云依托其自主可控的云底座与数据要素化技术体系,构建高质量数据集的汇聚、清洗、标注、脱敏与合规审查一体化平台,帮助政企客户将分散的原始数据转化为可流通、可计量的词元资产。
中国电子云高级副总裁黄锋在接受《商学院》杂志采访时表示,没有高质量数据集,词元的产出就是“不够优质的燃料”,无法支撑可靠的智能决策。在整体链条中,中国电子云承担着“燃料精炼厂”的角色,通过高质量数据集的建设为AI提供优质燃料。
01
单位词元含金量本质由数据质量决定
高质量数据集通过提升信息密度、降低模型幻觉、增强专业可靠性,让相同词元消耗承载更高决策价值与业务效用,直接提升单位词元的有效产出。
词元是AI模型生成与推理的基本单元,其含金量并非指词元本身的长度或数量,而是指每个词元在实际应用中所承载的有效信息量、决策精度和商业价值。高质量数据决定了模型在学习阶段能够提取到多少“有效知识密度”,而这一密度最终会映射到每个生成词元的信息熵、置信度与决策价值上。
上海人工智能实验室曾在书生·浦语3.0的研发中,提出了“思维密度”(IQPT,Intelligence Quality per Token)这一核心概念,将数据质量带来的词元效率提升进行了量化定义。
该研究团队认为,数据质量的提升带来的增益会显著高于数据规模的提升,而数据的“思维密度”是数据质量的核心,即数据的思考过程中蕴含的逻辑性、复杂性、启发性等。该团队仅使用4T词元的预训练数据,即实现了主流开源模型18T数据的训练效果,训练成本节约75%以上。
黄锋表示,在词元经济体系中,单位词元含金量本质上由数据质量决定。高质量数据集通过提升信息密度、降低模型幻觉、增强专业可靠性,让相同词元消耗承载更高决策价值与业务效用,直接提升单位词元的有效产出。反之,低质量数据会造成大量无效、冗余词元,拉低整体价值。
如今,AI模型词元定价已从2024年的价格战阶段全面转入涨价周期,核心特征是输出词元贵于输入词元,输出生成需逐字顺序处理,计算成本远高于可并行处理的输入解析,因此输出词元价格通常是输入的3—5倍。这一机制使单位词元含金量不仅是性能指标,更成为直接影响企业运营成本的经济杠杆。
因此,黄锋认为,不同质量数据产出的词元在定价与商业回报上应当分层区分。高质量数据成本更高、稀缺性更强,对应的词元适配专业场景,具备高溢价;低质量数据产出的词元仅适用于基础场景,定价偏低。这种差异是AI商业化合理定价与可持续回报的核心逻辑。例如在医疗诊断场景中,经专业高质量数据训练的模型,诊断准确率远超基础模型,其词元价值远高于通用模型,商业回报有较大差距。
随着词元成为分层定价的基础商品,高质量数据集的价值将更紧密地与词元产出效率、信息含金量挂钩,形成“质量—效率—价值”的市场化定价关联。
近日,根据全球知名大模型API调用平台OpenRouter最新数据,3月30日—4月5日,中国AI大模型周调用量达12.96万亿词元,环比暴涨31.48%,连续5周超越美国。同期美国调用量仅3.03万亿词元,不及中国的四分之一。
这组数据说明,中国存在庞大的市场需求,为词元工厂发展提供了广阔的空间。同时,国产大模型在性价比方面表现突出,相较于国外一些知名模型,国产模型在满足大多数应用场景需求的同时,能够以更低的成本提供服务。
02
以技术与服务赋能行业高质量数据价值释放
掌握了高质量数据集就等于掌握了AI时代的价值定价权。
“中国电子云主要专注提供多模态数据治理工具链与高质量数据集治理服务,助力客户数据高质化,我们不直接出售高质量数据集,更多是以技术与服务赋能数据要素价值释放。”黄锋指出。
随着AI应用加速向医疗、金融、司法等高价值领域渗透,数据集的完整性、时效性与专业性已不再是辅助性输入,而是整个词元价值链条的源头质量阀,掌握了高质量数据集就等于掌握了AI时代的价值定价权。
黄锋表示,原始数据如同“石油”,虽然蕴含价值,但由于数据质量、模态对齐等问题,无法直接驱动算法迭代,而高质量数据集与原始数据的核心区别在于,高质量数据集通过文本解析、关键信息提取、数据标准化、归一化、去重等全流程加工,将原始数据转化为AI ready的高价值、高密度、标准化数据集,可直接用于模型训练,显著提升模型效果与性能,正是“精炼石油”起到的效果。
中国电子云正像一个“燃料精炼厂”,通过高质量数据集建设为客户构建完善AI能力的基础环节。中国电子云2025年发布的“新星”全链路AI解决方案,正是从“高质量数据治理—模型开发—应用矩阵构建—全链路数据循环赋能”的闭环解决方案,核心逻辑是以高质量数据集为牵引和驱动,提升模型训练的效果,让基础模型更懂行业知识,成为行业专家,从而构建对行业客户更可用的AI应用矩阵。
此外,面对巨大的“燃料”需求,中国电子云构建了覆盖高质量数据生产的全周期自动化工具链。中国电子云的全模态数据智能平台覆盖数据接入、清洗、解析、增强、标注、评估、版本管理及数据血缘全流程,支持结构化、半结构化与非结构化数据的统一纳管。通过内置的智能标注与质量校验算子,实现从原始数据到AI ready数据集的高效转化,大幅降低人工干预成本。
同时,中国电子云通过统一湖仓架构集中纳管同一业务域的不同模态数据,通过可信数据空间,安全、可靠地纳管核心业务数据,并通过可信算法能力体系整合不同模态的数据,为模型训练提供与客观世界更贴合的特征空间库,为Data for AI、数据可靠流通、高质量数据集构建等关键应用场景提供全栈能力。
03
打通数据融合的堵点
“有数据却难用好、想共享却难打通”的局面,一定程度上制约了词元在关键场景的价值释放。
在词元经济时代,只有被清晰界定的高质量数据,才能保证模型生成的每个词元都承载高信息密度与低噪声干扰,从而减少无效推理和错误传播,提升词元的边际产出效率与商业可信度。
中国电子云将AI ready高质量数据集定义为:经过文本解析、关键信息提取、标准化、归一化、去重等治理流程,可直接用于模型训练并有效提升模型效果和性能的数据资产。
需要注意的是,在垂直行业尤其是公共数据领域,数据共享与融合面临标准不统一、权属界定模糊、安全合规门槛高、跨域互信机制缺失等多重挑战,导致原本分散在各系统、各部门的高价值数据难以有效汇聚和协同利用,这种“有数据却难用好、想共享却难打通”的局面,一定程度上制约了词元在关键场景的价值释放。
此外,不同行业在评估维度上存在根本性差异,比如医疗领域强调数据隐私保护与高准确性,确保患者信息脱敏,同时要求标注精准、可追溯;能源领域侧重设备时序数据的完整性、实时性与异常标注,关注传感器数据的时间对齐、缺失值处理及故障类型标注,以支持预测性维护与能效优化;航空领域则要求飞行数据的高精度标注、故障模拟场景覆盖及适航合规,对数据准确性、安全性和可解释性有最高标准。
各个领域在数据敏感性、实时性要求及容错标准上各有侧重,中国电子云基于全模态数据智能平台,针对这些差异化需求,提供完备的高质量数据治理工具链及高质量数据集治理服务。
以北京安贞医院为例,其与中国电子云联合研发的中西医结合高血压诊疗大模型,正是基于北京安贞医院的权威临床经验与科研能力,以及多中心、多模态的大量回顾性医学数据,利用中国电子云自主研发的云计算与人工智能产品与技术,对多源、异构的医疗数据进行系统化、标准化、后结构化处理,构建起高血压高质量数据集和多中心亚组队列,并训练、测试、调优形成涵盖个体化诊疗(诊前、诊中、诊后)、全病程健康管理(主动管理、被动管理)的专病智能体。
该项目服务我国三级医疗服务体系,促进高血压治疗从“千人一方”走向“千人千策”,推动中国高血压防控工作关口前移,最终实现“防大于治”。研发团队透露,未来将继续优化模型性能,深化知识库在临床场景中的应用,持续完善高血压专病防治的技术支持体系。
黄锋表示,当前推动关键行业数据共享与融合,最大的堵点在于数据安全、数据隐私的保障,以及信任机制的建立。在技术层面,中国电子云研发的模型融合方案已具备跨企业、数据不出域的联合训练能力,通过同步模型梯度而非交换原始数据,在数据严格隔离前提下实现价值流转,解决了数据安全、隐私保护的问题。
04
放大公共数据资源价值
如何让公共数据资源在合规安全的前提下充分发挥其蕴含的高价值,是中国电子云持续发力的方向。
《全国公共数据运营发展报告(2024—2025)》(以下简称《报告》)显示,国家公共数据资源登记平台于2025年3月1日正式上线,截至2025年6月30日,已有12个省级平台与之互联互通,全国已公示登记信息2808项,公共数据资源存储总量超过932TB。登记资源已覆盖60个行业类型,标志着我国在掌握公共数据资源底账、规范授权运营方面迈出重要一步。
《报告》披露,公共数据授权运营平台建设进入加速期。截至2025年6月30日,全国已公开运营或在建的平台或专区达51个,其中68.63%集中在2024—2025年上线。
如何让公共数据资源在合规安全的前提下充分发挥其蕴含的高价值,是中国电子云持续发力的方向。黄锋认为,通过结合AI技术可以将公共数据资源价值放大,例如中国电子云基于各级部门发布的法律法规、管理办法等政策性文件作为法规训练集,正在训练合规大模型,该大模型将用于其合同智能体。在公共数据授权运营过程中,如何提高数据源侧的数据质量和稳定性,是实现公共数据资源变现的重要前提。
例如,中国电子云为中国东航构建了支撑AI应用落地的高质量数据集,全面覆盖国产大飞机全领域管理需求,通过了某专业权威机构人工智能数据集质量最高等级(4级)评估,成为航空行业首家获此殊荣的中央企业。
不过他同时指出,当前制度层面仍缺乏清晰的界定,涵盖共享数据的产权问题、收益分配规则及合规免责机制等机制的缺失,是制约数据共享的关键因素;同时,在商业模式层面,企业间对数据贡献价值难以量化,缺乏让各方“愿共享、敢共享”的激励与保障体系。
以金融行业为例,银行、保险、证券等机构虽拥有海量客户交易与信用数据,但出于对商业机密泄露和用户隐私违规的担忧,彼此间很难直接共享原始数据。即便联合风控模型能显著提升反欺诈能力,各方仍可能因缺乏可验证的“互不窥探”技术承诺而止步不前。
医疗科研领域同样如此,药企希望整合多家医院的患者诊疗数据以训练新药研发模型,但医院既要遵守《个人信息保护法》对医疗敏感数据的严格约束,又无法确认合作方是否会在模型使用中泄露患者身份,导致大量宝贵的多中心临床数据长期处于“不敢共享、不能共享”的状态。
来源 | 《商学院》杂志5月刊