2026年4月15日,国家数据局发布《关于推进行业高质量数据集建设行动的实施方案(征求意见稿)》(以下简称《方案》),向社会公开征求意见,意见反馈截止至4月22日。方案核心是以高质量数据支撑AI+行动,通过部署六大专项行动,打通数据从供给到价值释放的全链条,为“人工智能+”赋能行业筑牢数据基础,目标2028年底形成AI与数据要素协同生态。
《方案》明确了 “需求牵引,急用先行,应用验证,安全保障” 的核心原则,提出到 2028 年底的阶段性发展目标,要实现四个 “一批” 的建设成果:
建成一批覆盖重点领域、经过应用验证的行业高质量数据集
打造一批数据驱动人工智能创新发展的典型应用场景
培育一批具备领先优势的创新型数据企业和专业人才
形成一批行业高质量数据集建设标准和工具
到2028年底建成一批重点领域数据集,数据要素与人工智能深度融合,持续催生智能经济新增长点。
部署六大专项行动
(一)强基扩容行动
多领域覆盖:《方案》提出聚焦科学研究、工业制造、农业农村、智慧能源、交通运输、金融服务、医疗卫生、教育教学、电子商务、人力资源、文化旅游、应急管理、气象服务、绿色低碳、公共安全、城市治理、住房建设、自然资源等重点领域,以及低空经济、具身智能、智能驾驶、智慧海洋、生物制造等创新领域,加快推进行业高质量数据集建设。
多模态协同建设:面向新型智能应用形态,加强知识库、知识图谱、本体等数据集建设,加快复杂任务规划、长程推理、人机交互、决策执行等数据集建设;面向具身智能发展需求,加快重点场景物理交互、环境感知、运动控制等真机交互数据集建设,积极应用仿真模拟与合成技术扩大数据供给。积极布局世界模型等前沿方向数据集建设。联动基础设施:强化与数据基础设施建设有机联动上,鼓励探索建设支撑大规模、多模态数据集的数据基础设施存力中心。
(二)标注攻坚行动
标注模式升级:发展“模型预标注+人工校准”、“人工标注+模型检验”、“模型预标注+模型检验”等智能化标注服务,全面提升数据标注水平。
产业有序布局:面向创新能力强、发展基础好、产业特色优的地区,梯次布局一批数据标注创新试验区。
人才供给扩容:支持院校增设相关课程,通过产教融合培育专业人才,开展职业技能等级认定,同时鼓励高校毕业生等群体通过灵活就业参与标注工作,扩展就业渠道,壮大数据标注人才队伍。
(三)提质增效行动
全流程技术攻关:研发数据清洗、增强、对齐、质检等全流程自动化工具,针对行业场景构建高知识密度数据集,同时用数据合成技术解决稀缺场景数据采集难、成本高的问题。
标准体系建设:加快研制数据集格式、标注、质量测评等国家标准,推动各行业、地方标准与国家标准联动,促进数据集规范化建设。
质量测评互认:建立 “数据质量验证 + 模型应用反馈” 的测评方法,推动统一测评方案,实现 “一次测评、全国互认”,降低数据质量认证的重复成本。
(四)应用赋能行动
打造 “数据飞轮”应用闭环:以模型应用牵引数据供给,用应用产生的动态交互数据驱动模型迭代,形成 “场景 — 数据 — 模型” 的良性循环,让数据和模型互相促进、持续升级。
打造标杆示范:打造集“数据集生产加工和流通利用、支撑模型训练应用”于一体的数据赋能工场,打造一批行业标杆,打造一批“数据×智能体”示范工程,树立高质量数据集成功驱动智能体解决实际问题的样板。
繁荣数据集协同发展生态:组织遴选行业高质量数据集建设和应用典型案例。鼓励行业高质量数据集建设主体积极参与全球数据生态建设。
(五)管理服务行动
全生命周期管理:建设国家数据集管理平台,实现数据采集、处理、标注、迭代等全流程的可管、可控、可追溯,推动数据集信息互联互通。
探索数据权益制度:探索面向人工智能发展的数据权益相关制度,按照数据持有权、使用权、经营权三权分置原则,明确数据集产权配置方案,兼顾产权保护与创新发展需求。
伦理先行与公平普惠:研究探索数据集伦理规范,严禁非法收集或使用敏感数据,防范数据偏见与歧视,确保数据集建设成果公平普惠。
(六)价值释放行动
发挥应用价值:探索以词元(Token)为基础的数据集价值体系,鼓励"以数换数"、"数模互换"、"数据托管"、"数算一体"等应用模式。将基础性、公益性数据集作为公共产品向社会公开。发展"订阅模式"、"商场模式"、"定制模式"等多元服务形态。
创新商业模式:推动数据集商业模式从基础数据包销售,向 API 调用、模型化解决方案、全栈服务梯次升级,同时探索词元交易等新型交易模式。
资产化创新路径:鼓励有条件的单位率先探索开展数据集资产盘点、登记、评估等试点工作,为数据资产化积累可复制、可推广的经验。鼓励探索数据集质押融资、作价入股、资产证券化、数据信托、数据保险等多元化资产化创新模式,拓宽数据价值转化渠道。
培育付费市场共识:建立健全市场化利益分配机制,推动数据采买纳入预算编制,引导政府、国企率先开展数据采购,推动形成 “为高质量数据付费” 的市场共识,构建健康可持续的数据市场生态。
保障措施
统筹协调:国家数据局统筹协调,会同各部门协同推进,各地落实属地责任,结合实际制定配套措施,统筹安排数据产品和服务采购经费支持数据集建设。
多元投入:引导金融机构、耐心资本、产业基金等投资,鼓励地方设立专项资金,探索多元化投入机制。
尽职免责:完善试错容错管理制度,鼓励在依法依规、风险可控前提下开展创新探索。
安全保障:落实数据安全法律法规,建立全流程安全治理机制,防范数据投毒、篡改、泄露等风险,守牢数据安全底线。
附件:
《关于推进行业高质量数据集建设行动的实施方案(征求意见稿)》.doc
官方公众号