今年政府工作报告提出,持续推进“人工智能+”行动,将数字技术与制造优势、市场优势更好结合起来,支持大模型广泛应用。
近年来,以DeepSeek为代表的大模型技术不断取得突破,人工智能加速向千行百业渗透,其中,大规模高质量训练数据的投入起到关键作用。全国政协委员、工业和信息化部原副部长王江平在接受《中国农村金融》记者采访时表示,大模型与垂直领域深度融合同样需要高质量数据集支撑,既要供得出“高质量+”的公共数据,更要能发挥关键作用、“颗粒度更细”的行业数据。
高质量数据集建设取得积极进展
数据、算法、算力是人工智能发展三大核心要素。王江平认为,大规模、高质量、多样化的数据集是大模型性能突破、落地应用的关键。
近年来,国家围绕高质量数据集建设开展了一系列工作部署,取得了积极进展。在顶层设计层面,国家数据局等17部门联合印发《“数据要素×”三年行动计划(2024—2026年)》,强化场景需求牵引,带动数据要素高质量供给、合规高效流通。在地方层面,湖北、江苏、浙江等地明确高质量数据集的数量、时间及激励机制。
王江平认为,建设国家数据集能够为垂直行业提供丰富且专业的数据支撑,充分释放人工智能在各垂直行业的应用潜力,形成“数据—模型—数据”的良性循环,推动产业升级和创新发展。
“正如学校教材对塑造学生价值观和知识体系至关重要,建设国家数据集可以对数据进行严格筛选、标注和管理,保证训练数据的质量和正确价值取向,为人工智能健康发展提供正确指引,从源头上降低伦理和安全风险。”王江平表示。
畅通数据流通堵点
数据集建设并非易事,目前仍面临数据供给不足、数据产业和数据生态不够丰富等难点。
“数据集在完整性、准确性、一致性、时效性等方面的标准缺失,语料来源广泛但质量参差不齐。”王江平指出,中文公开数据在质量和数量方面远落后于英文数据。在Hugging Face发布的数据集中,英语以37.7%的比重位居首位,而中文仅占3.2%。同时,我国公共数据开放利用程度有待提高,各地开放标准不统一,专门面向人工智能发展的高质量行业数据集仍较匮乏。
具体到垂直领域应用,其大模型训练所需的数据集,既要覆盖行业通识,也要蕴含专门知识。其中,行业专业数据是推动行业大模型应用的重要底座。
王江平表示,目前缺乏专业场景开源数据集,企业出于数据安全和商业竞争考虑开放意愿不足,数据确权、定价、交易、流通等模式仍不清晰。“一个行业的数据治理是否完备非常关键,只有具备科学、完整的数据体系才可能提供一个高水平、专业化的数据集。”他说。
如何打破信息孤岛,提升垂直领域人工智能模型能力?王江平建议,要引导多主体开展高质量行业数据集建设。具体而言,可以联合国家实验室、国家科研机构、高水平研究型大学、科技领军企业等国家战略科技力量,引导优势行业链主企业、地方龙头国有企业、人工智能园区基地、龙头数据服务商等主体,围绕特定领域和场景,协同建设和储备一批高质量数据集;可以鼓励龙头企业和行业协会牵头,建设行业和企业级可信数据空间,构建多方互信的数据流通利用环境,协同上下游主体开放共享数据资源。
王江平还建议,加快制定通用/行业数据集质量标准,在壮大规模的同时更加关注数据专业性,开展数据集质量评估和提升行动。对于涉及国家安全、意识形态、实体制造、医疗健康等关键领域,依轻重缓急原则制定并实行强制性国家标准,明确数据采集、存储、标注、使用等环节的规范和要求,确保数据的安全性、准确性和一致性。
(来源:中国银行保险报)