人工智能高质量数据集建设指南(2025年)编写合作单位征集启动
来源:中国信通院 发布日期:2025-04-11
近年来大模型技术创新和应用不断取得突破,其中大规模高质量数据集的投入,起到了关键作用,也进一步将“以数据为中心的人工智能”推向新阶段。当前,在国家部委和地方政府的引导和支持下,业界高质量数据集建设热情高涨,取得了一系列积极成效。
中国信息通信研究院高度关注和重视人工智能高质量数据集建设研究,依托行业标准《面向人工智能的数据集质量通用评估方法 总体要求》建立了“可信AI”人工智能数据集质量评估体系(ADAQ,Artificial intelligence Datasets—Quality evaluation),已服务物流、建筑、医疗、航空等多个行业领域龙头央企和国家实验室数据集质量评估,并赋能保定、无锡、沈阳等地数据集质量评估服务。通过数据集质量评估发现,目前政府和业界在高质量数据集建设方面还存在不少挑战。一是不清楚需要什么样的高质量数据集。大模型数据需求多样,这种多样性要求企业建设的高质量数据集能够全面、准确地理解和把握业务场景。二是不清楚如何构建高质量数据集。构建高质量数据集主要包含采集、清洗、标注、质量评估等核心环节。但业界普遍缺乏面向人工智能的数据治理方法、经验、工具、平台等,制约数据集的高效建设。三是不清楚数据集质量如何评价。业界对于构建和采买的数据集没有统一的衡量标准,造成无法有效获取高质量数据集资源,严重影响大模型的训练效果和性能。
为加快解决上述人工智能高质量数据集建设的难点和痛点,提供高质量数据集建设的指引,中国信息通信研究院拟启动编制人工智能高质量数据集建设指南(2025年),深入研究高质量数据集建设现状、痛点和难点、建设流程,以及人工智能数据工程的核心要素和关键技术。现面向人工智能企业、数据企业、行业领域企业,以及有关科研院所等征集编写合作单位。中国信息通信研究院拟于近期组织指南编制启动会,5月形成指南初稿,6月完成指南编制。
请有意向参与指南编写的单位及专家于2025年4月17日前扫描以下二维码报名。
联系人
张老师 15210565809(微信同号)
李老师 18611353631(微信同号)