中国信息通信研究院“方升”智测研讨会在京召开
来源:CAICT人工智能 发布日期:2026-02-04
2026年2月3日,中国信息通信研究院“方升”智测研讨会在京成功召开。会议以人工智能评测体系的技术创新与产业实践为核心议题,旨在推动构建科学、系统、可信的AI评测生态。石景山园管委会区科委主任高延娜、中国信息通信研究院副院长魏亮出席会议并致辞。同时,本次研讨会汇聚了来自北京市经信局、石景山区政府相关部门,以及哈尔滨工业大学、北京航空航天大学、清华大学、中科院自动化所等高校与科研机构,并吸引了一批领军企业及行业协会代表,共计200余位专家与业内人士共襄盛会。
石景山园管委会区科委主任高延娜在致辞中指出,石景山区正加速向智能时代转型,已构建起“主导+特色+未来”梯次发展的现代化产业体系。2025年地区生产总值达1379.4亿元,同比增长6.5%,软件和信息技术服务业实现增加值625亿元,增长11.3%,为人工智能产业发展提供了坚实基础。石景山区通过全面谋划布局、注重数智创新、拓展应用场景三大举措,打造AI创新高地,联合信通院共建人工智能大模型及软硬件评测工信部重点实验室,构建全链条评测服务体系。
中国信息通信研究院副院长魏亮在致辞中强调,党中央、国务院高度重视人工智能产业高质量发展,构建统一、科学、权威的基准测试体系对牵引技术创新、加速应用落地、增强国际话语权具有重要意义。他介绍了中国信通院在工信部指导下研发的“方升”大模型基准测试体系,该体系已完成从1.0到3.0的升级,形成覆盖基础属性、通用能力、行业应用与未来智能的全维度评测框架,并已向部委报送多轮测试报告,支撑决策参考。未来,研究院将持续完善评测体系、强化技术平台支撑,并与产学研各界深化协同,共建开放人工智能评测生态。
研讨环节,多位专家分享了前沿研究成果。哈尔滨工业大学人工智能研究院院长刘劼带来《智能体+的思考与实践》主题报告,剖析智能体技术演进路径与应用挑战,提出CEDAR通才智能体体系结构,为智能体规范化发展提供新思路;北京航空航天大学软件学院院长胡春明聚焦《智能化软件认识与实践探索》,探讨人工智能对软件形态、开发范式的深刻影响,以及智能化软件的可信保障路径;中科院自动化所副总工程师、紫东太初大模型中心常务副主任王金桥分享多模态人工智能发展趋势,介绍紫东太初大模型在国产化适配、多模态交互等方面的实践成果;清华大学计算机系副研究员、人工智能研究院院长助理苏航阐述数据驱动的世界模型路径演进,展现物理智能与具身智能的前沿探索;高等教育出版社信息技术部主任杨京峰介绍教育大模型基准测试能力体系建设情况,提出业务驱动的龙凤教育大模型架构;中国信通院人工智能研究所平台与工程化部副主任李荪发布政务大模型基准测试能力体系,联合多方构建政务评测数据集,推动政务大模型安全合规落地。
会上,中国信息通信研究院人工智能研究所所长魏凯发布《2025“方升”基准测试观察》。“方升”3.0体系涵盖基础属性、通用能力、任务能力、行业能力、未来高级智能能力五大层次,已形成780多万条动态更新的测试数据,为模型选型与应用提供科学依据。
2026年2月评测结果显示,语言大模型基础能力国内模型进展显著,推理能力国内模型仍有差距,代码能力表现优异。谷歌的Gemini 3 Pro位列大语言推理能力榜单第一名,OpenAI的GPT-5.2和阿里巴巴的Qwen3-max-thinking位居第二和第三,Qwen3-max-thinking是国内最好的推理模型,月之暗面的Kimi K2.5和深度求索的DeepSeek-V3.2-Thinking分别排名国内第二和第三;在代码任务方面,Anthropic的Claude 4.5模型排名代码榜单首位,月之暗面的的Kimi2.5在国内模型中表现最优。
未来,“方升”将继续深化面向AGI、产业应用与工程效能的评测能力建设,联合产学研各界共建开放、协同、可持续的人工智能评测生态,为我国大模型技术创新与行业落地提供权威、科学的评测支撑。
会议还举行了第二批“方升”行业基准测试体系共建仪式。中央财经大学、中国农业大学、中国海洋大学、北京第二外国语学院、北京工业大学、中国信息通信研究院、中国司法大数据研究院、高等教育出版社、中医四诊数智装备研发北京市重点实验室、中车工业研究院、南钢人工智能研究院、中移齐鲁创新院、青岛港国际股份有限公司、枫清科技等14家单位代表上台参与启动,将携手研制贴近真实业务场景的评测基准,推动大模型从“表现优异”迈向“应用卓越”。
