今年3月ChatGPT-4上线以来,国内科技龙头企业密集推出人工智能大模型,百度“文心一言”、阿里云“通义千问”、华为“盘古”、360“智脑”、昆仑万维“天工”、京东“灵犀”、科大讯飞“星火”、腾讯“混元”、商汤“日日新”等大模型先后登场,呈现百花齐放、迅猛发展的态势。截至2023年10月初,国内公开的AI大模型已经超过200个。
当前,大模型正在成为推动新一轮科技创新、产业升级、生产力跃迁的重要力量。随着前沿技术推动产业全链条升级,未来从田间到产线,从实验室到便利店,大模型可能无处不在。
“与早期的人工智能模型相比,今年我国大模型在参数量上实现了质的飞跃,复杂任务建模能力整体提升,学习能力、泛化性更强,具备了更高层次的认知互动能力。”北邮国家大学科技园元宇宙产业协同创新中心执行主任陈晓华表示。
然而,在大模型迅猛发展的背后,也存在一系列问题亟待解决。
首先是对大模型套壳的质疑。近期,从谷歌新发布的AI模型Gemini演示视频的造假,到字节跳动被曝出部分工程师使用OpenAI技术开发自己的大语言模型,违反了OpenAI服务条款,因此被暂停了账户……“百模大战”的激烈竞争以及引发的乱象,也让业界对大模型评测标准以及统一规范提出了新的课题。
由于大模型的复杂性和应用场景的多样性,如何评价其性能和效果成为下一阶段的一个极具挑战性的问题。因此,建立一套科学、合理、完善的评价体系对于大模型的应用至关重要,它能够推动技术进步、促进产业发展,同时确保技术应用的合规性和社会效益。
其次,随着互联网和科技企业不断调整大模型参数,传统企业对于数智化转型需求的增加,算力需求增长。但是,由于高端芯片获取难度大,大模型的研发成本进一步增加。北京大学智能学院副院长林宙辰教授提出通过合作共享资源和数据,以及创新训练方法和奖励机制,来更高效地开发和利用大模型的必要性。他提出通过股份和特别的奖励机制来鼓励公司共享数据和算力,其中股份可以基于资金贡献或者模型准确率的贡献来分配,个人也可以提供数据,或者参与到训练过程中,通过数据质量和微调效果拥有股份。这或许能帮助中小企业移开面前的“成本”“技术”两座大山。
在算法方面,国产大模型与国际先进水平相比没有根本性差异,基本都是围绕深度神经网络、注意力机制、人工调优等基础算法进行模型结构或局部算法优化,而在算力、数据等方面则与国际先进水平存在一定差距。艾瑞咨询产业数字化研究院负责人徐樊磊介绍,为提升整体算力效率和满足差异化需求,应建立支撑大模型万亿量级参数计算的“智算中心”。“智算中心”可利用现有高质量数据中心,通过提升组网能力、协同能力、软硬件适配能力等实现部署。当前,“万卡”级别的智算中心正在主要节点城市发展起来。
面向未来,企业不能盲目跟风,需要满足自身已有的基础产品和用户群体在AI领域的诉求。从政产学研用通盘视角来看,政策端需要做好统筹调度,支持孵化大模型产业生态,提供相应的创新要素供给,促进科技成果转化和产业大模型落地成熟、成规模化;技术端需要进一步推动软硬件技术一体化,为大模型的产业端应用提供更牢固的技术基础;产业端则需要促进产业对大模型和数智化应用升级的知识认知、能力建设和人才培养,并结合当前产业大模型训练需求,协助和支持科研界将大模型成果落实落地。
(来源:人民邮电报)