图:LF AI & Data董事会主席 孟伟
孟伟先生在演讲中提到,LF AI & Data基金会自2018年3月由Linux基金会创立以来,成员数量从最初的10余个增长至目前的77个,项目数量也达到了72个,这充分展示了开源社区的蓬勃发展,也很高兴能与大家共同见证开源社区的壮大与成长。
在全球范围内,尤其是中国,AI技术和大模型应用正以惊人的速度发展,开源开放已成为开发者社区的主流趋势。孟伟先生在接受电子发烧友的独家专访时,分享了LF AI & Data基金会在中国取得的阶段性成果,以及开源大模型商业落地面临的挑战。
LF AI & Data 董事会主席孟伟对记者表示,2024年是开源社区大发展的一年,LF AI & Data社区的开发者数量已超过10万,贡献者组织超过200个,开源项目多达70个,代码贡献每月都在持续增长。基金会的高级会员包括AWS、微软、爱立信、华为、OPPO、中兴通讯、Intel、英伟达等13家大公司。
他强调,从2023年至今,我们进入了算力时代,英伟达市值在2023年超越3万亿美元,超越了苹果和谷歌。随着生成式AI的兴起,AI的落地成为了行业的挑战和机遇。中国信通院2024年发布的《全球数字经济白皮书》显示,全球基础大模型数量达到1328个,其中美国占44%,中国占36%。
孟伟先生分析说:“我们认为,基座大模型已经足够,但在行业应用中,大模型面临四大挑战:一是行业知识不足,二是算力不足,三是合规治理水平不足,四是区域间发展不均衡。”
而当我们试图寻找解决这些挑战的路径时,开源人工智能的发展模式为我们提供了新的视角。在这方面,LF AI & Data作为全球最大的开源人工智能基金会,其运作模式值得我们思考。现在全球人工智能开源有三种模式:一、公司来推动的,比如Google、Meta自己去开源一些项目,它们有足够的影响力和社区,把开源项目和生态做起来;二、大模型托管平台的大模型项目,各行业大模型或者通用大模型放到平台进行托管,并且有相关的排名;三、基金会模式,就是LF AI & Data采用的模式,集中力量办大事。把业界所有的力量都放到基金会里面,有硬件公司如英伟达、英特尔;也有基础设施的公司如华为、中兴通讯;也有软件及服务型提供商,如微软公司、AWS等。
今年8月,IDC中国分析师曾对记者表示,大模型今年一大趋势是开源和闭源共存,共同促进大模型应用生态走向繁荣。更多企业选择开源大模型来构建自身的应用。现有开源模型的参数大多数在十亿到千亿之间,基于MoE架构的稀梳大模型参数可以达到万亿,微调和多种计算技术并行变得十分重要。
LF AI & Data 董事会主席孟伟也持同样的观点,他认为,如果没有开源大模型,行业AI落地的速度将慢至少4倍,主要有三大原因。一、闭源大模型成本非常高,对于实现私有化部署,去年商业大模型的价格是千万级别的,今年虽降至百万级,但对中小型公司而言仍成本极高,而且后期数据更新,涉及到是否要买后续的服务,每年可能都需要增加维护的成本;二、开源大模型对用户非常友好,例如一个初创型的公司只要懂一些大模型的知识、行业的数据,就可以把行业大模型开发出来。三、开源大模型虽然解决软件的问题,但是还有硬件AI芯片价格昂贵的问题,预计1-2年内AI芯片价格将下降,从而加速AI技术在行业的落地。
电子发烧友对开发工程师的调研也显示,目前备受欢迎的大模型,诸如ChatGPT和Bard,都建立在专有的闭源基础上,这无疑限制了它们的使用,并导致了技术信息的透明度不足。然而,开源AI大模型(LLMs)正在崭露头角,它们不仅增强了数据的安全性和隐私保护,还为用户节省了成本,实现了代码的透明性和模型化定制。更重要的是,开源LLMs积极支持社区的发展,推动整个领域的创新和发展。
孟伟介绍道,2024年4月,LF AI & Data基金会发起一个重要项目企业级开源平台OPEA,9月份OPEA社区已有41家公司参与,产业生态持续壮大,目前还有10多家中国公司申请加入OPEA项目。OPEA的目标是快速给企业部署AI,实现一键部署。企业只需装配到用户的容器服务器,设定基座大模型、向量库等参数,便可一键部署。因此,Linux基金会执行董事Jim Zemlin将OPEA称作AI界的Kubenates,给予很高的评价。
“一个开源项目除了开发者以外,还要有企业和行业的用户,要真正了解用户的需求和行业的痛点,才能形成行业大模型应用的商业闭环。” LF AI & Data 董事会主席孟伟对记者说。
孟伟强调,LF AI & Data的使命是建立和支持开源开放的人工智能和数据的开源社区,为成员提供协作和创新机会,推动人工智能和数据领域的行业落地。自2023年,他当选为LF AI & Data董事会主席,主要负责基金会的日常运作管理,包括基金会的战略规划和项目预算。
今年,OPEA项目在中国落地,我们的目标是把最终用户请过来,例如金融行业、能源行业、教育行业、法律行业等等用户。“从基金会的角度来说,我们明年将重点聚焦人工智能行业应用,不管是软件、硬件,我们都要明确落地的抓手,形成标杆案例;第二个重点,LF AI & Data基金会已经形成对全球芯片高新技术企业的吸引力,国际芯片大厂如英伟达、AMD、英特尔都已经加入基金会,中国本土的芯片企业也应当积极参与到国际合作中来;第三,我们和RISC-V基金会、PyTorch基金会的合作,也是明年重点推动的工作。”孟伟分享说。
谈到开源大模型落地的挑战,孟伟认为一方面来自有效数据的挑战,一方面行业大模型在可用性和许可协议还不健全。比如某些行业数据孤岛现象严重,对于行业大模型的发展造成限制;通用大模型在特定行业的可用性程度并不高,需要进一步的利用行业语料进行精调;此外,开源大模型项目里面包含算力投入、数据资产,涉及到隐私问题、数据流通问题和安全问题,都还需要不断解决。
在采访的最后,LF AI & Data董事会主席孟伟总结说:“不管世界政治格局怎么变,开源还是讲究包容和开放的。现在AI硬件受到地区的限制,但是开源软件受到的影响还不多。我们不仅需要在中国把开源项目做好,还希望更多的公司和项目能够参与到国际的交流和合作中去。”我们也相信,LF AI & Data不仅持续致力于在中国深化开源项目的发展,同时也期待能引领更多企业和项目跨越国界,共同推动全球开源人工智能生态的繁荣与进步。
本文由电子发烧友原创,转载请注明以上来源。微信号zy1052625525。需入群交流,请添加微信elecfans999,投稿爆料采访需求,请发邮箱zhangying@huaqiu.com。
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有疑问请发送邮件至:bangqikeconnect@gmail.com