DeepSeek的横空出圈,仿佛重现了两年前ChatGPT风靡全球的盛况。其开源策略和低成本的模式,正推动人工智能迎来一波新的发展浪潮。卓越模型能力的背后,DeepSeek在技术上有哪些创新?它又将如何改变我们的生活和产业?
2月15日,讯飞开放平台携手Datawhale、城西大走廊高联会在位于杭州的浙江大学校友企业总部经济园举办了2025年开发者TALK首站活动。来自讯飞开放平台以及行业、研究机构的技术专家们,揭秘DeepSeek核心技术、分享DeepSeek精调方法和应用构建,为线上线下4000 开发者带来了一场干货满满的分享。
全方位模型服务,助力开发者应用创新
自2022年大模型发布以来,大模型应用呈现爆发式增长,逐步迈入“深水区”,与场景的结合也愈发紧密,行业内逐步形成共识:通用模型 专有云模型才能更好地解决场景问题。
目前,大模型应用主要是模型能力 数据,能力有通用能力与定制能力,数据有通用数据与个性化数据。例如,AI 代码是典型的“通用能力 通用数据能力”简单组合;AI 会议是“通用能力 个性化数据”简单组合。未来大模型更好地进入企业一定是定制能力 个性化数据的多能力复杂组合。而未来大模型开发的机会在:模型能力定制化、产品能力复杂化、数据能力个性化。讯飞星辰MaaS平台总监张林芳在《讯飞星辰MaaS平台模型定制到智能体构建》主题分享中表示。
应对模型能力定制化需求,讯飞发布的星辰MaaS平台,提供包含数据构建、模型选型、精调训练、效果评估、大模型云 端托管以及数据回流的成熟精调流水线,助力开发者高效完成效果定制,构建数据飞轮,持续推进大模型迭代。其中,在模型选型上,星辰MaaS平台秉承开放理念,支持星火 主流开源的36个模型精调,开放人设、医疗等场景模型精调。近期,已经业界首发了DeepSeek全系模型精调,推理API限时免费,支持独享部署,即销即用。
应对产品能力组合复杂化需要,讯飞发布了星辰智能体应用开发平台。星辰智能体应用开发平台以MoM混合应用架构为核心,提供从应用开发到测试、优化一整套大模型应用开发工具链。支持讯飞1 N模型,开源优质DeepSeek模型,和所有微调模型组合构建应用。面对硬件产品接入大模型遇到的业务需求、开发技术栈、软硬环境等问题,星辰智能体应用开放平台提供了专门的SDK开发框架,让开发者专注于硬件产品创新,用最短路径实现产品成功。
应对数据能力个性化需求,讯飞则首发了混域搜索技术,支持个人私域知识,企业知识库以及IT系统私域知识,和互联网信息进行统一的搜集分析,形成大模型外挂知识。通过这套技术,知识召回准确率提升30%,长文本知识融合准确率提升40%,句子级知识溯源准确率达90%。
从R1-Zero到R1,揭秘DeepSeek核心技术
DeepSeek展现出的强大推理能力,让人震惊的同时,也让许多开发者对其背后的技术细节充满兴趣。它在技术上有哪些突破?哪些是站在前人的肩膀上优化的?哪些是自己的原创创新?在现场,Datawhale Hugging LLM开源项目负责人长琴深度剖析了DeepSeek的核心技术点,期望能为开发者研究大模型带来启发。
首先是基于纯规则强化学习的DeepSeek-R1-Zero,不仅在训练过程中展现出的思考和自我反思能力,使语言模型更接近人类的思维方式,而且效果还不错。当然,瑕疵是语言混合和可读性不友好。紧跟着就是两个问题:少量高质量数据SFT后能否让后续的RL效果进一步变好?模型能否同时兼容推理和通用模式?R1通过先用少量高质量数据SFT模型作为R1-Zero的起点(冷启动),然后使用R1-Zero的RL方法(增加了语言一致性,让结果更可读)训练得到的模型来生成高质量数据,然后再做SFT和对齐,使得模型不仅在推理任务上表现出色,在非推理的常规任务上也取得了优异的效果。
DeepSeek-R1的相关技术研究也给开发者带来诸多启示。比如Oat-Zero的相关研究发现强化学习(RL)能将Base的表面自我反思转化为有效自我反思,但是长度并不一定增加,而且Base模型也会Aha Moment;再比如DeepScaleR的相关研究中发现强化学习(RL) 缩放也可以表现在小模型 (1.5B) 中,高质量的SFT RL结合能达到更好效果;再比如LIMO、s1等相关研究中发现 少量SFT(1000条)同样可以激活推理能力;以及模型越大越新越好、无论Instruct还是Base模型都可以验证R1-Zero等。长琴在分享中提到。
AI驱动科研范式变革,开启新的大航海时代
从药物研发到农业育种,从气象预测到海洋智能预报,AI正在改变人类进行科学研究的方式。2024年的诺贝尔物理学奖、化学奖都颁给AI领域,再次将AI推到了科学舞台的中央,标志着AI在科学研究中的重要地位得到了认可。
AI For Science的典型案例就是蛋白质折叠模型AlphaFold。传统方法每年只能解析少量蛋白质结构,Alphafold已经预测了超过2亿种蛋白质结构,推动了生命科学的巨大进步,已拥有来自190个国家的200多万用户。以此模型为基础,对于科研设备、科学人员、科学数据和科学流程都有很大的帮助。之江实验室助理研究员张骥在分享中举例说。
AI正在开启人类科学发展新的大航海时代。张骥认为,在AI驱动科学范式变革方面,模型、数据、算力是关键因素。
在科研领域,中国科学院文献情报中心与科大讯飞股份有限公司共同研发的基于科技文献大模型的智能知识服务平台——星火科研助手,帮助研究人员对文献进行深度解读、提炼,提升科研效率。累计服务科研用户9.3万人,功能调用次数240万次 ,用户覆盖全国1300多所高校。用户可在讯飞星火app/网页端搜索“星火科研助手”体验。
融合行业场景,生成式AI驱动机器人行业变革
陆地、隧道、天上、水里,各类形态的智能机器人正在不同行业应用,尤其是在工业领域,机器人不仅能保障人员安全,还可大大提高工作的效率和准确性。生成式AI技术的出现也为机器人行业带来了根本性变化。
从ANI(狭义人工智能)和AGI(通用人工智能)的区别出发,申昊科技算法工程师郑程睿介绍了公司在故障检测、数字孪生、医院查房机器人和人形机器人四款应用上,进行的大模型技术探索。以检测输电塔是否有鸟巢为例,因为物理场景数据很稀少,运用无人机逐个进行拍照成本过高,而利用少量图片训练Stable Diffusion和LoRA模型生成多样化的图像,则可以做到降本增效。
对于具身智能未来的发展,郑程睿认为,当前具身智能的发展仍处于初级阶段,未来具身智能应该是两种大模型:视觉语言动作模型和视觉语言导航模型,也可以与深度思考推理模型结合。
除了精彩的演讲之外,本次活动还设置了AI面对面交流环节。与会开发者以分组的形式围绕“DeepSeek的应用创新、大模型未来发展趋势”等问题,与分享嘉宾进行了讨论。
DeepSeek的爆火不仅从技术到产业带来了一场前所未有的技术变革,也为开发者带来了前所未有的机遇。现在,进入讯飞星辰MaaS平台官网,通过DeepSeek精调服务,开发者即可在极短时间内(最快15分钟)以超低成本(最低仅需数元)打造专属定制模型,创建新的AI应用。
致力于通过前沿技术分享、优秀项目分享推介、面对面讨论,为来自企业、高校、科研院所的开发者提供沉浸式学习与交流平台。自2023年11月22日开启第一站以来,开发者TALK在深圳、武汉、南京、成都等地留下足迹,链接了上千名开发者,帮助他们将想法变成了更多的创意和落地案例,推动人工智能产业繁荣。
AI技术的发展日新月异,2025年,开发者TALK将继续举办多形式活动,聆听开发者需求,帮助开发者便捷地将大模型技术应用在实际业务中。
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有疑问请发送邮件至:bangqikeconnect@gmail.com