本站报道(文/莫婷婷)“百镜大战”开始时,也是AI大模型在智能眼镜端加速落地的开始,一场关于智能眼镜的“百模大战”也同步进行。几乎今年刚推出的AI智能眼镜都搭载了AI大模型。随着AI智能眼镜与AI大模型的深度融合,一场技术演进与场景革命正在悄然进行。
一款眼镜搭载多个大模型:AI智能眼镜下的“百模大战”
AI大模型指的是具有大量参数(通常超过数十亿)的深度学习模型。这些模型有着复杂计算结构、经过大规模数据集训练后,能够在自然语言处理、计算机视觉等多个领域表现出色。例如,GPT-4在文本生成方面有着更强的表现;而DALL·E 2能在图像生成领域带来技术突破。这类模型不仅能够理解复杂的语义信息,还能根据上下文生成相应的响应或内容,极大地提升了人机交互的质量。
一般来说,AI大模型具备泛化性、通用性、实用性三大特点。AI大模型包括云侧大模型和端侧大模型,云侧AI大模型在云端部署,具备参数多,且算力和数据存储需求大的特点,例如通用大模型和行业大模型;端侧大模型主要应用在手机、汽车等产品上,具备参数小、本地运行等特点。
与传统眼镜相比,AI智能眼镜最大的特点就是增加了AI功能,且目前来看,智能音频眼镜、AI智能眼镜、AR智能眼镜这三大类AI智能眼镜都搭载了AI大模型。
例如Ray-Ban Meta新型号搭载的是Meta Llama3大模型,李未可Meta Lens Chat AI眼镜搭载了自研大模型WAKE-AI大模型等。同时,我们也看到了一款智能眼镜会搭载多个AI大模型,例如Rokid Glasses搭载了通义千问、DeepSeek、豆包、智谱清言、纳米搜索等多个大模型,蜂巢科技界环AI音频眼镜搭载了包括通义、百川等在内的14 个大模型。
图:AI智能眼镜的功能介绍(本站制图)
搭载多个大模型将带来多个优势,一是增强的功能多样性,这些大模型专注于不同的任务,有的擅长自然语言处理,有的则在图像识别领域有着出色的表现。通过集成多种模型,智能眼镜可以提供更加丰富和全面的服务。
二是提高性能与准确度,每个大模型都有其独特的算法和训练数据集,因此在特定任务上可能具有独特的优势。当用户的需求不同时,系统会根据实际应用场景选择最适合的模型进行处理。
三是快速响应与高效处理。Rokid Glasses 将产品搭载的大模型分为基础模型、视觉模型、搜索模型等类型。基础大模型负责对话,问答和调用产品功能等整体 AI 能力;视觉大模型负责识别物体等需要处理视觉信息的任务;信息大模型负责搜索当下最新信息对所回答的问题进行信息整合与归纳。
那么,这么多的大模型,在接收到任务时会不会“打架”?Rokid在Rokid Glasses端侧集成自研的意图分类模型,做到2 毫秒内完成对意图的分类,再将请求分发给不同的模型。由此带来快速的AI 响应速度快、更高的处理效率。
Rokid认为“目前还没有一款能力覆盖全面的大模型,更多的是某大模型在特定领域内表现出色。因此多模型的协同使用或许是更优解。”
AI智能眼镜的“大脑革命”:端侧推理与交互时延重塑
智能眼镜的进化史,本质是端侧算力与交互时延的博弈,随着Llama、盘古、通义等大模型的升级,更强大的端侧推理能力和极低的交互时延,将提供更流畅且即时的用户体验。具体来看主流AI智能眼镜的AI大模型的特点。
Ray-Ban Meta搭载了Llama系列多模态模型,实现了实时视觉-语言协同(VLM),支持实时同声传译,支持动态物体追踪和环境语义分割,能够识别超过1000类物体,环境感知准确率提升至92%。
华为的智能眼镜产品已经搭载了盘古多模态大模型。从2021年发布盘古大模型1.0版本至今,盘古大模型就一直在更新升级,盘古大模型5.0能够更精准地理解物理世界,融合了语言和视觉跨模态信息,支持图像理解等功能。在接入华为智能眼镜后,唤醒小艺助手,能够进行对话和其他交互功能。据了解,盘古大模型5.0的推理速度提升了300%。如若搭载在华为智能眼镜上,将带来更快速的交互体验。
李未可科技的Meta Lens Chat AI智能眼镜基于WAKE-AI大模型平台,用户在AI智能眼镜上调用大模型能在500毫秒内快速精准地识别用户指令,一般对话时延在1.8秒左右、2秒以内。
2025年1月,雷鸟V3宣布接入阿里云通义大模型,还定制了全新意图识别模型,AI 平均响应速度为 1.3s,识别准确率高达98%。
也是在2025年1月,百度智能云发布了AI眼镜大模型互动方案,针对智能眼镜场景,提供语音交互、视觉理解、复杂任务等端到端解决方案。在交互响应速度方面,多模态实时互动方案能做到端到端音频延时低至1.4s,语音打断延时小于0.8s,端到端视觉延时低至2.5s。
通过上述各产品技术参数对比来看,AI智能眼镜大模型的端侧推理速度、交互时延将是AI大模型迭代的两大关键。
端侧推理速度持续提升,处理延迟会随着技术迭代持续下降。在时延方面,1.8s是一个分水岭,此前,大多数应用在智能眼镜的交互时延都在5s左右,通过上述最新产品来看,视觉延时在2.5s左右,语音交互时延的要求则更低,普遍要求在1.3s左右。
XREAL创始人兼CEO徐驰在接受媒体采访时曾表示AI眼镜的核心壁垒在大模型,他认为在AI智能眼镜中,大模型占70%的决定性作用,硬件研发投入占30%,两者需要深度融合。就在2025年2月,XREAL宣布将与海信视像科技展开合作,合作内容包括光学显示、AI大模型应用等领域。
小结:
随着AI技术的不断进步,智能眼镜正在经历一场前所未有的“大脑革命”。从Ray-Ban Meta到华为智能眼镜,再到李未可科技的Meta Lens Chat,这些产品展示了各自在AI大模型应用上的独特优势。通过搭载Llama、盘古、通义等先进大模型,智能眼镜现在能够实现更快的端侧推理速度和更低的交互时延,为用户提供更加流畅且即时的体验。此外,越来越多的产品开始采用多大模型协同工作的模式。这一切都预示着,在不久的将来,智能眼镜将不仅仅是一个简单的穿戴设备,而是一个集成了最先进AI技术的多功能平台。
另一个值得关注的是,“百镜大战”不仅仅是硬件的竞争,更是背后AI大模型技术和应用场景的较量。各大厂商纷纷探索如何更好地应用大模型,以期在保持设备轻量化的同时提供强大的计算能力。未来会如何发展,我们也将持续关注。
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有疑问请发送邮件至:bangqikeconnect@gmail.com