
Core Technology
核心技术

VLM 视觉语言模型
强大的视频语义理解与跨摄像头追踪能力。能看懂画面、理解场景、回答关于视觉内容的问题,为智能体提供「看」的能力。
VLA 视觉语言动作模型
将人类专家的生物感知转化为机器人的动作 Token。不仅「看懂」,还能「动手」,实现从感知到执行的闭环。
T-OmniVLA 统一架构
苏打智能自研的统一位身智能架构,整合宇树科技等机器人本体,实现自主导航与多模态互动,建立技术护城河。


强大的视频语义理解与跨摄像头追踪能力。能看懂画面、理解场景、回答关于视觉内容的问题,为智能体提供「看」的能力。
将人类专家的生物感知转化为机器人的动作 Token。不仅「看懂」,还能「动手」,实现从感知到执行的闭环。
苏打智能自研的统一位身智能架构,整合宇树科技等机器人本体,实现自主导航与多模态互动,建立技术护城河。