Paper Reading:具身智能(一)
具身智能 5 篇 VLA/WAM 工作精读:OG-VLA、UniLACT、FALCON、Being-H0.7、DriveDreamer-Policy。这些工作正在收敛到一个共识——好的中间表征不仅需要动作监督,更需要未来关键信息监督。
#科研
#具身智能
#VLA
Hola, soy
Engineer, Entrepreneur and Student
具身智能 5 篇 VLA/WAM 工作精读:OG-VLA、UniLACT、FALCON、Being-H0.7、DriveDreamer-Policy。这些工作正在收敛到一个共识——好的中间表征不仅需要动作监督,更需要未来关键信息监督。
从第一性原理出发的VAE学习记录:为什么Encoder输出分布参数、重参数技巧如何打通梯度传播,以及从连续VAE到离散VQ-VAE、RQ-VAE、FSQ的演进逻辑。
VLM(视觉语言模型)架构综述:从视觉编码器、桥接层到LLM的完整流程,以及CLIP、ALIGN、SigLIP、BLIP、Flamingo、LLaVA等主流预训练策略的对比分析。
新文章发布后会通过邮件通知你。
By subscribing, you agree to receive email updates from this blog.