Embodied AI(具身智能)入门的路径以及高质量信息的总结,期望是按照路线走完后,新手可以快速建立关于这个领域的认知,希望能帮助到各位入门具身智能的朋友,欢迎点Star、分享与提PR🌟~
【 Embodied-AI-Guide, Latest Update: Dec 29, 2024 】
- 1. Start Up - 从这里开始
- 2. Useful Info - 有利于搭建认知的资料
- 3. Algorithm - 算法
- 4. Hardware - 硬件
- 5. Software - 软件
- 6. Paper Lists - 论文列表
- 7. Communities - 社区
- 8. Acknowledgement - 致谢
具身智能是指一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。
我们希望的是帮助新人快速建立领域认知,所以设计理念是:简要介绍目前具身智能涉及到的主要技术,让大家知道不同的技术能够解决什么问题,未来想要深入发展的时候能够有头绪。
我们是一个由具身初学者组成的团队,希望能够通过我们自己的学习经验,为后来者提供一些帮助,加快具身智能的普及。欢迎更多朋友加入我们的项目,也很欢迎交友、学术合作,有任何问题,可以联系邮箱[email protected]
。
🦉Contributors: 陈天行 (25' 港大PhD), 邹誉德 (25' 上交-浦江实验室联培PhD), 陈思翔 (25' 北大PhD), 叶雯 (25' 中科院自所PhD), 陈攒鑫 (深大本科生), 彭时佳 (深大本科生), 王冠锟 (港中文-华为联培PhD), 吴志杰 (港中文PhD), 朱宇飞 (25' 上科大Ms).
-
社交媒体:
-
可以关注的公众号: 石麻日记 (超高质量!!!), 机器之心, 新智元, 量子位, 具身知识库, 具身智能之心, 自动驾驶之心, 3D视觉工坊, 将门创投, RLCN强化学习研究, CVHub
-
AI领域值得关注的博主列表 [3]: zhihu
-
-
具身智能会投稿的较高质量会议与期刊:RSS, TRO, Science Robotics, IROS, ICRA, ICCV, ECCV, ICRA, AAAI, ICML, CVPR, NIPS, ICLR, IJRR, ACL等。
-
斯坦福机器人学导论:website
-
共建全网最全具身智能知识库 [6]: website
这个部分是关于具身中常用技巧的分享
- 点云降采样: zhihu, 包括随机降采样、均匀降采样、最远点降采样、法线空间降采样等,需要了解清楚每一种降采样的优劣,这个技巧的选择对于3D应用来说是至关重要的。
以下是部分具身智能中常用的基础模型, 计算机视觉中发展的非常好的工具可以直接赋能具身智能的下游应用。
-
CLIP: website, 来自OpenAI的研究, 最基本的应用是可以计算图像与语言描述的相似度, 中间层的视觉特征对各种下游应用非常有帮助。
-
DINO: DINO repo, DINO-v2 repo, 来自Meta的研究, 可以提供图像的高层视觉特征, 对corresponding之类的信息提取非常有帮助, 比如不同个体之间的鼻子都有类似的几何特征, 这个时候不同图像中关于不同鼻子的视觉特征值可能是近似的。
-
SAM: website, 来自Meta的研究, 可以基于提示点或者框, 对图像的物体进行分割。
-
SAM2: website, 来自Meta的研究, SAM的升级版, 可以在视频层面持续对物体进行分割追踪。
-
Grounding-DINO: repo, 在线尝试, 这个DINO与上面Meta的DINO没有关系, 是一个由IDEA研究院(做了很多不错开源项目的机构)开发集成的图像目标检测的框架,很多时候需要对目标物体进行检测的时候可以考虑使用。
-
Grounded-SAM: repo, 比Grounding-DINO多了一个分割功能, 也就是支持检测后分割, 也有很多下游应用, 具体可以翻一下README。
-
FoundationPose: website, 来自Nvidia的研究, 物体姿态追踪模型。
-
Stable Diffusion: repo, website, 22年的文生图模型, 现在虽然不是SOTA了, 但是依然可以作为不错的应用, 例如中间层特征支持下游应用、生成Goal Image (目标状态) 等等。
-
Point Transformer (v3): repo, 点云特征提取的工作。
-
RDT-1B: website, 清华朱军老师团队的工作, 机器人双臂操作的基础模型, 具有强大的few-shot能力。
机器人学习 Robot Learning 的发展: zhihu
- 推荐直接跟着李宏毅老师一套走: bilibili上课+刷蘑菇书巩固+gymnasium动手实践, 重点了解一下PPO。
- 《模仿学习简洁教程》 - 南京大学LAMDA: PDF
- Supervised Policy Learning for Real Robots, RSS 2024 Workshop 教程:真实机器人的监督策略学习, bilibili
- Robotics+LLM系列通过大语言模型控制机器人 [2]: zhihu
- Embodied Agent wiki: website
- Lilian Weng 个人博客 - AI Agent 系统综述 [5]: 中文: website 英文: website
CS231n (斯坦福计算机视觉课程): website, 该课程对深度学习在计算机视觉的应用有较为全面的介绍。因为已经在具体实现某个论文的算法了,所以这个阶段可以不用做作业,只需要看课程视频和课程讲义即可。
第一阶段:学习最基础的3DV知识,追求广度,了解一些基础的概念和算法
第二阶段:细分方向,追求深度,上手一些项目
- 如果对传统图形学感兴趣,可以看下面两门(闫令琪老师开的课,讲得特别好):
- 如果对motion synthesis/computer animation感兴趣,可以看:
- GAMES105 - 计算机角色动画基础: website
- GAMES105 - 计算机角色动画基础: website
- 如何对三维重建感兴趣,可以看下面两门:
- 三维预训练最新综述:
- Advances in 3D pre-training and downstream tasks: a survey: PDF
- Advances in 3D pre-training and downstream tasks: a survey: PDF
- 3DGS在具身上的综述:
- 3D Gaussian Splatting in Robotics: A Survey: PDF
- 3D Gaussian Splatting in Robotics: A Survey: PDF
- SkinGPT-4 for dermatological diagnosis: website
- PneumoLLM for pneumoconiosis diagnosis: website
- BiomedGPT: website
- LLAVA-Med: website
Coming Soon...
《机器人学简介》, 来自[2]做的高质量教材: PDF
《机器人系统教材》: website
关于控制部分的学习,最好从实践出发!
Coming Soon !
公司 | 主营产品 | Others |
---|---|---|
松灵AgileX | pipper机械臂 移动底盘 |
面向教育科研 |
宇树Unitree | Go2机器狗 通用人形H1 通用人形G1 |
许多产出使用宇树的机器人作为硬件基础 |
方舟无限ARX | X5机械臂 X7双臂平台 R5机械臂 |
适合复现很多经典的工作,eg. aloha RoboTwin松灵底盘+方舟臂 |
波士顿动力 | spot机器狗 Atlas通用人形 |
具身智能本体制造商,从液压驱动转向电机驱动 |
[灵心巧手] | ||
灵巧智能DexRobot | Dexhand 021灵巧手 | 19自由度量产灵巧手 |
银河通用 | 已完成多轮融资 | |
星海图Galaxea | A1机械臂 | |
World Labs | 专注于空间智能,致力于打造大型世界模型(LWM),以感知、生成并与 3D 世界进行交互。 相关介绍 | |
星动纪元 | Star1人形 XHAND1灵巧手 |
由清华叉院陈建宇教授创建 |
加速进化 | Booster T1人形 |
具身智能常用benchmark总结 [1]: zhihu
常见仿真器wiki: wiki
- Awesome Humanoid Robot Learning - Yanjie Ze: repo
- Paper Reading List - DeepTimber Community: repo
- Paper List - Yanjie Ze: repo
- Paper List For EmbodiedAI - Tianxing Chen: repo
- SOTA Paper Rating - Weiyang Jin: website
- Awesome-LLM-Robotics: A repo contains a curative list of papers using Large Language/Multi-Modal Models for Robotics/RL: website
以下部分资料引用自[7]
- DeepTimber Robotics Innovations Community, 深木科研交流社区: website
- 宇树具身智能社群: website
- Simulately: Handy information and resources for physics simulators for robot learning research: website
- DeepTimber-地瓜机器人社区: website
- HuggingFace LeRobot (Europe, check the Discord): website
- K-scale labs (US, check the Discord): website
本文转载/引用了一些博主的文章,我们对他们的知识分享表示感谢,引用列表如下: [1] 知乎 穆尧, [2] 知乎 东林钟声, Github Yunlong Dong, [3] 知乎 强化学徒, [4] 知乎 Biang哥, [5] OpenAI Lilian Weng, [6] B站 木木具身, [7] Github Zhuoheng Li, [8] 知乎 Flood Sung, [9] Github Sida Peng
This repository is released under the MIT license. See LICENSE for additional details.