Skip to content

TianxingChen/Embodied-AI-Guide

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 

Repository files navigation

具身智能入门指南 Embodied-AI-Guide

Embodied AI(具身智能)入门的路径以及高质量信息的总结,期望是按照路线走完后,新手可以快速建立关于这个领域的认知,希望能帮助到各位入门具身智能的朋友,欢迎点Star、分享与提PR🌟~
Embodied-AI-Guide, Latest Update: Dec 29, 2024 】 GitHub repo stars

Contents - 目录

1. Start Up - 从这里开始

具身智能是指一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。

How - 如何食用这份指南

我们希望的是帮助新人快速建立领域认知,所以设计理念是:简要介绍目前具身智能涉及到的主要技术,让大家知道不同的技术能够解决什么问题,未来想要深入发展的时候能够有头绪。

About us - 关于我们

我们是一个由具身初学者组成的团队,希望能够通过我们自己的学习经验,为后来者提供一些帮助,加快具身智能的普及。欢迎更多朋友加入我们的项目,也很欢迎交友、学术合作,有任何问题,可以联系邮箱[email protected]

🦉Contributors: 陈天行 (25' 港大PhD), 邹誉德 (25' 上交-浦江实验室联培PhD), 陈思翔 (25' 北大PhD), 叶雯 (25' 中科院自所PhD), 陈攒鑫 (深大本科生), 彭时佳 (深大本科生), 王冠锟 (港中文-华为联培PhD), 吴志杰 (港中文PhD), 朱宇飞 (25' 上科大Ms).

2. Useful Info - 有利于搭建认知的资料

  • 具身智能基础技术路线-YunlongDong [2]: PDF, bilibili

  • 社交媒体:

    • 可以关注的公众号: 石麻日记 (超高质量!!!), 机器之心, 新智元, 量子位, 具身知识库, 具身智能之心, 自动驾驶之心, 3D视觉工坊, 将门创投, RLCN强化学习研究, CVHub

    • AI领域值得关注的博主列表 [3]: zhihu

  • Robotics实验室总结 [4]: zhihu_1, zhihu_2

  • 具身智能会投稿的较高质量会议与期刊:RSS, TRO, Science Robotics, IROS, ICRA, ICCV, ECCV, ICRA, AAAI, ICML, CVPR, NIPS, ICLR, IJRR, ACL等。

  • 斯坦福机器人学导论:website

  • 共建全网最全具身智能知识库 [6]: website

3. Algorithm - 算法

3.1 Common Tools - 常用工具

这个部分是关于具身中常用技巧的分享

  • 点云降采样: zhihu, 包括随机降采样、均匀降采样、最远点降采样、法线空间降采样等,需要了解清楚每一种降采样的优劣,这个技巧的选择对于3D应用来说是至关重要的。

3.2 Foundation Models - 基础模型

以下是部分具身智能中常用的基础模型, 计算机视觉中发展的非常好的工具可以直接赋能具身智能的下游应用。

  • CLIP: website, 来自OpenAI的研究, 最基本的应用是可以计算图像与语言描述的相似度, 中间层的视觉特征对各种下游应用非常有帮助。

  • DINO: DINO repo, DINO-v2 repo, 来自Meta的研究, 可以提供图像的高层视觉特征, 对corresponding之类的信息提取非常有帮助, 比如不同个体之间的鼻子都有类似的几何特征, 这个时候不同图像中关于不同鼻子的视觉特征值可能是近似的。

  • SAM: website, 来自Meta的研究, 可以基于提示点或者框, 对图像的物体进行分割。

  • SAM2: website, 来自Meta的研究, SAM的升级版, 可以在视频层面持续对物体进行分割追踪。

  • Grounding-DINO: repo, 在线尝试, 这个DINO与上面Meta的DINO没有关系, 是一个由IDEA研究院(做了很多不错开源项目的机构)开发集成的图像目标检测的框架,很多时候需要对目标物体进行检测的时候可以考虑使用。

  • Grounded-SAM: repo, 比Grounding-DINO多了一个分割功能, 也就是支持检测后分割, 也有很多下游应用, 具体可以翻一下README。

  • FoundationPose: website, 来自Nvidia的研究, 物体姿态追踪模型。

  • Stable Diffusion: repo, website, 22年的文生图模型, 现在虽然不是SOTA了, 但是依然可以作为不错的应用, 例如中间层特征支持下游应用、生成Goal Image (目标状态) 等等。

  • Depth Anything (v1 & v2): repo, repo, 港大和字节的研究工作,单目深度估计模型。

  • Point Transformer (v3): repo, 点云特征提取的工作。

  • RDT-1B: website, 清华朱军老师团队的工作, 机器人双臂操作的基础模型, 具有强大的few-shot能力。

3.3 Robot Learning - 机器人学习

机器人学习 Robot Learning 的发展: zhihu

3.3.1 Reinforcement Learning - 强化学习

  • 推荐直接跟着李宏毅老师一套走: bilibili上课+刷蘑菇书巩固+gymnasium动手实践, 重点了解一下PPO。
    • 台湾大学李宏毅公开课: bilibili
    • EasyRL - 蘑菇书: website, 基本是配套李宏毅老师的课程
    • 实践gymnasium,可以尝试一下把玩一下登月着陆等经典强化学习场景,思考+动手,观察阶段agent的表现并分析,有助于深入理解强化学习

3.3.2 Imitation Learning - 模仿学习

  • 《模仿学习简洁教程》 - 南京大学LAMDA: PDF
  • Supervised Policy Learning for Real Robots, RSS 2024 Workshop 教程:真实机器人的监督策略学习, bilibili

3.4 LLM for Robotics - 大模型在机器人学中的应用

  • Robotics+LLM系列通过大语言模型控制机器人 [2]: zhihu
  • Embodied Agent wiki: website
  • Lilian Weng 个人博客 - AI Agent 系统综述 [5]: 中文: website 英文: website

3.5 Computer Vision - 计算机视觉

CS231n (斯坦福计算机视觉课程): website, 该课程对深度学习在计算机视觉的应用有较为全面的介绍。因为已经在具体实现某个论文的算法了,所以这个阶段可以不用做作业,只需要看课程视频和课程讲义即可。

3.5.1 3D Vision - 三维视觉

第一阶段:学习最基础的3DV知识,追求广度,了解一些基础的概念和算法

  • 三维视觉导论 - Andreas Geiger: website (重点是完成课程里面的作业)
  • GAMES203 - 三维重建和理解: bilibili

第二阶段:细分方向,追求深度,上手一些项目

  • 如果对传统图形学感兴趣,可以看下面两门(闫令琪老师开的课,讲得特别好):
    • GAMES101 - 现代计算机图形学入门: website
    • GAMES202 - 高质量实时渲染: website
  • 如果对motion synthesis/computer animation感兴趣,可以看:
    • GAMES105 - 计算机角色动画基础: website
  • 如何对三维重建感兴趣,可以看下面两门:
  • 三维预训练最新综述:
    • Advances in 3D pre-training and downstream tasks: a survey: PDF
  • 3DGS在具身上的综述:
    • 3D Gaussian Splatting in Robotics: A Survey: PDF

3.6 Embodied AI for X - 具身智能+X

3.6.1 Embodied AI for Healthcare - 具身智能+医疗

3.6.1.1 MLLM for Medical - 多模态大语言模型在医学中的应用

Coming Soon...

4. Hardware - 硬件

《机器人学简介》, 来自[2]做的高质量教材: PDF

《机器人系统教材》: website

4.1 Control - 控制学

关于控制部分的学习,最好从实践出发!

  • ROS基础:

  • 基础控制理论:

    • PID控制:CSDN
    • 彻底搞懂阻抗控制、导纳控制、力位混合控制: CSDN
  • ROS多传感器时间戳同步:website

  • 动手实践LeRobot SO-100:website

4.2 Sensors - 传感器

Coming Soon !

4.3 Companies - 公司

公司 主营产品 Others
松灵AgileX pipper机械臂
移动底盘
面向教育科研
宇树Unitree Go2机器狗
通用人形H1
通用人形G1
许多产出使用宇树的机器人作为硬件基础
方舟无限ARX X5机械臂
X7双臂平台
R5机械臂
适合复现很多经典的工作,eg. aloha
RoboTwin松灵底盘+方舟臂
波士顿动力 spot机器狗
Atlas通用人形
具身智能本体制造商,从液压驱动转向电机驱动
[灵心巧手]
灵巧智能DexRobot Dexhand 021灵巧手 19自由度量产灵巧手
银河通用 已完成多轮融资
星海图Galaxea A1机械臂
World Labs 专注于空间智能,致力于打造大型世界模型(LWM),以感知、生成并与 3D 世界进行交互。 相关介绍
星动纪元 Star1人形
XHAND1灵巧手
由清华叉院陈建宇教授创建
加速进化 Booster T1人形

5. Software - 软件

5.1 Benchmarks & Simulators - 基准 & 仿真器

具身智能常用benchmark总结 [1]: zhihu
常见仿真器wiki: wiki

仿真器 基准
IsaacSim BEHAVIOR-1K(可跨平台)+omniGibson(工具链)
ARNOID
MuJoCo robosuite+robomimic(工具链)
LIBERO
MetaWorld
Gymnasium-Robotics(Fetch; Shadow Dexterous Hand; Maze; Adroit Hand; Franka Kitchen; MaMuJoCo)
RoboCasa
RoboHive
Sapien ManiSkill
RoboTwin
CoppeliaSim RLBench
PerAct2
COLOSSEUM
PyBullet Calvin
Ravens
VimaBench
Genesis

6. Paper Lists - 论文列表

  • Awesome Humanoid Robot Learning - Yanjie Ze: repo
  • Paper Reading List - DeepTimber Community: repo
  • Paper List - Yanjie Ze: repo
  • Paper List For EmbodiedAI - Tianxing Chen: repo
  • SOTA Paper Rating - Weiyang Jin: website
  • Awesome-LLM-Robotics: A repo contains a curative list of papers using Large Language/Multi-Modal Models for Robotics/RL: website

7. Communities - 社区

以下部分资料引用自[7]

  • DeepTimber Robotics Innovations Community, 深木科研交流社区: website
  • 宇树具身智能社群: website
  • Simulately: Handy information and resources for physics simulators for robot learning research: website
  • DeepTimber-地瓜机器人社区: website
  • HuggingFace LeRobot (Europe, check the Discord): website
  • K-scale labs (US, check the Discord): website

8. Acknowledgement - 致谢

本文转载/引用了一些博主的文章,我们对他们的知识分享表示感谢,引用列表如下: [1] 知乎 穆尧, [2] 知乎 东林钟声, Github Yunlong Dong, [3] 知乎 强化学徒, [4] 知乎 Biang哥, [5] OpenAI Lilian Weng, [6] B站 木木具身, [7] Github Zhuoheng Li, [8] 知乎 Flood Sung, [9] Github Sida Peng

🏷️ License - 许可证

This repository is released under the MIT license. See LICENSE for additional details.

About

具身智能入门指南 Embodied-AI-Guide

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published