当今最热的职业是数据科学,数据科学领域应用最广泛的编程语言是python,python这么火的原因就是其有一个功能强大的数据科学库:pandas。
然而,作为一名数据科学行业从业者,即使在pandas中浸淫日久,我常常还需要去查询官方文档,这严重影响了我的工作效率;甚至有时候迫不得已还得写循环操作,非常不pandas,这我忍不了,所以我觉得我得做点什么。
经过多次通读官方文档后,我认为问题根因在于:
- 官方文档组织杂而乱,知识框架不够精炼一致;
- 面面俱到,高价值信息被为了完整性而稀释;
- 文档更新不及时,API功能有时与文档描述不符。
与此同时,我也通读了国内外各种pandas教程,不过总体而言这些教程多数浅尝辄止,不够实用。所以,我决定编写一套pandas教程,提高自己能力的同时,也能帮助大家少走弯路。
这套教程编写的核心原则是:
- 首重知识体系逻辑,没有组织、不成体系的信息是无效信息,很难记住和使用;
- 知识粒度大小适中,即不流于表面也不深入过多细节;
- 示例精炼短小(能看出操作效果),方便手打练习;
- 在示例位置都会注上解释,辅助理解。
这套教程包含从初级到进阶的内容,适合初学者和希望进阶建立知识体系的数据科学从业者阅读。为确保教程的高可用性和准确性,我花了大量时间精心准备,但仍难免有错漏,非常欢迎各位读者能够跟我反馈。
如果觉得教程非常帮助,一时激动无处释放,记得给老铁我赞助一下:
- 一是为了给我激励,有动力写好后续部分;
- 二是表明我对时间的珍视,毕竟老兄我也是时薪过百的人。