持續更新。
——————–C++篇————————
- 分佈計算提高效率的庫及庫函式,比如FB的folly庫就有folly::gen一大堆函式,e.g.
auto results = from(ids) | get<0>() | as<vector>();
本質上和e.g.Pyspark的分散式計算的底層思想是一致的。
——————–Python篇———————–
- Python特別適用於搭data pipeline,比如FB的Dataswarm repo(用於run hive&presto tasks)和在Zillow用的Pyspark,其實根本上都是用了Python的指令碼特性,串聯起tasks來。
- dict的4種常見操作
增:d[`key1`] = 4
刪:d.pop(`key1`)
找key:if `key1` in d
get值:d.get(`key1`)