mrjob 可以讓用 Python 2.5+ 來編寫 MapReduce 作業,並在多個不同平臺上執行,你可以:
使用純 Python 編寫多步的 MapReduce 作業
在本機上進行測試
在 Hadoop 叢集上執行
使用 Amazon Elastic MapReduce (EMR) 在雲上執行
pip 的安裝方法非常簡單,無需配置,直接執行:pip install mrjob
程式碼例項:
from mrjob.job import MRJob class MRWordCounter(MRJob): def mapper(self, key, line): for word in line.split(): yield word, 1 def reducer(self, word, occurrences): yield word, sum(occurrences) if __name__ == '__main__': MRWordCounter.run()