使用Python編寫MapReduce作業

pythontab發表於2013-07-25

mrjob 可以讓用 Python 2.5+ 來編寫 MapReduce 作業,並在多個不同平臺上執行,你可以:

使用純 Python 編寫多步的 MapReduce 作業

在本機上進行測試

在 Hadoop 叢集上執行

使用 Amazon Elastic MapReduce (EMR) 在雲上執行

pip 的安裝方法非常簡單,無需配置,直接執行:pip install mrjob

程式碼例項:

from mrjob.job import MRJob
class MRWordCounter(MRJob):
    def mapper(self, key, line):
        for word in line.split():
            yield word, 1
    def reducer(self, word, occurrences):
        yield word, sum(occurrences)
if __name__ == '__main__':
    MRWordCounter.run()


相關文章