近日看到了Google的BigQuery技術,用類似SQL的語言來做一些資料的分析。而Github也加入了進來。閒來無事,就去體驗了一把。https://cloud.google.com/bigquery/public-data/github 這是相關文章的地址。
BigQuery語法
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 |
SELECT package, COUNT(*) count FROM ( SELECT REGEXP_EXTRACT(line, r' ([a-z0-9\._]*)\.') package, id FROM ( SELECT SPLIT(content, '\n') line, id FROM [bigquery-public-data:github_repos.sample_contents] WHERE content CONTAINS 'import' AND sample_path LIKE '%.py' HAVING LEFT(line, 6)='import' ) GROUP BY package, id ) GROUP BY 1 ORDER BY count DESC LIMIT 40; |
整體的語法都和SQL非常接近,鑑於點進來的人很多都是衝著“有趣”這兩個字來的,就不過多介紹程式碼了。這段程式碼的作用是找到github倉庫中,使用Python語言的倉庫中,前10個被引用的庫。
BigQuery的介面也非常有Google風……
Most Popular Python Packages
這是通過剛剛的分析做出來的前幾名的Python庫的列表。
Most Popular Java Packages
一些其它有趣的事情
例如大家都在用什麼協議來發布作品,有接近150萬個倉庫使用MIT協議來發布。
關注tensorflow的人都在關注什麼?
最受歡迎的語言
提交次數和時間的關係