csdn開源夏令營-ospaf中期報告

李博Garvin發表於2014-07-25

原文網址 : https://blog.csdn.net/buptgshengod/article/details/38117627

1.背景

隨著將中期的程式碼託管到CSDN的平臺上，ospaf（開源專案成熟度分析工具）已經有了小小的雛形，當然還遠遠不夠。

首先還是要感謝這次活動組織方CSDN，感覺挺有Google Summer Code 中國版的味道。還有就是我的夏令營導師David，給了我很多指導和幫助，線下的交流也很讓我長見識。

接著來說ospaf這個專案（有興趣的tx可以去看題案，地址）。按照之前的計劃，在中期答辯之前要完成對於github相關api的瞭解，將github的一些資料clone到本地的資料庫，利用一些機器學習演算法訓練模型，然後可以利用這個模型對其它專案進行評價。到今天為止這些功能都已經簡單實現了，不過都是很初級的版本（程式碼地址）。下面簡單介紹下專案流程。

2.專案流程

第一步：github api呼叫

調研三種跟github有關的api，分別是github官方api、github archive、GHTorrent。其中GHTorrent提供的資料最全（包含commits等資訊），但是因為資料量實在過於龐大，在沒有伺服器之前只好捨棄。剩下兩種其實提供的資料是一樣的，只不過github官方的api有一定的流量限制。最終還是選定了官方api。

首先就是獲得github上面的專案的api地址，要做一些json格式解析工作，還有就是一些正則匹配。存入到資料庫大致是如下所示，

圖 2-1 url

之後就可以讀取每個每一個url地址，獲得相關專案的詳細資訊，存到資料庫。

圖2-2 repo info

第二步：處理資料，構建訓練集

把資料放到資料庫之後，剩下就是機器學習的內容了。因為受限於流量限制，每小時只能clone下來43個專案的資料，所以訓練集不足，就沒有對特徵進行擴維操作（下一期會重點解決這一塊）。特徵方面只是對時間進行了調整，把年月日的格式換成了對於距離當天的日期差，如：created_at=500,也就是說這個專案是500天前建立的。

因為演算法採用的是監督學習的，所以需要設定目標佇列。目標佇列的獲取方法是提取了一些github showcase的專案作為正樣本，其它的專案為負樣本。

這樣就簡單的組成了訓練集，正樣本和負樣本的比例大概是1：6。總資料量有六十多個訓練樣本（少的可憐）。

第三步：機器學習

因為訓練集較小，目前用到的演算法比較少。用到了歸一化演算法、取樣演算法對資料進行處理，計算模型使用的是邏輯迴歸。下圖是每個特徵的迴歸因子。大於零的特徵對於樣本是正面影響，小於零的是負面影響。

圖 2-3 feature

第四步：評測（對專案打分）

下面選用了四個專案對模型進行檢驗，前三個是github上的熱門專案，第四個是我自己的一個專案。

圖 2-4 PreSet

圖 2-4 結果圖

得分大於零為成熟度高的專案，分數越高，成熟度越高。

專案地址：https://code.csdn.net/davidmain/ospaf

/********************************

* 本文來自部落格 “李博Garvin“

* 轉載請標明出處:http://blog.csdn.net/buptgshengod

******************************************/

相關文章

Kindling參加首屆CCF GitLink開源程式設計夏令營啦！快來報名吧
2022-11-23
Git程式設計
報名僅剩3天！2022“資料智慧夏令營”即將開營，速來！
2022-06-27
Datawhale X 魔搭 AI夏令營(三)
2024-08-17
AI
告別csdn通告
2020-10-28
中國（溫州）數安港“2022資料智慧夏令營”開營！開啟最酷夏日體驗
2022-07-04
CSDN 報告：阿里雲容器服務成為中國開發者首選
2022-08-24
阿里
重磅！滴滴開源首次釋出年度報告
2019-05-06
CSDN資源共享規範
2020-04-04
考研保研、夏令營推免的簡歷模板
2023-12-15
中山大學人工智慧夏令營實踐課
2024-07-16
人工智慧
Datawhale AI夏令營-機器翻譯挑戰賽
2024-07-17
AI
中國開源專案 Grank 分析報告（2019）
2020-01-06
2019 年中國開源年度報告（資料篇）
2020-01-07
2019 年中國開源年度報告（問卷篇）
2020-01-02
紅帽：《企業開源狀態》年度報告
2021-03-07
告別簡書，重回csdn
2018-10-24
[Datawhale AI 夏令營] Task1: 跑通YOLO方案baseline
2024-08-25
AIYOLO
Datawhale AI 夏令營第五期 CV方向 01
2024-08-26
AI
Datawhale X 魔搭 AI夏令營 AIGC方向 Task3
2024-08-17
AIGC
Datawhale X 魔搭 AI夏令營 AIGC方向 Task1
2024-08-11
AIGC
2024廈門大學數學夏令營考核試題
2024-07-27
華為開源映象站體驗評測報告
2019-01-28
iLogtail 開源兩週年：社群使用調查報告
2024-09-04
AI
2022全球企業開源現狀：紅帽報告
2022-06-16
HubSpot：2020年營銷報告
2020-06-02
2022 OpenHarmony年度運營報告
2023-03-26
Dyrt：2022年露營報告
2022-07-11
Salesforce：2021年營銷報告
2021-11-01
Salesforce
2018年騰訊第二季度及中期業績財務報告
2018-08-15
Datawhale AI 暑期夏令營第四期Task3
2024-08-03
AI
2021 OceanBase 開源半年度報告 | 不忘初心，感恩同行
2022-01-18
Sojern：2019年旅遊營銷廣告報告
2019-06-27
Wyzowl：2019年影片營銷報告
2019-02-25
Econsultancy：暗資料營銷報告
2018-07-04
Demand Metric：多渠道營銷報告
2019-10-18
WARC：2020年營銷工具報告
2019-12-09
Facebook 遊戲業營銷報告
2019-12-26
遊戲
Salesloft：2024年營銷AI報告
2024-10-03
AI
KOA：2022年北美露營報告
2022-07-12