眾推專案的最近討論

skyme張發表於2015-04-30

原文網址 : https://flycode.co/archives/134603

openKM

想問下有沒有這樣的開原始檔管理系統，所有人都可以上傳檔案，只有有許可權的管理員才可以下載他人的檔案？

不知道openkm能不能做到。

OpenKM是一個開放原始碼的電子文件管理系統，它的特點是可用於大型公司或是中小企業，適應性比較強。並且在知識管理方面的加工，提供了更加靈活和成本較低的替代應用。

介面如下：

zongtui專案

專案地址：
（分散式爬蟲）http://git.oschina.net/zongtui/zongtui-webcrawler
（去重過濾器）https://git.oschina.net/zongtui/zongtui-filter
（文字分類器）https://git.oschina.net/zongtui/zongtui-classifier
（文件目錄）https://git.oschina.net/zongtui/zongtui-doc

然後再推薦一篇文章：（深度學習 vs 機器學習 vs 模式識別）

http://www.itd4j.com/cloudcomputing/15538.html

自動化部署

請問有Java的自動化部署工具推薦不？

有時候修改幾個檔案就要重新打包釋出重啟，太麻煩了，請問有什麼更好的辦法麼？

Jenkins是一個開源軟體專案，旨在提供一個開放易用的軟體平臺，使持續整合變成可能經濟界。

雲爬取

就是有一個客戶端要爬取一千個商品，他可以提交給伺服器，然後有伺服器在分配給其它客戶端來爬取。這樣搞效能比較高，還能逃過IP限制。

那就是使用者要爬什麼資料。你就讓使用者自己去爬取。服務端只負責，接收任務，分配任務，返回任務。

等於是免費的ip池而已。。

專案新架構

經過討論，目前的專案新架構已經修改如下：

這樣，問題的集中點就在如何接入爬蟲上了，因為現在各種爬蟲已經太多，沒必要在搞一個什麼新鮮的東西！

core部分的思路參考：

下一步的處理

1.通過設定規則抓取頁面；

2.設定頁面儲存方案；

3.通過頁面材料分析出內容屬性;

4.通過內容屬性生成結果;

5.通過結果進行學習;

6.通過結果生成內容;

說一下為什麼接入其它的，我舉兩個例子

1、webmagic

$P{6{44@9$UV8D_I33%`X3ND[4]$

就我知道，這哥們寫了2年，基本上各種問題都遇到過。沒必要再走一遍它的路，如果有問題可以通過它預留的介面幫它完善，或者直接用自己的實現。比如有效能問題，就我知道現在國內沒有一個比較權威的對各種爬蟲做比較。

2、Nutch 是一個開源Java 實現的搜尋引擎。它提供了我們執行自己的搜尋引擎所需的全部工具。包括全文搜尋和Web爬蟲。

Nutch的創始人是Doug Cutting，他同時也是Lucene、Hadoop和Avro開源專案的創始人。

說它有問題我覺得只有這麼幾種可能：

1、場景不適合。

2、沒理解，沒用明白。

所以我覺得沒必要非得造個輪子。

個性化推薦

使用者端就是資料呈現了，我的理解是內容方主要的工作是：採集、整理、推薦、打TAG、分值（多個）、推薦、贊、踩、回覆數、型別（圖文、視訊、文字、微信、微博等）；

使用者這邊的東西就確實高階很多：單體關係畫像，不同社交圈關係畫像，主要人群劃分TAG得分，年齡、性別、職業、特別事件、喜歡內容TAG得分、收藏內容TAG得分、分享內容TAG得分、不感興趣內容TAG得分（負值或其他分數）
推薦引擎主要的工作：按照使用者的tag得分匹配內容，結合地理位置（當前的和常用的）、當前時間段（早、中、下、晚）、當前日期（節日、週末）、熱點實時註冊的時候選擇標籤這個是SNS的做法了，頭條現在基本上都是從使用者關係拿了關聯使用者資料再來推。

眾推只要完成了初步的推薦功能，其他的基本上都是靠運營的人來積累資料。沒有足夠的資料肯定精準度要差點。比如一點資訊，現在內容差不多已經全搬過來了，但是推薦還是很爛，主要靠套用頭條的編輯推薦那塊，人工加了點分值。要不然感覺推薦會更加不準。

討論專案合理分層
2020-08-13
專案需求討論 – 定位功能小結
2019-03-03
【原創】組織專案管理討論
2019-03-22
專案管理
專案需求討論-自定義滾輪
2019-02-28
專案需求討論 - 定位功能小結
2018-07-16
專案需求討論— ButterKnife初級小結
2019-03-01
專案需求討論：截圖—塗鴉—分享
2019-02-28
專案需求討論 — ConstraintLayout 詳細使用教程
2019-03-04
AI
【原創】專案估算－專案管理MSN群線上討論（2009.6.30）
2019-02-07
專案管理
微信公眾號讀者討論怎麼發起? 微信公眾號文章加讀者討論的技巧
2020-09-09
最近專案管理感悟
2018-08-05
專案管理
【原創】老谷專案管理MSN群專題討論--甲乙方專案監控（2009.7.14）
2019-07-08
專案管理
駭客新聞上最近CQRS的討論和實踐經驗分享
2020-11-12
專案需求討論 - WebView下拍照及圖片選擇功能
2018-06-23
WebView
[iOS Monkey 討論帖] 整套新的 fastmonkey 討論
2021-01-08
iOSAST
最近專案重構的一些感想
2019-03-02
隨便聊一聊&最近做的專案
2020-10-29
遊戲專案管理的專業思路探討
2021-04-01
遊戲專案管理
討論
2020-11-23
伊人集小眾社群，最近上線的
2019-05-11
2010.03.23 MSN群討論之服裝行業的ERP專案實施經驗分享
2019-05-21
行業
專案需求討論-Vlayout來快速構建及擴充套件複雜介面
2019-02-26
套件
河北科技創新平臺年報系統涉眾分析（交流討論）
2018-04-06
js中分號的討論
2018-12-04
JS
我最近寫了個開源專案Datura
2018-06-13
Mac新手教程：如何刪除程式塢中專案右鍵的“最近開啟專案”？
2021-12-23
Mac
【討論】論 cursor 在測試中的使用
2024-09-19
【原創】老谷專案管理MSN群線上討論（2009.8.11）：談談敏捷開發
2019-07-13
專案管理敏捷
[Github 專案推薦] 一個更好閱讀和查詢論文的網站
2019-01-13
Github網站
推薦個超好玩的專案
2018-11-29
如何推廣你的 Github 專案
2021-07-11
Github
PMP|論傳統專案與敏捷專案管理的區別
2021-12-08
敏捷專案管理
【經驗分享，歡迎討論】專案管理中需求變更太頻繁，怎麼辦？
2022-02-26
專案管理
任意檔案下載漏洞的介面URL構造分析與討論
2021-01-13
[譯] 討論 JS ⚡：文件
2019-01-17
JS
httprunner 大佬討論群
2020-08-31
HTTP
專案管理之方法論
2020-08-22
專案管理
vs2005中總是保留最近開啟的專案和檔案的記錄
2019-05-11
對容器映象的思考和討論
2021-01-20