眾推專案的最近討論

skyme張發表於2015-04-30

openKM

想問下有沒有這樣的開原始檔管理系統,所有人都可以上傳檔案,只有有許可權的管理員才可以下載他人的檔案?

不知道openkm能不能做到。

OpenKM是一個開放原始碼的電子文件管理系統,它的特點是可用於大型公司或是中小企業, 適應性比較強。 並且在知識管理方面的加工,提供了更加靈活和成本較低的替代應用。

介面如下:

image

zongtui專案

專案地址:
(分散式爬蟲)http://git.oschina.net/zongtui/zongtui-webcrawler
(去重過濾器)https://git.oschina.net/zongtui/zongtui-filter
(文字分類器)https://git.oschina.net/zongtui/zongtui-classifier
(文件目錄)https://git.oschina.net/zongtui/zongtui-doc

O$}1EMGOHJHEW`WHJG0)ALA

然後再推薦一篇文章:(深度學習 vs 機器學習 vs 模式識別)

http://www.itd4j.com/cloudcomputing/15538.html

自動化部署

請問 有Java的自動化部署工具推薦不?

有時候修改幾個檔案就要重新打包釋出重啟,太麻煩了,請問有什麼更好的辦法麼?

Jenkins是一個開源軟體專案,旨在提供一個開放易用的軟體平臺,使持續整合變成可能經濟界。

雲爬取

就是有一個客戶端要爬取一千個商品,他可以提交給伺服器,然後有伺服器在分配給其它客戶端來爬取。這樣搞效能比較高,還能逃過IP限制。

那就是使用者要爬什麼資料。你就讓使用者自己去爬取。服務端只負責,接收任務,分配任務,返回任務。

等於是免費的ip池而已。。

專案新架構

經過討論,目前的專案新架構已經修改如下:

7NXN9[J0T`ZGMNULRLI0@9C

這樣,問題的集中點就在如何接入爬蟲上了,因為現在各種爬蟲已經太多,沒必要在搞一個什麼新鮮的東西!

core部分的思路參考:

2P3(8IO@K_~[GG[6FTB9J%G

下一步的處理

1.通過設定規則抓取頁面;

2.設定頁面儲存方案;

3.通過頁面材料分析出內容屬性;

4.通過內容屬性生成結果;

5.通過結果進行學習;

6.通過結果生成內容;

說一下為什麼接入其它的,我舉兩個例子

1、webmagic

P{6{44@9$UV8D_I33%`X3ND[4]

就我知道,這哥們寫了2年,基本上各種問題都遇到過。沒必要再走一遍它的路,如果有問題可以通過它預留的介面幫它完善,或者直接用自己的實現。比如有效能問題,就我知道現在國內沒有一個比較權威的對各種爬蟲做比較。

2、Nutch 是一個開源Java 實現的搜尋引擎。它提供了我們執行自己的搜尋引擎所需的全部工具。包括全文搜尋和Web爬蟲。

Nutch的創始人是Doug Cutting,他同時也是Lucene、Hadoop和Avro開源專案的創始人。

說它有問題我覺得只有這麼幾種可能:

1、場景不適合。

2、沒理解,沒用明白。

所以我覺得沒必要非得造個輪子。

個性化推薦

使用者端就是資料呈現了,我的理解是內容方主要的工作是:採集、整理、推薦、打TAG、分值(多個)、推薦、贊、踩、回覆數、型別(圖文、視訊、文字、微信、微博等);

使用者這邊的東西就確實高階很多:單體關係畫像,不同社交圈關係畫像,主要人群劃分TAG得分,年齡、性別、職業、特別事件、喜歡內容TAG得分、收藏內容TAG得分、分享內容TAG得分、不感興趣內容TAG得分(負值或其他分數)
推薦引擎主要的工作:按照使用者的tag得分匹配內容,結合地理位置(當前的和常用的)、當前時間段(早、中、下、晚)、當前日期(節日、週末)、熱點實時註冊的時候選擇標籤這個是SNS的做法了,頭條現在基本上都是從使用者關係拿了關聯使用者資料再來推。

眾推只要完成了初步的推薦功能,其他的基本上都是靠運營的人來積累資料。沒有足夠的資料肯定精準度要差點。比如一點資訊,現在內容差不多已經全搬過來了,但是推薦還是很爛,主要靠套用頭條的編輯推薦那塊,人工加了點分值。要不然感覺推薦會更加不準。


相關文章