零編輯的娛樂新聞系統:牛啦網

阮一峰發表於2007-04-04

bg2007040301.gif

盧亮的Blog上看到的:

牛啦曾經是一個書籤系統,後來因為疏於維護,被黃色內容包圍,進而我們關閉了他。

兩年前我一直有一個想法,就是完全的實現零編輯的新聞系統,但是總是種種原因沒有實施成,這次幾個朋友一起花了幾周時間完成了這個零編輯的娛樂新聞系統,也算彌補了以往的一個缺憾。

牛啦主要的功能是:
新聞網頁的自動獲取,自動分類,內容(標題,正文)的自動抽取,新聞圖片的自動提取,新聞關鍵詞計算,人名識別,新聞照片裡頭像的自動識別,內容消重,聚類,搜尋等功能。

未來沒有運營的打算,不過如果有好的建議我們可能會做一些改進。

牛啦的地址(http://www.niu.la

我瀏覽了一下,覺得這是一個很聰明的想法。

第一步將娛樂新聞自動抓取,第二步進行文字分析,主要是分析其中的人名。凡是相同的人名就歸為同一個主題。第三步根據報導數量的多少,對當天的熱點新聞進行排序。這樣就實現了一個零編輯的娛樂新聞網站。

在這上面還可以加上其他功能,比如訪問者留言,比如RSS,比如為每個人名建立一個檔案。最後,再加上廣告,就是一個低成本的娛樂門戶,只需一個程式設計師業餘時間維護就行了。

牛啦網本身倒還是其次,重要的是它提供了一種未來新聞網站的思路,這種思路完全可以應用到其他領域的新聞上去,主題詞分析可以從人名擴充套件到地名和機構團體名。大家想一想,如果新浪網用這樣方式展示新聞,那會是怎樣的情景?

這種方式的主要技術難點在於如何自動識別人名,這是漢語分詞技術中的關鍵之一。

另一個技術難點,我還沒有想通他是怎麼做到的,就是從照片中自動識別人物的頭像。

(完)

相關文章