一、Brat標註工具安裝
1.安裝條件:
(1)執行於Linux系統(window系統下虛擬機器內linux系統安裝也可以)
(2)目前brat最新版本(v1.3p1)僅支援python2版本執行使用(我用的是python2.7版本)
2.建議到github網站下載最新release版本:https://github.com/nlplab/brat/release
3.下載方式
(1)windows系統點選zip檔案下載解壓
(2)在linux系統的/var/www/html/目錄下wget下載解壓
wget https://github.com/nlplab/brat/archive/refs/tags/v1.3p1.zip unzip brat-1.3p1.zip # 下載後zip檔名為brat-1.3p1.zip mv brat-1.3p1.zip brat # 修改檔名為brat
4.安裝
(1)在/var/www/html/brat目錄下執行
./install.sh
(2)啟動apache2
service apache2 start
(3)執行服務
python2.7 standalone.py
如果出現了以下錯誤:
File "standalone.py", line 257 except SystemExit, sts: ^ SyntaxError: invalid syntax
說明需要將python3版本改為python2.7版本
(4)原始brat配置檔案沒有針對中文文字的標註,需要安裝後自行修改/var/www/html/brat/server/src/projectconfig.py配置檔案162行,將其註釋更改為如下所示:
# n = re.sub(r'[^a-zA-Z0-9_-]', '_', n) n = re.sub(u'[^a-zA-Z\u4e00-\u9fa5<>\u2014-\uff1b,0-9_-]', '_', n)
(5)開啟瀏覽器,輸入http://127.0.0.0:brat即可見到歡迎頁面!
點選ok開始進入使用。
5.使用
(1)/var/www/html/brat/目錄下的data目錄是供我們自己做標註時存放專案的資料夾,可以在data內mkdir一個project目錄,再根據具體專案建立對應目錄。
例如我現在需要標註10份txt檔案,那麼我需要在project內建立專案目錄後label-test將這10份txt檔案放進去,但是需要注意的是,brat並不會在標註的同時幫助我們建立每個txt對應的標註結果檔案,
所以在標註之前,我們需要先一一對應建立這10份txt對應的ann檔案(空的)。下面這條命令意思是找到當前目錄下的txt檔案並複製其名稱建立一個空白的ann檔案。
find ./ -name '*.txt' | sed -e 's|\.txt|.ann|g' | xargs touch
利用上述的命令後,我們目錄下將會有10個txt檔案,10個ann檔案。
(2)標註需要配置檔案,因此我們要到/var/www/html/brat/目錄下找到annotation.conf以及visual.conf,複製到/var/www/html/brat/data/project/label-test/目錄下
annotation.conf是可以對標註的實體、關係、事件、屬性等內容。
visual.conf可以修改標註的顏色等。
示例:
annotation.conf內容:
[entities] # Definition of entities. # Format is a simple list with one type per line. 時間 地點 人名 組織名 公司名 產品名 [relations] [events] [attributes]
注意:即使沒有relations、events、attributes等內容,也不能把這幾個去掉,去掉會一直報錯!!
visual.conf內容:
[labels] [drawing] 時間 bgColor:yellow 地點 bgColor:blue, fgColor:white 人名 bgColor:deepskyblue 組織名 bgColor:green, fgColor:white 公司名 bgColor:purple, fgColor:white 產品名 bgColor:pink
注意:同理,即使沒有labels內容,也不要去掉[labels]。
mayun.txt內容:
1964年9月10日,馬雲出生在杭州。 幼年的馬雲在人們的眼中是典型的壞孩子:叛逆、倔強、愛打架、逞強、頑皮淘氣。 馬雲的父親雖然是典型的江南人,但脾氣卻很火暴,馬雲從小在父親拳腳下長大。 馬雲是看金庸的武俠小說長大的,行俠仗義、打抱不平的“俠義”情結在少年馬雲的內心深處早已生根、萌芽。
mayun.ann內容為空,現在可以開始標註了,開啟瀏覽器http://127.0.0.0:8001,登入後才可以進行標註。開啟我們建立的目錄,滑鼠選中需要標註的實體,馬上就會自動顯示讓我們標註該內容對應的類別:
接著開啟mayun.ann,可以看到標註的內容已經記錄好了。
若無apache2,則對其進行安裝並修改配置檔案
sudo apt-get install apache2 # 安裝apache2 sudo vim /etc/apache2/apache2.conf # 修改apache2配置
將下列內容新增至配置檔案中:
<Directory /home/*/public_html> AllowOverride Options Indexes FileInfo Limit AddType application/xhtml+xml .xhtml AddType font/ttf .ttf # For CGI support AddHandler cgi-script .cgi # Comment out the line above and uncomment the line below for FastCGI #AddHandler fastcgi-script fcgi </Directory>
對userdir賦權:
sudo a2enmod userdir
繼續執行:
sudo apt-get install libapache2-mod-fastcgi sudo a2enmod fastcgi sudo a2enmod rewrite
重新載入apache2配置:
sudo /etc/init.d/apache2 reload
可能會遇到如下問題:
[....] Reloading apache2 configuration (via systemctl): apache2.serviceapache2.service is not active, cannot reload.
failed!
解決方法:
sudo apachectl stop /etc/init.d/apache2 start
此時操作無誤後,開啟http://127.0.0.1即可看到apache預設頁面。
備註:此處針對apache2的安裝配置可能有欠缺,僅供參考。
參考連結:https://www.moshangxingzou.com/index.php/2019/11/27/%E6%96%87%E6%9C%AC%E6%A0%87%E6%B3%A8%E5%B7%A5%E5%85%B7brat%E9%83%A8%E7%BD%B2%E7%AC%94%E8%AE%B0/
https://www.cnblogs.com/anai/p/11474460.html