FDDC2018金融演算法挑戰賽02-A股上市公司公告資訊抽取
更新時間 2018年7月11日 By 帶著兔子去旅行
資訊抽取是NLP裡的一個實用內容。該工具的目標是打造一個泛用的自動資訊抽取工具。使得沒有任何基礎的使用者,可以通過簡單的步驟提取文件(PDF,HTML,TXT)中的資訊。該工具使用C#(.Net Core)開發,所以可以跨平臺執行。(Python在做大的工程的時候有諸多不便,所以沒有使用python語言)
基本環境
- .NetCore2.1
- LTP元件:哈工大LTP3.3.2版
- PDF轉TXT工具 pdfminer
- 分詞系統:結巴分詞
ltp工具:哈工大LTP工具(ltp.ai)提供的ltp工具,最新版為3.3.4.該工具在windows,max,centos上,srl的訓練可能無法正常完成。(dp,ner階段沒有問題)所以這裡使用了3.3.2版本。ltp工具的SRL結果中包含了DP和NER的內容,但是暫時保留DP和NER中間XML檔案。
pdfminer:請注意處理中文的時候需要額外的步驟,具體方法不再贅述。部分PDF可能無法正確轉換,原因CaseByCase。
結巴分詞:某些地名,例如”大連”,會被誤判。這裡使用地名輔助字典的方式做糾正。ltp工具沒有這個問題。ltp工具和結巴分詞功能雖然重複,但是暫時還不能移除結巴分詞。
前期準備
- 使用pdfminer將PDF檔案轉化為Txt檔案
- 使用哈工大LTP工具,將Txt檔案轉換為NER,DP,SRL的XML檔案
期待資料夾結構
- html(存放HTML檔案目錄)
- pdf(存放PDF檔案目錄)
- txt(存放TXT檔案目錄)
- dp(存放LTP的DP結果XML目錄)
- ner(存放LTP的NER結果XML目錄)
- srl(存放LTP的SRL結果XML目錄)
訓練(詞語統計)
- 分析待提取資訊自身的特徵
- 分析待提取資訊周圍語境的特徵(LTP工具)
- 構建置信度體系
詞語自身屬性
- 長度
- 包含詞數
- 首詞詞性(POS)
- 詞尾
語境
- 該關鍵字在 :(中文冒號)之後的場景下,:(中文冒號)前面的內容
- 包含該關鍵字的句子中,該關鍵字的前置動詞
- 包含該關鍵字的句子中,該關鍵字是否在角色標識中存在
訓練結果例:
協議書(5.180388%)[56]
協議(11.84089%)[128]
合同(58.55689%)[633]
合同書(2.960222%)[32]
買賣合同(3.792784%)[41]
承包合同(12.0259%)[130]
意向書(0.2775208%)[3]
補充協議(1.110083%)[12]
專案(0.2775208%)[3]
書(0.9250694%)[10]
議案(0.2775208%)[3]
)(0.8325624%)[9]
(更多規則持續加入中,同時對於相關度低的規則也會剔除)
這裡暫時使用頻率最高的前5位作為抽取依據。同時為了保證正確率,部分特徵的佔比必須超過某個閾值。
以下是中文冒號的一個例子,要求前導詞佔比在40%以上。
(例如前導詞A可以正確抽取10個關鍵字,前導詞B可以抽取5個關鍵字,前導詞C可以抽取15個關鍵字。則前導詞A的佔比為33%)
e.LeadingColonKeyWordList = ContractTraning.ContractNameLeadingDict
.Where((x) => { return x.Value >= 40; }) //閾值40%以上
.Select((x) => { return x.Key + ":"; }).ToArray();
表格
對於大量表格中的關鍵字,工具也提供了表格統計的功能。主要是統計一下該關鍵字的表頭標題資訊。
同時由於表格中的原始資料可能需要通過參照表格標題才能進行比對的情況,這裡支援變換器。
/// <summary>
/// 增發物件訓練
/// </summary>
public static void TrainingIncreaseTarget()
{
var TargetTool = new TableAnlayzeTool();
var IncreaseNumberTool = new TableAnlayzeTool();
IncreaseNumberTool.Transform = NumberUtility.NormalizerStockNumber;
var IncreaseMoneyTool = new TableAnlayzeTool();
IncreaseMoneyTool.Transform = MoneyUtility.Format;
TraningDataset.InitIncreaseStock();
var PreviewId = String.Empty;
var PreviewRoot = new HTMLEngine.MyRootHtmlNode();
foreach (var increase in TraningDataset.IncreaseStockList)
{
if (!PreviewId.Equals(increase.id))
{
var htmlfile = Program.DocBase + @"FDDC_announcements_round1_train_20180518定增html" + increase.id + ".html";
PreviewRoot = new HTMLEngine().Anlayze(htmlfile, "");
PreviewId = increase.id;
}
TargetTool.PutTrainingItem(PreviewRoot, increase.PublishTarget);
IncreaseNumberTool.PutTrainingItem(PreviewRoot, increase.IncreaseNumber);
IncreaseMoneyTool.PutTrainingItem(PreviewRoot, increase.IncreaseMoney);
}
TargetTool.WriteTop(10);
}
增發物件
投資者名稱(7.29849%)[546]
股東名稱(10.17244%)[761]
發行物件名稱(9.089694%)[680]
認購物件(14.86432%)[1112]
發行物件(20.51865%)[1535]
增發數量
獲配股數(股)(17.05559%)[1893]
持股數量(股)(7.793495%)[865]
認購數量(股)(5.586089%)[620]
配售股數(股)(5.53203%)[614]
認購股數(股)(3.585909%)[398]
增發金額
認購金額(元)(4.833%)[314]
獲配金額(元)(15.94582%)[1036]
2015年度(4.417423%)[287]
2017年1-3月(4.432815%)[288]
2016年度(5.956595%)[387]
除了統計標題之外,還可以通過某個標題下面出現的內容。
下面的例子是看一下增減持方式有哪些:
/// <summary>
/// 增減持訓練
/// </summary>
/// <param name="TraningCnt">訓練條數</param>
public static void Traning(int TraningCnt = int.MaxValue)
{
var ChangeMethodTool = new TableAnlayzeTool();
var PreviewId = String.Empty;
var PreviewRoot = new HTMLEngine.MyRootHtmlNode();
int Cnt = 0;
foreach (var stockchange in TraningDataset.StockChangeList)
{
if (!PreviewId.Equals(stockchange.id))
{
var htmlfile = Program.DocBase + @"FDDC_announcements_round1_train_20180518增減持html" + stockchange.id + ".html";
PreviewRoot = new HTMLEngine().Anlayze(htmlfile, "");
PreviewId = stockchange.id;
Cnt++; if (Cnt == TraningCnt) break;
}
ChangeMethodTool.PutValueTrainingItem(PreviewRoot, new string[]{"減持方式","增持方式"}.ToList());
}
Program.Training.WriteLine("增減持方式");
ChangeMethodTool.WriteTop(10);
}
增減持方式
集中競價(24.37453%)[6771]
集中競價交易(33.39573%)[9277]
大宗交易(21.38306%)[5940]
競價交易(8.884409%)[2468]
合計(0.9287592%)[258]
集中競價減持(1.670326%)[464]
減持方式(1.313942%)[365]
<null>(1.090752%)[303]
二級市場競價(1.040354%)[289]
競價減持(0.705569%)[196]
抽取
採用各種方法抽取資料,務必使得所有資料都抽取出來。根據訓練結果從候選值裡面獲得置信度最大的資料。抽取手段如下:
- 具有明確先導詞
- NER實體標識
- 具體語境
表格抽取工具(內容系)
程式碼內建表頭規則系的表抽取工具,對於表格可以設定如下抽取規則:
- Content:匹配內容
- IsContentEq:內容匹配規則(包含或者相等)
/// <summary>
/// 表抽取規則(內容系)
/// </summary>
public struct TableSearchContentRule
{
/// <summary>
/// 匹配內容
/// </summary>
public List<String> Content;
/// <summary>
/// 是否相等模式
/// </summary>
public bool IsContentEq;
}
下面是一個表格抽取的例子:
var rule = new TableSearchContentRule();
rule.Content = new string[] { "集中競價交易", "競價交易", "大宗交易", "約定式購回" }.ToList();
rule.IsContentEq = true;
var result = HTMLTable.GetMultiRowsByContentRule(root,rule);
表格抽取工具(表頭規則系)
程式碼內建表頭規則系的表抽取工具,對於表格可以設定如下抽取規則:
- SuperTitle:層疊表頭的情況下,父表頭文字
- IsSuperTitleEq:父表頭文字匹配規則(包含或者相等)
- Title:表頭文字
- IsTitleEq:表頭文字匹配規則(包含或者相等)
- IsRequire:在行單位抽取時,該專案是否為必須專案
- ExcludeTitle:表標題不能包含的文字
- Normalize:抽取內容前處理器
/// <summary>
/// 表抽取規則
/// </summary>
public struct TableSearchTitleRule
{
public string Name;
/// <summary>
/// 父標題
/// </summary>
public List<String> SuperTitle;
/// <summary>
/// 是否必須一致
/// </summary>
public bool IsSuperTitleEq;
/// <summary>
/// 標題
/// </summary>
public List<String> Title;
/// <summary>
/// 是否必須一致
/// </summary>
public bool IsTitleEq;
/// <summary>
/// 是否必須
/// </summary>
public bool IsRequire;
/// <summary>
/// 表標題不能包含的文字
/// </summary>
public List<String> ExcludeTitle;
/// <summary>
/// 抽取內容前處理器
/// </summary>
public Func<String, String, String> Normalize;
}
下面是一個表格抽取的例子:
增持前 | (合併表頭) | 增持後 | (合併表頭) |
---|
持股數 | 持股比例 | 持股數 | 持股比例 |
---|
這裡我們想抽取持股比例和持股數,但是希望抽取的是增持後的部分,所以需要使用SuperTitle的規則了。
var HoldList = new List<struHoldAfter>();
var StockHolderRule = new TableSearchRule();
StockHolderRule.Name = "股東全稱";
StockHolderRule.Title = new string[] { "股東名稱", "名稱", "增持主體", "增持人", "減持主體", "減持人" }.ToList();
StockHolderRule.IsTitleEq = true;
StockHolderRule.IsRequire = true;
var HoldNumberAfterChangeRule = new TableSearchRule();
HoldNumberAfterChangeRule.Name = "變動後持股數";
HoldNumberAfterChangeRule.IsRequire = true;
HoldNumberAfterChangeRule.SuperTitle = new string[] { "減持後", "增持後" }.ToList();
HoldNumberAfterChangeRule.IsSuperTitleEq = false;
HoldNumberAfterChangeRule.Title = new string[] {
"持股股數","持股股數",
"持股數量","持股數量",
"持股總數","持股總數","股數"
}.ToList();
HoldNumberAfterChangeRule.IsTitleEq = false;
var HoldPercentAfterChangeRule = new TableSearchRule();
HoldPercentAfterChangeRule.Name = "變動後持股數比例";
HoldPercentAfterChangeRule.IsRequire = true;
HoldPercentAfterChangeRule.SuperTitle = HoldNumberAfterChangeRule.SuperTitle;
HoldPercentAfterChangeRule.IsSuperTitleEq = false;
HoldPercentAfterChangeRule.Title = new string[] { "比例" }.ToList();
HoldPercentAfterChangeRule.IsTitleEq = false;
var Rules = new List<TableSearchRule>();
Rules.Add(StockHolderRule);
Rules.Add(HoldNumberAfterChangeRule);
Rules.Add(HoldPercentAfterChangeRule);
var result = HTMLTable.GetMultiInfoByTitleRules(root, Rules, false);
EntityProperty物件
EntityProperty物件屬性如下:
- PropertyName:屬性名稱
- PropertyType:屬性型別(數字,金額,字元,日期)
- MaxLength:最大長度
- MinLength:最小長度
- MaxLengthCheckPreprocess:最大長度判定前前處理器(不改變抽取內容)
- LeadingColonKeyWordList:先導詞(包含”:”)
- LeadingColonKeyWordCandidatePreprocess:先導詞前處理器(改變抽取內容)
- QuotationTrailingWordList:引號和書名號中的詞語
- DpKeyWordList:句法依存環境
- ExternalStartEndStringFeature:普通的開始結尾詞判定
- CandidatePreprocess:一般候選詞前處理器(改變抽取內容)
- ExcludeContainsWordList:不能包含詞語列表
- ExcludeEqualsWordList:不能等於詞語列表
- Confidence:置信度物件
/// <summary>
/// 獲得合同名
/// </summary>
/// <returns></returns>
string GetContractName()
{
var e = new EntityProperty();
e.PropertyName = "合同名稱";
e.PropertyType = EntityProperty.enmType.Normal;
e.MaxLength = ContractTraning.MaxContractNameLength;
e.MinLength = 5;
e.LeadingColonKeyWordList = new string[] { "合同名稱:" };
e.QuotationTrailingWordList = new string[] { "協議書", "合同書", "確認書", "合同", "協議" };
e.QuotationTrailingWordList_IsSkipBracket = true; //暫時只能選True
var KeyList = new List<ExtractPropertyByDP.DPKeyWord>();
KeyList.Add(new ExtractPropertyByDP.DPKeyWord()
{
StartWord = new string[] { "簽署", "簽訂" }, //通過SRL訓練獲得
StartDPValue = new string[] { LTPTrainingDP.核心關係, LTPTrainingDP.定中關係, LTPTrainingDP.並列關係 },
EndWord = new string[] { "補充協議", "合同書", "合同", "協議書", "協議", },
EndDPValue = new string[] { LTPTrainingDP.核心關係, LTPTrainingDP.定中關係, LTPTrainingDP.並列關係, LTPTrainingDP.動賓關係, LTPTrainingDP.主謂關係 }
});
e.DpKeyWordList = KeyList;
var StartArray = new string[] { "簽署了", "簽訂了" }; //通過語境訓練獲得
var EndArray = new string[] { "合同" };
e.ExternalStartEndStringFeature = Utility.GetStartEndStringArray(StartArray, EndArray);
e.ExternalStartEndStringFeatureCandidatePreprocess = (x) => { return x + "合同"; };
e.MaxLengthCheckPreprocess = str =>
{
return EntityWordAnlayzeTool.TrimEnglish(str);
};
//最高階別的置信度,特殊處理器
e.LeadingColonKeyWordCandidatePreprocess = str =>
{
var c = Normalizer.ClearTrailing(TrimJianCheng(str));
return c;
};
e.CandidatePreprocess = str =>
{
var c = Normalizer.ClearTrailing(TrimJianCheng(str));
var RightQMarkIdx = c.IndexOf("”");
if (!(RightQMarkIdx != -1 && RightQMarkIdx != c.Length - 1))
{
//對於"XXX"合同,有右邊引號,但不是最後的時候,不用做
c = c.TrimStart("“".ToCharArray());
}
c = c.TrimStart("《".ToCharArray());
c = c.TrimEnd("》".ToCharArray()).TrimEnd("”".ToCharArray());
return c;
};
e.ExcludeContainsWordList = new string[] { "日常經營重大合同" };
//下面這個列表的根據不足
e.ExcludeEqualsWordList = new string[] { "合同", "重大合同", "專案合同", "終止協議", "經營合同", "特別重大合同", "相關專案合同" };
e.Extract(this);
//是否所有的候選詞裡面包括(測試集無法使用)
var contractlist = TraningDataset.ContractList.Where((x) => { return x.id == this.Id; });
if (contractlist.Count() > 0)
{
var contract = contractlist.First();
var contractname = contract.ContractName;
if (!String.IsNullOrEmpty(contractname))
{
e.CheckIsCandidateContainsTarget(contractname);
}
}
//置信度
e.Confidence = ContractTraning.ContractES.GetStardardCI();
return e.EvaluateCI();
}
鳴謝
感謝阿里巴巴組委會提供標註好的金融資料。
感謝組委會@通聯資料_梅潔,@梅童的及時答疑。
感謝微信好友 鄧少冬 潘昭鳴 NLP宋老師 的幫助和指導