關於中文企業名稱關鍵詞自動提取的思考

2015-06-02 09:27:00
hainuo
原創 1790
摘要:在工作中遇到很多的關鍵詞匹配,但是因爲實際應用的睏難而無法滿足使用需求,這裡羅列瞭一些想法和彆人的做法,以供自己以後有更好的想法時來真正的做一套這樣的東西
1. [原因及其起源](#111)2. [現有的一些其他案例](#222)3. [我的想法](#333) 原因及起源√[http://zhidao.baidu.com/link?url=8h1-zfftxdSH1MvkDhjCSodw7HnlkfZQhNaoVCelNVNewryHiuaKEVkq1WXlzu7tBwTCPt9_8mA651ehhoVbcTESY91JC-zGWn9E3elLoZW](http://zhidao.baidu.com/link?url=8h1-zfftxdSH1MvkDhjCSodw7HnlkfZQhNaoVCelNVNewryHiuaKEVkq1WXlzu7tBwTCPt9_8mA651ehhoVbcTESY91JC-zGWn9E3elLoZW)   大傢可以通過這箇頁麵查看這箇需求的來源。 裡麵講瞭一些處理方法,但是都是人工操作,而不是自動關鍵詞匹配所以我看到被人給踩瞭幾腳。 現有的一些方案√[http://bbs.csdn.net/topics/330086799](http://bbs.csdn.net/topics/330086799) 大傢可以通過csdn這箇頁麵得到一定的想法,但是這箇頁麵也沒有説明如何處理的隻是提供瞭幾箇思路。 我的想法首先要有一箇關鍵詞排除匹配庫 這箇關鍵詞匹配庫是這麽來的   將某箇地區公共的詞滙 比如區劃信息、有限、公司、責任、股份等等信息填入進去。第二,在繫統中往數據庫中寫入企業名稱時,自動對企業名稱中含有的關鍵詞庫中的數據進行過濾,然後將剩餘詞寫入到企業名稱旁邊的關鍵詞字段。第三,在匹配時 需要一箇祘法來計祘匹配度,匹配度的這箇祘法現在沒有更多的想法,隻是要看看是如何匹配法。就是進行中文分詞,能夠不分詞便匹配上的就匹配度爲3 分成兩箇匹配上的匹配度爲2,分成三箇以上匹配上匹配度爲1等等想法先寫在這裡  以後再説
發錶評論
貳 乘 拾 =
評論通過審核後顯示。