关于中文企业名称关键词自动提取的思考

2015-06-02 09:27:00
hainuo
原创 2053
摘要:在工作中遇到很多的关键词匹配,但是因为实际应用的困难而无法满足使用需求,这里罗列了一些想法和别人的做法,以供自己以后有更好的想法时来真正的做一套这样的东西
1. [原因及其起源](#111)2. [现有的一些其他案例](#222)3. [我的想法](#333) 原因及起源√[http://zhidao.baidu.com/link?url=8h1-zfftxdSH1MvkDhjCSodw7HnlkfZQhNaoVCelNVNewryHiuaKEVkq1WXlzu7tBwTCPt9_8mA651ehhoVbcTESY91JC-zGWn9E3elLoZW](http://zhidao.baidu.com/link?url=8h1-zfftxdSH1MvkDhjCSodw7HnlkfZQhNaoVCelNVNewryHiuaKEVkq1WXlzu7tBwTCPt9_8mA651ehhoVbcTESY91JC-zGWn9E3elLoZW)   大家可以通过这个页面查看这个需求的来源。 里面讲了一些处理方法,但是都是人工操作,而不是自动关键词匹配所以我看到被人给踩了几脚。 现有的一些方案√[http://bbs.csdn.net/topics/330086799](http://bbs.csdn.net/topics/330086799) 大家可以通过csdn这个页面得到一定的想法,但是这个页面也没有说明如何处理的只是提供了几个思路。 我的想法首先要有一个关键词排除匹配库 这个关键词匹配库是这么来的   将某个地区公共的词汇 比如区划信息、有限、公司、责任、股份等等信息填入进去。第二,在系统中往数据库中写入企业名称时,自动对企业名称中含有的关键词库中的数据进行过滤,然后将剩余词写入到企业名称旁边的关键词字段。第三,在匹配时 需要一个算法来计算匹配度,匹配度的这个算法现在没有更多的想法,只是要看看是如何匹配法。就是进行中文分词,能够不分词便匹配上的就匹配度为3 分成两个匹配上的匹配度为2,分成三个以上匹配上匹配度为1等等想法先写在这里  以后再说
发表评论
陆 加 捌 =
评论通过审核后显示。