Rails 中文地址分词,求推荐

tumayun · 2013年01月15日 · 最后由 lulalala 回复于 2016年12月06日 · 5502 次阅读

中文地址分词,求推荐 有没有技术论文或者 Gem 推荐! 或者有什么建议! 谢谢!

中文地址?

@bhuztez 对,中文地址

统计分词方法的话,改改训练集和词典就可以了?mmseg 好像现在统计分词基本都是在隐马尔科夫模型上设设参数改改步骤什么的...

语义分词方法由于中文基本就是没有语法... 没见过有应用的... 只有中文地址的话说不定也可以尝试

#3 楼 @luikore 话说 HMM 已经落伍了,现在主流都 CRF 了,于是我就不会了...

#2 楼 @tumayun 你要先定义你这里分词的概念啊...在某些场景里地址本身可以作为一个单独的词的...

@bhuztez 比如

Address.parse("北京北京市朝阳区裕民路12号中国科技会展中心A201")
#=> 北京 北京市 朝阳区 裕民路 12号 中国科技会展中心 A201
`

#7 楼 @tumayun 这两天刚做了这样的,我要处理的数据量不大,就是用的@luikore 说的 rmmseg-cpp

雖然遲了幾年,最近我用 CRF 做了個中文地址分詞,比想像中簡單:

過程:http://lulalala.logdown.com/posts/1163179 網站:http://addresstokenizer.lulalala.com/

需要 登录 后方可回复, 如果你还没有账号请 注册新账号