新手问题 PostgreSQL 中文分词用什么?

chairy11 · 2014年05月17日 · 最后由 feng88724 回复于 2017年03月23日 · 6960 次阅读

google 了一下,好像都说用的 nlpbamboo? 但看了 PostgreSQL 分词函数 (不需要 TSearch2 支持) 从源代码安装 Bamboo 感觉好像有点复杂,而且有人说这个项目两年多没人维护了,会影响吗?

另一篇文章提到中文分词和 TF-IDF,里面这些会用吗?

我前两天看了《七周七数据库》中的 postgreSQL 那章。貌似其实就是需要给它一个中文词典就够了? 这个中文词典哪来?指的就是上面的 nlpbamboo 之类吗?

大家都用什么?

注:看到两篇不错的文章 PostgreSQL 的全文检索 (一) PostgreSQL 的中文全文检索 (二) PostgreSQL 8.3 以上的中文全文索引使用介绍 PostgreSQLFTI 与中文全文索引的实践

一个个都试过来不就知道了

#1 楼 @bhuztez 喂,虽然我的问题都很烂,但我觉得你的回答也都不怎么高明耶!

#2 楼 @chairy11 你的问题就出在太聪明上。我的答案是很蠢。但是对于你现在的情况来说,确实是个好答案。

#2 楼 @chairy11 不得不说 @bhuztez 的答案是正解,当你面对多种方案而无所适从的时候,每一个方案都跑一遍,自然就找到最适合自己的了。别人说什么方案好,顶多就是适合他们自己而已,给你多个选择而已。诚然,这的确非常费时间……

中文分词还是用库吧,数据库自带的怕是不给力。。。。

http://www.elasticsearch.org/

你是想研究分词还是做出应用?

我 早就 覺得 中文 應該 這樣 寫。讀 起來 也 方便,很多 歧義 也 可以 消除,還 天然 分詞。

#2 楼 @chairy11 B 大 的 方法 是 對的,當然 你 來 問問 也 沒有 錯,換了 我 也 會 來 問 的,不過 我 可能 會 邊 問 邊 實驗。

#9 楼 @blacktulip 我 赞同 你 的 观点。

#6 楼 @Rei 额,我想用 pg_search 做中文全文探索,然后我听说要先做中文分词,然后我就各种扫,理解一下概念……现在还是没什么概念…… 你说这个我听说过,貌似是要单独配置一台服务器什么的很麻烦,不如用 PG 自带的 full text search, 所以我才换的 PG……

中文本是天然分词的。现在这问题完全是倡导白话文的那帮脑残惹出来的。

#5 楼 @pynix 弱弱的问下,什么库?额,那个,给个链接啥的好不好?

#7 楼 @blacktulip 哈哈哈哈,你 好 幽默……

#12 楼 @bhuztez 那 你 爲啥 還 在 用 白話文?

#15 楼 @blacktulip 我也被他们带成脑残了

#5 楼 @pynix 结巴分词。github.search :jieba

你们 够了!

哈 哈 哈 哈,谷歌 搜 到 这 贴子,太 欢乐 了!

这么 欢乐 的 帖子,得 挖出来。

需要 登录 后方可回复, 如果你还没有账号请 注册新账号