#6 楼 @placeintime 是的。
你在哪啊?地球这么小呢。。
#4 楼 @qiaoqinqie python golang 技能绝对可以啊。。。remote 免了,沟通成本太高。
哈哈,你还不如到我锅里来呢。。来厦门吧,这里没有雾霾。。https://ruby-china.org/topics/31759
/home/changwu/.rvm/gems/ruby-2.0.0-p0/gems/nlpir-0.0.3-x86-linux/lib/nlpir.rb:177:in to_s': NULL pointer given (ArgumentError)
from /home/changwu/.rvm/gems/ruby-2.0.0-p0/gems/nlpir-0.0.3-x86-linux/lib/nlpir.rb:177:in
NLPIR_ParagraphProcess'
from split_words.rb:11:in `
代码如下:
#encoding : utf-8
require 'nlpir'
include Nlpir
s = "坚定不移沿着中国特色社会主义道路前进 为全面建成小康社会而奋斗"
#first of all : Call the NLPIR API NLPIR_Init
NLPIR_Init(nil, UTF8_CODE , File.expand_path("../", __FILE__))
#example1: Process a paragraph, and return the result text with POS or not
puts puts NLPIR_ParagraphProcess("1989年春夏之交的政治风波1989年政治风波24小时降
雪量24小时降雨量863计划ABC防护训练APEC会议BB机BP机C2系统C3I系统C3系统C4ISR系统C4I系统CCITT建议")
page.body.force_encoding("ASCII-8BIT").force_encoding("utf-8") 这样就 ok 了。
#38 楼 @freebird0221 谢谢。。。能否告知哪个群啊??因为数据可能明年就上亿了,后年几亿没有问题,怕到时候有很大的问题。所以想先知道一下有没有什么坑。。
ES 2-3 亿应该没有问题吧??
#1 楼 @wppurking 请教一下,如果 10 亿 document 的量级性能如何?
#9 楼 @vus520 Anemone 好像是整站爬。 如果定向爬网站,建议参考https://github.com/hooopo/direct_web_spider自己做一个。我们基于这个框架做了一阵,马马虎虎对付过去了。 不过上述框架都很久没有维护了,还是自己搞一个吧。mechanize+nokogirl 可以搞定一切。
赞一个。。
很牛的开源,第一时间学习了。。
支持一下。。。厦门 Rubyist 还真是不多。 不过,受我的影响有三个人喜欢上了 ruby,也用过实际项目。。 希望能多交流。 btw:群管理员应保持在线时间啊。。。 #3 楼 @linjunpop
真想卖的话就卖给我啊。
贝叶斯是基于样本密度的,SVM 是基于平面划分的。准确率没有什么好比较的,关键是特征值要选好,模型要训练好。用过 libsvm,感觉效果和速度都可以,推荐使用。
#101 楼 @gazeldx 我比较认同巴菲特的投资,持股时间要长一点。偶的炒股史就是辛酸史啊,现在没有兴趣再碰这块,倒是认为互联网还存在很大的机会,比较认同创业,创业的风险比炒股要小。
#102 楼 @linktoming 自动化交易是很牛 x 的技术,我觉得很有前途。
06 年开户至今,已远离股市 2 年了。痛啊,学费交了不少。
是不是 double 250 的意思??
是不是来晚了??[email protected]
+1
#11 楼 @doitian #2 楼 @wppurking
beanstalkd 在高并发时慢啊。。
情况是这样的:一个进程单线程 push jobs,总共 80w 左右,10 个进程 200 个线程 get jobs,服务器 4*4 核。96G 内存。感觉是 push jobs 很慢。
是不是我哪里不对啊?我怀疑是 200 个线程做轮询访问 beanstalk 使其变慢。但又不知道怎么去找出到底哪里慢。
请帮我分析分析啊。。