还是 cygwin 吧,板子折腾不起虚拟机。记得买个蓝牙键盘。
学习了。 不过建议把第一段代码下面的"方法"改成"写法",method 也是方法,这样的话会混淆起来,让读者云里雾里。
说到底用 ruby 只是方便调用而已。 可以用 mahout 啊什么的生成识别器模型(不过是一堆数值而已)之后,用 ruby 来读取识模型和需要分类的数据进行判断。
#6 楼 @cisolarix 没学过写代码什么规范。等踏上社会再等慢慢被调教了。
为什么不把数组转换成 activerecord 类型。比如我有一个包含了很多 post 的 id 的数组,需要的是 post 的 activerecord 类型,那么可以这样。
#ids: array of id
@posts=Post.where(:id=>ids)
打个酱油。
require "mechanize"
# ruby aichen.rb pagenmber
url="http://www.aisex.com/bt/thread.php?fid=14&page="
page_num=ARGV[0]
agent=Mechanize.new
agent.user_agent_alias = 'Windows IE 9'
file="pics/"
page=agent.get(url+page_num)
file=file+page_num+"/"
page.links_with(:text => /\[\d+P\]/).each do |link|
puts link.href
imgcount=0
next_page=link.click
subfile=next_page.at('h1#subject_tpc').content
puts subfile
next_page.images_with(:src => /jpg/).each do |img|
puts img.url
begin
img.fetch.save(file+subfile+"/"+imgcount.to_s+".jpg")
rescue
puts "can not get this one"
end
imgcount+=1
end
end
在 windows 上装需要扩展支持的库就是活折腾。最好的解决方法就是放弃在 windows 上使用 ruby。 另外 nokogirl 这个名字不错哈哈。
想起以前写过把某城贴图区黄图爬下来的脚本
只看了前三个问题就感觉是在泛泛而谈。
硕二路过。喜欢 ruby 的话觉得可以当副业。主业还是自己研究生专攻的方向吧。
要动态加载的首先基于机器学习的一些工具自然是不怎么容易上手了。当然也没那么容易入手。 至于几种常见的 lucene 切词工具 Paoding<ik<<<<<smartcn Paoding 词库基本已经没有更新,当然也没必要更新。最近的一次更新应该是兼容 solr.4xx 自定义词典什么的就是个普通的文本文件而已。不过每次修改之后需要重新封装。具体忘了。解决方法肯定是有的就是了
ruby,python 这些之所以被称为胶水语言,在机器学习的实装方面也是,使用 ruby 仅仅是为了把几个用其他语言写成的模块拼凑起来。另外 ruby 处理字符串比较方便。我喜欢这点。真正纯 ruby 实现基本上是蛋疼。现在一些无监督的学习,我喜欢用 ruby 和 R 合体来搞。一些有监督的学习,比如序列标注,线性回归之类的,我习惯用现有的工具 + 自己写的 ruby 的 wrapper 来实现。
直接讲最简单的方法
step1. 中文分词
step2.构建单词 - 文档向量。比如说 text1(我们,都,码农……) text2(苹果,3 块钱,一斤…) 这种。
step3.对 2 中构建的向量使用聚类算法。比如 k-means 什么的。
建议直接看 k-means,具体实现可以用 R 也可以用 mahout 的库什么的。当然实装能力强的也可以自己写……
很多时候你认为这只是一个算法,其实特么算法才是最次要。
感谢指点。问题已经解决。果断扔了 redcarpet 改用 kramdown。kramdown 把 latex 给 markup 起来了,调用 mathjax 的 api 把 render 的事情交给浏览器去做。
顺便测试一下 ruby-china 的公式编辑功能
$$ E=MC^2 $$
Dir.glob('F:/data/*.abc').{
|abc| system ("C:/Program Files/WinRAR/WinRAR.exe a #{abc} #{abc}")
}
这样呢。|abc|是变量直接在单引号中使用显然会被当然普通字符串
改成用一个双引号括住全部?是不是单引号不转义的原因