<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0">
  <channel>
    <title>lingjoin (lingjoin)</title>
    <link>https://ruby-china.org/lingjoin</link>
    <description></description>
    <language>en-us</language>
    <item>
      <title>分享：500W 条 NLPIR twitter 内容语料库</title>
      <description>&lt;p&gt;NLPIR twitter 内容语料库说明 &lt;/p&gt;

&lt;p&gt;1.NLPIR twitter 内容语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士，通过公开采集抽取从 twitter 中获得。为了推进微博计算的研究，现通过自然语言处理与信息检索共享平台予以公开共享其中的 500 万条数据（目前已有数据接近 1 亿，已经剔除了大量的冗余与机器信息）&lt;/p&gt;

&lt;p&gt;2.本语料库在公开过程中，已经最大限度地采用技术手段屏蔽了用户真实姓名和 url，如果涉及到的用户需要全面保护个人隐私的，可以 Email 给张华平博士 kevinzhang@bit.edu.cn 予以删除，对给您造成的困扰表示抱歉，并希望谅解；&lt;/p&gt;

&lt;p&gt;3.只适用于科研教学用途，不得作为商用；引用本语料库，恭请在软件或者论文等成果特定位置表明出处为：NLPIR twitter 内容语料库，出处为自然语言处理与信息检索共享平台 (&lt;a href="http://www.nlpir.org/" rel="nofollow" target="_blank"&gt;http://www.nlpir.org/&lt;/a&gt;)。&lt;/p&gt;

&lt;p&gt;4.字段格式说明： &lt;/p&gt;

&lt;p&gt;语料为 mongodb 导出的 json 格式，大约 500 万条 Twitter 数据（其中过滤了部分敏感的 Twitter 状态，占 7% 左右），每行为一个 json 对象，对象中一共有三个字段，分别是 user_id      用户的 id，我们对语料包中 Twitter 的用户名进行隐藏操作，取而代之的则是一个标记用户的 int 值 id&lt;/p&gt;

&lt;p&gt;text         这条 Twitter 状态的内容 &lt;/p&gt;

&lt;p&gt;created_at   此条 Twitter 状态所发布的时间，为距离格林尼治时间 1970 年 1 月 1 日 0 时开始所经过的秒数 &lt;/p&gt;

&lt;p&gt;可以运行以下命令，直接使用 mongodb 自带的导入程序导入到 mongodb mongoimport -d &amp;lt;数据库名&amp;gt; -c tweets tweets.utf8 &lt;/p&gt;

&lt;p&gt;下载地址： &lt;a href="http://vdisk.weibo.com/s/yW3j3" rel="nofollow" target="_blank"&gt;http://vdisk.weibo.com/s/yW3j3&lt;/a&gt;   (解压缩密码，请关注微博 NLPIR 官方微博  &lt;a href="http://weibo.com/bigdatasearch" rel="nofollow" target="_blank"&gt;http://weibo.com/bigdatasearch&lt;/a&gt;，私信获取。) &lt;/p&gt;</description>
      <author>lingjoin</author>
      <pubDate>Sat, 27 Apr 2013 13:56:22 +0800</pubDate>
      <link>https://ruby-china.org/topics/10569</link>
      <guid>https://ruby-china.org/topics/10569</guid>
    </item>
  </channel>
</rss>
