分享：500W 条 NLPIR twitter 内容语料库

lingjoin — Sat, 27 Apr 2013 13:56:22 +0800

NLPIR twitter 内容语料库说明

1.NLPIR twitter 内容语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士，通过公开采集抽取从 twitter 中获得。为了推进微博计算的研究，现通过自然语言处理与信息检索共享平台予以公开共享其中的 500 万条数据（目前已有数据接近 1 亿，已经剔除了大量的冗余与机器信息）

2.本语料库在公开过程中，已经最大限度地采用技术手段屏蔽了用户真实姓名和 url，如果涉及到的用户需要全面保护个人隐私的，可以 Email 给张华平博士 kevinzhang@bit.edu.cn 予以删除，对给您造成的困扰表示抱歉，并希望谅解；

3.只适用于科研教学用途，不得作为商用；引用本语料库，恭请在软件或者论文等成果特定位置表明出处为：NLPIR twitter 内容语料库，出处为自然语言处理与信息检索共享平台 (http://www.nlpir.org/)。

4.字段格式说明：

语料为 mongodb 导出的 json 格式，大约 500 万条 Twitter 数据（其中过滤了部分敏感的 Twitter 状态，占 7% 左右），每行为一个 json 对象，对象中一共有三个字段，分别是 user_id 用户的 id，我们对语料包中 Twitter 的用户名进行隐藏操作，取而代之的则是一个标记用户的 int 值 id

text 这条 Twitter 状态的内容

created_at 此条 Twitter 状态所发布的时间，为距离格林尼治时间 1970 年 1 月 1 日 0 时开始所经过的秒数

可以运行以下命令，直接使用 mongodb 自带的导入程序导入到 mongodb mongoimport -d <数据库名> -c tweets tweets.utf8

下载地址： http://vdisk.weibo.com/s/yW3j3 (解压缩密码，请关注微博 NLPIR 官方微博 http://weibo.com/bigdatasearch，私信获取。)

lingjoin (lingjoin)

分享：500W 条 NLPIR twitter 内容语料库