分享 分享:500W 条 NLPIR twitter 内容语料库

lingjoin · 2013年04月27日 · 最后由 lidashuang 回复于 2013年04月27日 · 3647 次阅读

NLPIR twitter 内容语料库说明

1.NLPIR twitter 内容语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士,通过公开采集抽取从 twitter 中获得。为了推进微博计算的研究,现通过自然语言处理与信息检索共享平台予以公开共享其中的 500 万条数据(目前已有数据接近 1 亿,已经剔除了大量的冗余与机器信息)

2.本语料库在公开过程中,已经最大限度地采用技术手段屏蔽了用户真实姓名和 url,如果涉及到的用户需要全面保护个人隐私的,可以 Email 给张华平博士 [email protected] 予以删除,对给您造成的困扰表示抱歉,并希望谅解;

3.只适用于科研教学用途,不得作为商用;引用本语料库,恭请在软件或者论文等成果特定位置表明出处为:NLPIR twitter 内容语料库,出处为自然语言处理与信息检索共享平台 (http://www.nlpir.org/)。

4.字段格式说明:

语料为 mongodb 导出的 json 格式,大约 500 万条 Twitter 数据(其中过滤了部分敏感的 Twitter 状态,占 7% 左右),每行为一个 json 对象,对象中一共有三个字段,分别是 user_id 用户的 id,我们对语料包中 Twitter 的用户名进行隐藏操作,取而代之的则是一个标记用户的 int 值 id

text 这条 Twitter 状态的内容

created_at 此条 Twitter 状态所发布的时间,为距离格林尼治时间 1970 年 1 月 1 日 0 时开始所经过的秒数

可以运行以下命令,直接使用 mongodb 自带的导入程序导入到 mongodb mongoimport -d <数据库名> -c tweets tweets.utf8

下载地址: http://vdisk.weibo.com/s/yW3j3 (解压缩密码,请关注微博 NLPIR 官方微博 http://weibo.com/bigdatasearch,私信获取。)

这个 cool。。

cool, 可以搞个 weibo 的

需要 登录 后方可回复, 如果你还没有账号请 注册新账号