推特灾难文本,LSTM如何改写为长尾?
- 内容介绍
- 文章标签
- 相关推荐
本文共计2224个文字,预计阅读时间需要9分钟。
Twitter数据部公开,作者:Yunfan Zhang。Twitter是一家美国社交网络及微博客服务的网站,致力于服务公众对话。截至目前,Twitter的日活跃用户达1.86亿。与此同时,Twitter也已成为突发事件的急先锋。
拓端数据部落公众号
作者:Yunfan Zhang
Twitter是一家美国社交网络及微博客服务的网站,致力于服务公众对话。迄今为止,Twitter的日活跃用户达1.86亿。与此同时,Twitter也已成为突发紧急情况时人们的重要沟通渠道。由于智能手机无处不在,人们可以随时随地发布他们正在实时观察的紧急情况。 因此,越来越多的救灾组织和新闻机构对通过程序方式监视Twitter产生了兴趣。但是,我们并不清楚一个用户在推特上发布的推文是否是真实的正在发生的灾难。举个例子,用户发送了“从正面看昨晚的天空,好像在燃烧一样。”作者明确使用了“ABLAZE”一词,但仅仅是为了形容火烧云,并非真正的火焰燃烧。这对于人类来说是显而易见的,但是对于机器来说便很难分辨该用户是否正在预告真实发生的火灾。
解决方案
任务/目标
建立一个预测推文发布灾难真实性的机器学习模型,该模型可以预测哪些推文发布的是真实发生的灾难,哪些是虚假的灾难,从而为相关组织网络监测灾难发生及救援提供帮助。
数据源准备
数据集中包含的列:
列名 解释
id 每条推文的唯一标识符
text 推特的内容
location 推文发送的位置(可以为空白)
keyword 推文中的特定关键字(可以为空白)
target 仅在train.csv中存在,表示推文中描述灾难的真假,真实为1,虚假为0
其中,测试集包含7613个样本,训练集包含3263个样本。
本文共计2224个文字,预计阅读时间需要9分钟。
Twitter数据部公开,作者:Yunfan Zhang。Twitter是一家美国社交网络及微博客服务的网站,致力于服务公众对话。截至目前,Twitter的日活跃用户达1.86亿。与此同时,Twitter也已成为突发事件的急先锋。
拓端数据部落公众号
作者:Yunfan Zhang
Twitter是一家美国社交网络及微博客服务的网站,致力于服务公众对话。迄今为止,Twitter的日活跃用户达1.86亿。与此同时,Twitter也已成为突发紧急情况时人们的重要沟通渠道。由于智能手机无处不在,人们可以随时随地发布他们正在实时观察的紧急情况。 因此,越来越多的救灾组织和新闻机构对通过程序方式监视Twitter产生了兴趣。但是,我们并不清楚一个用户在推特上发布的推文是否是真实的正在发生的灾难。举个例子,用户发送了“从正面看昨晚的天空,好像在燃烧一样。”作者明确使用了“ABLAZE”一词,但仅仅是为了形容火烧云,并非真正的火焰燃烧。这对于人类来说是显而易见的,但是对于机器来说便很难分辨该用户是否正在预告真实发生的火灾。
解决方案
任务/目标
建立一个预测推文发布灾难真实性的机器学习模型,该模型可以预测哪些推文发布的是真实发生的灾难,哪些是虚假的灾难,从而为相关组织网络监测灾难发生及救援提供帮助。
数据源准备
数据集中包含的列:
列名 解释
id 每条推文的唯一标识符
text 推特的内容
location 推文发送的位置(可以为空白)
keyword 推文中的特定关键字(可以为空白)
target 仅在train.csv中存在,表示推文中描述灾难的真假,真实为1,虚假为0
其中,测试集包含7613个样本,训练集包含3263个样本。

