研究人员建立数据集用于训练AI以从社交媒体图像中检测自然灾害

时间：2020-08-31 10:42:41

本周，加利福尼亚州和墨西哥湾沿岸各州的人们经历了历史性自然灾害的影响。所谓的气候变化迹象都是独特的：加利福尼亚的大火是由数百次雷击引发的，创造了该州历史上最大的一些大火，而劳拉飓风对路易斯安那州的袭击比150年来的任何飓风都更为严重。

为了协助人道主义团体和第一响应者，人工智能研究人员创建了事件数据集，他们将其称为有史以来最大的组装数据集，用于检测人们在Flickr和Twitter等社交媒体平台上共享的事故和自然灾害。事件数据集的创建者表示，他们希望这会刺激创建利用计算机视觉识别自然灾害并为人道主义组织和紧急应变人员举报事件的AI。

“事件”数据集包含110万张图像，涵盖了从车祸到火山喷发的43类事故或自然灾害。图片包含位置标签，以及海滩，桥梁，森林或房屋。一纸有关的事件数据将于本周公布的欧洲会议计算机视觉(ECCV)的一部分。

我们的数据集比任何其他与事件检测相关的可用数据集都更大，更完整，更多样化，从而能够训练出能够检测野外事件的强大模型。

“ 事件”数据集包含近447,000张标记为事故或自然灾害的图像和697,000张未标记为任何事故或自然灾害的图像。数据集由麻省理工学院，卡塔尔计算研究所和西班牙加泰罗尼亚的欧贝塔大学的研究人员收集。照片是从Google图片搜索中获得的，并由Mechanical Turk员工标记。只有在达到85%的准确度后，才能接受带有标签的图像。

研究人员指出，标为负片的图像对于建立稳健的模型至关重要。我们可以观察到，在训练过程中不使用分类否定词，该模型就无法区分壁炉和着火房屋之间的差异，也无法检测出由于事故导致自行车破损的时间。

为了测试事件的有效性，研究人员使用该数据集训练卷积神经网络，并在Twitter上发现地震和洪水的平均精度为77%。该实验包括分析来自五次地震和两次洪水的900,000张Twitter照片。数据创建的AI能够识别将近100万张Twitter照片中的地震和洪水，其平均精度分别约为74%和89%。

研究人员还用4000万个带有地理标签的Flickr图像进行了实验，以分析地震和火山爆发的紧急事件检测。他们发现AI能够识别地震和火山事件的位置。

如今，存在各种AI模型来识别自然灾害及其影响。除了天气预报模型外，还有AI可以预测印度恒河何时发生洪水，或者点燃后山火如何蔓延;用于检测野火何时开始使用卫星图像，尽管卫星可能被烟雾或云遮挡;用于评估水灾和火灾的损失。人工智能系统可以通过人们在社交媒体上使用的词语来识别自然灾害，但很少能从社交媒体上共享的图像中检测灾难。在接下来的几个月中，美国联邦机构将引入完整的ASAPS数据集，以刺激创建可自动检测警察，火灾或医疗紧急情况的AI工具从社交媒体照片和视频实时获取。事件数据集论文的一些共同作者于2017年在Twitter上推出了一种用于分析自然灾害的AI系统，但它只能识别三种灾害。