自动驾驶英文从文本处理到自动驾驶：机器学习最常用的50大免费数据集

11月会员限时半价，下个月恢复原价188 开会员立即查看此资源以及本站全部资源，人工开通或售后问题加v：thumbxmw 详情点击这里查看

机器学习领域里有哪些开放数据集？Gengo 近日发布了一份高质量免费数据集列表，其搜索范围不仅包含内容广泛（如 Kaggle），也包括高度特化的（如自动驾驶汽车专用数据集）数据集种类。

首先自动驾驶英文，在选择数据集时要记住几个重要标准：

这样的话，让我们看看能找到点什么？

查找数据集

Kaggle：一个数据科学竞赛网站，其中包含大量外部贡献的有趣数据集。你可以在它长长的列表中（）找到各种小众数据集，从拉面的评分、篮球数据，到西雅图的宠物牌照。

UCI Machine Learning Repository：它是网络中最古老的数据集源之一自动驾驶英文，是寻找各种有趣数据集的第一选择。在这里，尽管数据集都是用户自行贡献的，但清洁程度仍然很高。此外，你可以直接从 UCI Machine Learning Repository 上下载数据，无需注册。

通用数据集

公共政府数据集

Data.gov：这个网站可以从多个美国政府机构下载数据，从政府预算到学校成绩。不过要注意：其中的大部分数据需要进一步研究。

Food Environment Atlas：包含有关本地食物选择如何影响美国饮食习惯的数据。

School system finances：美国学校系统财务状况调查。

斯堪尼亚重卡驾驶模拟自动退出_无限驾驶2车自动向右_自动驾驶英文

Chronic disease data：美国各地慢性病指标数据。

The US National Center for Education Statistics：美国和世界各地教育机构和教育人口统计数据。

The UK Data Centre：英国最大的社会、经济和人口数据收集。

Data USA：美国公共数据的全面可视化。

金融类

Quandl：很好的财经数据来源——有助于建立预测经济指标或股票价格的模型。

World Bank Open Data：涵盖人口统计和世界各地大量经济和发展指标的数据集。

IMF Data：国际货币基金组织公布有关国际金融、债务利率、外汇储备、商品价格和投资的数据。

Financial Times Market Data：世界金融市场的最新信息，包括股票价格指数、商品和外汇。

Google Trends：观察和分析有关互联网搜索活动和世界各地新闻故事趋势的数据。

AmericanEconomic Association (AEA)：寻找美国宏观经济数据的来源。

机器学习数据集

自动驾驶英文_无限驾驶2车自动向右_斯堪尼亚重卡驾驶模拟自动退出

图像

Labelme：注释图像的大数据集。

ImageNet：著名的 ImageNet，由斯坦福大学教授李飞飞等人发起，它是面向新算法的真实图像数据集。根据 WordNet 层次结构来组织，其中层次结构的每个节点都由成百上千个图像来描述。

LSUN：场景理解和许多辅助任务（房间布局估计、显著性预测等）。

MS COCO：ImageNet 之外另一个常用的图像数据集，包含通用图像理解和注释。

COIL100：100 个不同的物体在 360°旋转中以每个角度成像。

Visual Genome：非常详细的视觉知识库，配有约 100K 个图像的注释。

Google’s Open Images：Creative Commons 下的 900 万个图片的网址集合，「已经标注了跨越 6000 多个类别的标签」。

Labelled Faces in the Wild：13000 张贴有标签的人脸图像，用于开发涉及人脸识别的应用。

Stanford Dogs Dataset：包含 20580 个图像和 120 个不同品种的狗类别。

Indoor Scene Recognition：非常具体的数据集，适用于大多数场景识别模型，因为后者在「外部」表现更好。包含 67 个室内类别，总共 15620 个图像。

情感分析

自动驾驶英文_斯堪尼亚重卡驾驶模拟自动退出_无限驾驶2车自动向右

Multidomain Sentiment analysis dataset：有点旧的一个数据集，以亚马逊的产品评论为特色。

链接：~mdredze/datasets/sentiment/

IMDB reviews：用于二进制情感分类的较旧的、相对较小的数据集，具有 25000 个电影评论。

链接：~amaas/data/sentiment/

Stanford Sentiment Treebank：带有情感注释的标准情感数据集。

Sentiment140：一个流行的数据集，使用 16 万条预先删除表情符号的推文

Twitter US Airline Sentiment：2015 年 2 月以来美国航空公司的推特数据，分为正面、负面和中性。

自然语言处理

无限驾驶2车自动向右_自动驾驶英文_斯堪尼亚重卡驾驶模拟自动退出

Enron Dataset：Enron 公司高层管理人员的电子邮件数据，整理成文件夹。

链接：~./enron/

Amazon Reviews：包含来自亚马逊长达 18 年的约 3500 万条评论。数据包括产品和用户信息、评级和明文审查。

自动驾驶英文_无限驾驶2车自动向右_斯堪尼亚重卡驾驶模拟自动退出

Google Books Ngrams：Google 书籍中的词汇集合。

Blogger Corpus：从 blogger . com 收集的 681288 篇博客文章。每个博客至少包含 200 个常用英语单词。

链接：~koppel/BlogCorpus.htm

Wikipedia Links data：维基百科全文。数据集包含 400 多万篇文章中的近 19 亿字。你可以根据单词、短语或段落本身的一部分进行搜索。

Gutenberg eBooks List：古腾堡计划电子书注释清单。

链接：:Offline_Catalogs

Hansards text chunks of Canadian Parliament：加拿大第 36 届国会记录 130 万对文本。

Jeopardy：机智问答节目 Jeopardy 中存档的 20 多万个问题。

SMS Spam Collection in English：由 5574 条英文短信垃圾邮件组成的数据集

链接：~tiago/smsspamcollection/

Yelp Reviews：Yelp 发布的开放数据集包含 500 多万条评论。

UCI’s Spambase：大型垃圾邮件数据集，可用于垃圾邮件过滤。

链接： ()

无限驾驶2车自动向右_斯堪尼亚重卡驾驶模拟自动退出_自动驾驶英文

自动驾驶

斯堪尼亚重卡驾驶模拟自动退出_无限驾驶2车自动向右_自动驾驶英文

Berkeley DeepDrive BDD100k：目前最大的自动驾驶人工智能数据集。包含 100000 多段视频，内容涉及一天中不同时间和天气条件下 1100 多小时的驾驶体验。注释图像来自纽约和旧金山地区。

Baidu Apolloscapes：百度 Apollo 计划开放的大规模自动驾驶数据集。它定义了 26 个不同语义项目，如汽车、自行车、行人、建筑物、路灯等。

Comma.ai：7 小时以上的公路行驶体验。详细信息包括车速、加速度、转向角和 GPS 坐标。

Oxford’s Robotic Car：一年内在英国牛津同一条路线重复 100 多次的行驶。数据集捕捉天气、交通和行人的不同组合，以及建筑和道路工程等长期变化。

Cityscape Dataset：记录 50 个不同城市街道场景的大型数据集。

CSSAD Dataset：该数据集可用于自主车辆的感知和导航。数据集在发达国家的道路上出现严重偏差。

KUL Belgium Traffic Sign Dataset：比利时佛兰德区数以千计截然不同的超过 10000 个的交通标志标注。

链接：~timofter/traffic_signs/

MIT AGE Lab：在 AgeLab 收集的 1000 多个小时的多传感器驱动数据集样本。

LISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets：此数据集包括交通标志、车辆检测、交通灯和轨迹模式。

如果你知道本文中有哪些漏掉的重要数据集，欢迎留言补充。

限时特惠： 本站每日持续更新海量各大内部创业教程，加站长微信免费获取积分，会员只需38元，全站资源免费下载点击查看详情
站长微信： thumbxmw

声明：本站内容转载于网络，版权归原作者所有，仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任，若侵犯到你的版权利益，请联系我们，会尽快给予删除处理！

大数据文本分类机器学习

有事请咨询站长微信

关注公众号