
开放数据集
- Sep 21,2025
- 2
- 0
数据集是机器学习、深度学习和数据分析的重要基础,是训练的语料。上次我们分享了公共数据平台,这次我们收集了一些开放数据集平台和资源供您参考。
OpenDataLab开源数据集
链接:https://opendatalab.com/
OpenDataLab 是一个专注于大模型训练数据集的平台,提供多种领域的高质量数据集。
AWS亚马逊开源数据集
链接:https://registry.opendata.aws/
AWS 提供了一个开源数据集注册表,涵盖气候、基因组学、交通等领域,适合大规模数据处理。
微软开源数据集
链接:https://www.microsoft.com/en-us/research/tools/
Enron Email
类型:自然语言处理
网址:https://www.cs.cmu.edu/~./enron/
谷歌开源数据集 Google Dataset Search
链接:https://datasetsearch.research.google.com/
Google 提供了一个数据集搜索引擎,可以快速找到来自不同领域的公开数据集。
数据集搜索https://www.selectdataset.com
Kaggle(https://www.kaggle.com)
Kaggle比较全面,各类型数据都有涉及,提供了丰富的开源数据集,涵盖计算机视觉、自然语言处理、金融、医疗等多个领域。用户可以直接下载数据集并参与相关的机器学习竞赛。
UCI开源数据集
链接:https://archive.ics.uci.edu/datasets
比较全面,各类型数据都有涉及
计算机视觉开源数据集
链接:https://visualdata.io/discovery
GitHub开源数据集 GitHub Awesome Public Datasets
链接:https://github.com/awesomedata/awesome-public-datasets
GitHub 上的 Awesome Public Datasets 是一个社区维护的资源列表,包含多个领域的开源数据集。
魔搭社区ModelScope开源数据集
链接:https://modelscope.cn/datasets
LUGE千言开源数据集
链接:https://www.luge.ai
专注于中文自然语言处理的数据集。
Dataju聚数力开源数据集
链接:http://dataju.cn/Dataju/web/home
技术论文arXiv
https://arxiv.org
FindData:https://www.findata.cn
DataCite Commons : https://commons.datacite.org/doi.org
MendeleyData: https://data.mendeley.com
DataONE : https://search.dataone.org/data
Harvard Dataverse: https://dataverse.harvard.edu
MagicHub开源社区:https://magichub.com
Papers with Code :https://paperswithcode.com
DataHub :https://datahub.com
data.public.lu:https://data.public.lu
data.gov:https://catalog.data.gov/dataset
data.europa:https://data.europa.eu
百度飞桨开源数据集AI_Studio链接:https://aistudio.baidu.com/datasetoverview
Opendata cern:opendata.cern.ch
PANGAEA:https://www.pangaea.de
极市:https://www.cvmart.net/dataSets
Roboflow:https://universe.roboflow.com
IEEE:https://ieee-dataport.org/datasets
Stanford Large Network
类型:大型网络数据集
网址:http://snap.stanford.edu/data
Stanford CoreNLP
类型:情感分析数据
网址:http://nlp.stanford.edu/sentiment/code.html
Stanford movie reviews
类型:大型电影评论数据
网址:http://ai.stanford.edu/~amaas/data/sentiment
Stanford Amazon reviews
类型:亚马逊评论数据
网址:https://snap.stanford.edu/data/web-Amazon.html
GBIF: https://www.gbif.org/dataset/search
阿里云天池开源数据集
https://tianchi.aliyun.com
HuggingFace开源数据集
链接:https://huggingface.co/datasets
镜像:https://hf-mirror.com/datasets
HuggingFace 提供了大量与自然语言处理和大模型相关的数据集,支持直接加载和使用。
北京智源研究院InfoSeek数据集,这个数据集训练的30亿参数模型,在深度研究任务上表现与Gemini/Sonnet 4.0相当。
Hugging Face数据集:https://huggingface.co/datasets/Lk123/InfoSeek
GitHub代码库:https://github.com/VectorSpaceLab/InfoSeek
Hyper超神经开源数据集
链接:https://hyper.ai/datasets
BAAI开源数据集
链接:https://data.baai.ac.cn/data
payititi帕衣提提开源数据集
链接:https://www.payititi.com/opendatasets
启智开源数据集
链接:https://openi.pcl.ac.cn/explore/datasets
和鲸社区开源数据集
链接:https://www.heywhale.com/home/dataset
ImageNet
类型:计算机视觉数据
网址:http://image-net.org
MS COCO
类型:计算机视觉数据
网址:http://mscoco.org
HotspotQA
类型:自然语言处理
网址:https://hotpotqa.github.io
百度Apolloscapes
类型:自动驾驶
网址:http://apolloscape.auto
Berkeley DeepDrive
类型:自动驾驶
网址:http://bdd-data.berkeley.edu
Robotcar
类型:自动驾驶
网址:http://robotcar-dataset.robots.ox.ac.uk
Quandl
类型:金融与经济数据集
网址:https://www.quandl.com/
WorldBank
类型:金融与经济数据集
网址:https://data.worldbank.org
IMF
类型:金融与经济数据集
网址:https://www.imf.org/en/Data
Markets
类型:金融与经济数据集
网址:https://markets.ft.com/data
Google Trends
类型:金融与经济数据集
网址:http://www.google.com/trends?q=google&ctab=0&geo=all&date=all&sort=0
US Macro Regional
类型:金融与经济数据集
网址:https://www.aeaweb.org/resources/data/us-macro-regional
Google Audioset
类型:语音数据集
网址:https://research.google.com/audioset
2000 HUB5 English
类型:语音数据集
网址:https://catalog.ldc.upenn.edu/LDC2002T43
LibriSpeech
类型:语音数据集
网址:http://www.openslr.org/12/
T-LESS数据集
类型:目标检测
数量:39000
数据集下载地址:http://cmp.felk.cvut.cz/t-less
说明:
T-LESS 是被用于无纹理对象检测和 6D 姿态估计的 RGB-D 数据集,其被用于无纹理刚体对象 6D 姿态的估计。
这套数据集拥有 30 个不同行业的对象,由于没有明显的纹理、可辨别的颜色和反射特性,因此物体在形状和尺寸上表现出对称性和相似性。
该数据集还包括利用三个同步传感器捕获的训练图像,数据源包括结构光、RGB-D 传感器和高分辨率相机,每个传感器有大约 39k 的训练图像以及 10k 的测试图像。
H²O 行人交互检测数据集
类型:目标检测
数量:10300
数据集下载地址:https://kalisteo.cea.fr/wp-content/uploads/2021/12/README_H2O.html
说明:
H²O由V-COCO数据集中的10301张图像组成,其中添加了3635张图像,这些图像主要包含人与人之间的互动。所有的H²O图像都用一种新的动词分类法进行了注释,包括人与物和人与人之间的互动。该分类法由51个动词组成,分为5类。
SpotGarbage垃圾识别数据集
类型:目标检测
数量:2560
数据集下载地址:https://github.com/spotgarbage/spotgarbage-GINI
说明:
图像中的垃圾(GINI)数据集是SpotGarbage引入的一个数据集,包含2561张图像,956张图像包含垃圾,其余的是在各种视觉属性方面与垃圾非常相似的非垃圾图像。
上海科技大学人群统计数据集
类型:目标检测
数量:1198
数据集下载地址:https://github.com/desenzhou/ShanghaiTechDataset
说明:
上海科技数据集是一个大规模的人群统计数据集。它由1198张带注释的群组图像组成。
数据集分为两部分,A部分包含482张图像,B部分包含716张图像。A部分分为训练和测试子集,分别由300和182张图像组成。B部分分为400和316张图像组成的序列和测试子集。群组图像中的每个人都有一个靠近头部中心的点进行注释。总的来说,该数据集由33065名带注释的人组成。A部分的图像是从互联网上收集的,而B部分的图像是在上海繁忙的街道上收集的。
Caltech人脸数据库
类型:人脸
数量:10,524
数据集下载地址:http://www.vision.caltech.edu/Image_Datasets/Caltech_10K_WebFaces/#Description
说明:
该数据集包含通过在谷歌图片搜索中输入常见的名字从网络上收集的人的图像。每个正面的眼睛、鼻子和嘴巴中心的坐标在地面实况文件中提供。此信息可用于对齐和裁剪人脸或作为人脸检测算法的基本事实。该数据集有 10,524 个不同分辨率和不同设置的人脸,例如 肖像图像、人群等。侧面或非常低分辨率的面孔未标记。
RMFD口罩遮挡人脸数据集
类型:人脸
数量:90000
数据集下载地址:https://github.com/X-zhangyang/Real-World-Masked-Face-Dataset
说明:
RMFRD目前是世界上最大的真实口罩遮挡人脸数据集。
提出了三种类型的口罩遮挡人脸数据集,包括口罩遮挡人脸检测数据集(MFDD),真实口罩遮挡人脸识别数据集(RMFRD)和模拟口罩遮挡人脸识别数据集(SMFRD)。
这些数据集可供工业界和学术界免费使用,基于这些数据集,可以开发口罩遮挡人脸的各种应用。
(1) 真实口罩人脸识别数据集:从网络爬取样本,经过整理、清洗和标注后,含525人的5千张口罩人脸、9万正常人脸。
(2) 模拟口罩人脸识别数据集: 给公开数据集中的人脸戴上口罩,得到1万人、50万张人脸的模拟口罩人脸数据集。
(3)真实口罩人脸验证数据集,包括426个人的4015张人脸图像,组合成3589对相同身份和3589对不同身份的人脸样本对(口罩人脸/正常人脸)。
Top1000的Github存储库数据集
类型:文本识别
数据集下载地址:https://www.kaggle.com/datasets/anshulmehtakaggl/top-1000-github-repositories-for-multiple-domains
说明:
关于 Github 上的 1000 个最受欢迎的关键字存储库的详尽数据
衣服数据集
类型:图像分类
数量:5000
数据集下载地址:https://www.kaggle.com/datasets/agrigorev/clothing-dataset-full
说明:
衣服数据集总共收集了 20 种衣服的 5,000 张图像。该数据集是根据公共领域许可 (CC0) 发布的。
数据集包含 20 个类,包括T 恤(1011 件),长袖(699 件),裤子(692 件),鞋子(431 件)衬衫(378 件),连衣裙(357 件),外套(312 件),短裤(308 件),帽子(171 件),裙子(155 件),西装外套(109 件)等。
用特殊标志“孩子”标记了儿童服装的图像:是童装(476 项),不是童装(4927 项)。
商标数据集
类型:图像分类
数量:167,140
数据集下载地址:https://github.com/msn199959/Logo-2k-plus-Dataset
说明:
构建了一个大规模的 logo 数据集 Logo-2K+,它涵盖了来自真实世界 logo 图像的各种 logo 类别。 我们生成的徽标数据集包含 167,140 张图像,具有 10 个根类别和 2,341 个类别。
飞机数据集
类型:图像分类
数量:10000
数据集下载地址:https://www.kaggle.com/datasets/seryouxblaster764/fgvc-aircraft
说明:
数据集包含 10,000 张飞机图像,数据分为 3334 个训练图像、3333 个验证图像和 3333 个测试图像。 飞机模型按四级层次结构组织。 四个层次,从细到粗,分别是:
型号,例如 波音 737-76J。 由于某些模型在视觉上几乎无法区分,因此在评估中不使用此级别。
变体,例如 波音 737-700。 一个变体将所有在视觉上无法区分的模型折叠成一个类。 该数据集包含 100 个不同的变体。
家庭,例如 波音 737。该数据集包含 70 个不同的家族。
制造商,例如 波音。 该数据集包含 41 个不同的制造商。
磁瓦缺陷数据集
类型:缺陷检测
数据集下载地址:https://gitcode.net/mirrors/abin24/Magnetic-tile-defect-datasets.?utm_source=csdn_github_accelerator
说明:
中国科学院自动所一个课题组收集的数据集,是“Saliency of magnetic tile surface defects”这篇论文的数据集。收集了6种常见磁瓦缺陷的图像,并做了语义分割的标注。
RSDDs铁轨表面缺陷数据集
类型:缺陷检测
数量:200
数据集下载地址:http://icn.bjtu.edu.cn/Visint/resources/RSDDs.aspx
说明:
RSDDs数据集包含两种类型的数据集:第一种是从快车道捕获的I型RSDDs数据集,其中包含67个具有挑战性的图像。第二个是从普通/重型运输轨道捕获的II型RSDDs数据集,其中包含128个具有挑战性的图像。
两个数据集的每幅图像至少包含一个缺陷,并且背景复杂且噪声很大。
RSDDs数据集中的这些缺陷已由一些专业的人类观察员在轨道表面检查领域进行了标记。
印刷电路板(PCB)瑕疵数据集
类型:缺陷检测
数量:1386
数据集下载地址:https://robotics.pkusz.edu.cn/resources/dataset/
说明:
这是一个公共的合成PCB数据集,由北京大学发布,其中包含1386张图像以及6种缺陷(缺失孔,鼠咬坏,开路,短路,杂散,伪铜),用于检测,分类和配准任务。
COVID-19 胸部CT图像增强GAN数据集
类型:医学影像
数量:742
数据集下载地址:https://www.kaggle.com/datasets/mloey1/covid19-chest-ct-image-augmentation-gan-dataset?resource=download-directory
说明:
新冠肺炎胸部CT扫描数字图像。共有742个CT图像和2个类别(COVID/NonCOVID)。
3D-IRCADB脏器分割数据集
类型:医学影像
数量:20
数据集下载地址:https://www.ircad.fr/research/data-sets/liver-segmentation-3d-ircadb-01/
说明:
3D-IRCADb-01 数据库由 10 名女性和 10 名男性 75% 的肝肿瘤患者的 3D CT 扫描组成。 20个文件夹对应20个不同的患者,可以单独下载也可以联合下载。下表提供了图像信息,例如肝脏大小(宽度、深度、高度)或根据 Couninaud 分割的肿瘤位置。它还表明肝脏分割软件可能遇到的主要困难是由于与邻近器官的接触、肝脏的非典型形状或密度,甚至图像中的伪影。
Kumar肿瘤数据集
类型:医学影像
数据集下载地址:https://monuseg.grand-challenge.org/Data/
说明:
这一数据集是通过仔细注释几名患有不同器官肿瘤并在多家医院被诊断出的患者的组织图像获得的。该数据集是通过从TCGA存档下载以 40 倍放大倍率捕获的 H&E 染色组织图像创建的。H&E 染色是增强组织切片对比度的常规方案,通常用于肿瘤评估(分级、分期等)。考虑到多个器官和患者的细胞核外观的多样性,以及多家医院采用的丰富染色方案,训练数据集将能够开发出开箱即用的稳健且可推广的细胞核分割技术。
FASCICLE 小腿肌肉超声数据集
类型:医学影像
数量:812
数据集下载地址:https://kalisteo.cea.fr/index.php/fallmud/
说明:
FAscicle 小腿肌肉超声数据集是一个由 812 幅小腿肌肉超声图像组成的数据集,用于分析肌肉弱点并预防受伤。该数据集在文章 AW-Net:B 型超声图像上的自动肌肉结构分析以预防伤害中进行了介绍。它结合了由 Ryan Cunningham 等人发表的两篇文章“使用卷积、残差和反卷积神经网络从 B 模式超声图像中估计全区域骨骼肌纤维方向”提供的数据集。
PanNuke癌组织细胞数据集
类型:医学影像
数据集下载地址:https://jgamper.github.io/PanNukeDataset/
说明:
半自动生成的细胞核实例分割和分类数据集,包含 19 种不同组织类型的详尽细胞核标签。该数据集由 481 个视野组成,其中 312 个视野是从多个数据源的 20K 多个不同放大倍率的整张幻灯片图像中随机采样的。该数据集总共包含 205,343 个标记的核,每个核都有一个实例分割掩码。在 pannuke 上训练的模型可以帮助整个幻灯片图像组织类型分割,并推广到新组织。PanNuke 演示了首批成功半自动生成的数据集之一。
用于洪水后场景理解的高分辨率航空影像数据集https://ieeexplore.ieee.org/document/9460988
我要点评