以下是按您要求涵盖不同领域的6个高质量数据集,每个数据集的引用数都大于50,并提供了获取链接以及加载代码的示例:
数据集名称:MNIST手写数字识别数据集
import tensorflow as tf
mnist = tf.keras.datasets.mnist
(x_train, y_train), (x_test, y_test) = mnist.load_data()
数据集名称:IMDB电影评论情感分析数据集
from tensorflow.keras.datasets import imdb
vocab_size = 10000
(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=vocab_size)
数据集名称:UCI机器学习库-成人收入数据集
import pandas as pd
data_url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data'
income_df = pd.read_csv(data_url, header=None, sep=',\s', na_values=["?"], engine='python')
数据集名称:CIFAR-10图像识别数据集
import torchvision
dataset = torchvision.datasets.CIFAR10(root='./data', download=True)
data_loader = torch.utils.data.DataLoader(dataset, batch_size=4, shuffle=True)
数据集名称:Google Speech Commands语音命令数据集
规模:超过100k个wave音频文件,涵盖30种不同的语音命令
获取链接:Speech Commands
加载代码:
# 由于涉及音频文件,这是一个加载音频数据集的一般性的伪代码例子
import os
import librosa
def load_audio_files(audio_dir):
audio_files = os.listdir(audio_dir)
data = []
for file in audio_files:
path = os.path.join(audio_dir, file)
audio, sr = librosa.load(path)
data.append((audio, sr))
return data
数据集名称:COCO图像识别数据集
import pycocotools.coco as coco
from pycocotools.cocoeval import COCOeval
annoFile = '/path/to/instances_val2017.json'
coco = coco.COCO(annoFile)
imgIds = coco.getImgIds()
for id in imgIds[:5]: # 只处理前5张图片
img = coco.loadImgs(id)[0]
这些数据集覆盖了图像识别、自然语言处理及计算机视觉等多个方向,且因为被广泛使用,所以引用数都非常高。在使用任何数据集之前,请确保遵循其相应的许可协议。