• 智能AI问答!更聪明、更完整、原创作!
  • 一款基于GPT的超级AI机器人,可以回答问题、聊天、创作、写文案!

推荐 6 个高质量数据集(覆盖 4 个方向),按‘名称-规模-获取链接-加载代码’整理,要求引用数≥50”

发布于 2025-12-08 16:59:29

以下是按您要求涵盖不同领域的6个高质量数据集,每个数据集的引用数都大于50,并提供了获取链接以及加载代码的示例:

  1. 数据集名称:MNIST手写数字识别数据集

    • 规模:包含70000张灰度图片(60000训练集+10000测试集)
    • 获取链接MNIST Data
    • 加载代码
      import tensorflow as tf
      mnist = tf.keras.datasets.mnist
      (x_train, y_train), (x_test, y_test) = mnist.load_data()
  2. 数据集名称:IMDB电影评论情感分析数据集

    • 规模:50000个电影评论(25000积极的和25000消极的评论)
    • 获取链接IMDB Dataset
    • 加载代码
      from tensorflow.keras.datasets import imdb
      vocab_size = 10000
      (train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=vocab_size)
  3. 数据集名称:UCI机器学习库-成人收入数据集

    • 规模:约50,000条记录,包含14个属性
    • 获取链接UCI Machine Learning Repository
    • 加载代码
      import pandas as pd
      data_url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data'
      income_df = pd.read_csv(data_url, header=None, sep=',\s', na_values=["?"], engine='python')
  4. 数据集名称:CIFAR-10图像识别数据集

    • 规模:60000张32x32彩色图像,分为10个类别
    • 获取链接CIFAR-10 and CIFAR-100 datasets
    • 加载代码
      import torchvision
      dataset = torchvision.datasets.CIFAR10(root='./data', download=True)
      data_loader = torch.utils.data.DataLoader(dataset, batch_size=4, shuffle=True)
  5. 数据集名称:Google Speech Commands语音命令数据集

    • 规模:超过100k个wave音频文件,涵盖30种不同的语音命令

    • 获取链接Speech Commands

    • 加载代码

      # 由于涉及音频文件,这是一个加载音频数据集的一般性的伪代码例子
      import os
      import librosa
      
      def load_audio_files(audio_dir):
          audio_files = os.listdir(audio_dir)
          data = []
          for file in audio_files:
              path = os.path.join(audio_dir, file)
              audio, sr = librosa.load(path)
              data.append((audio, sr))
          return data
  6. 数据集名称:COCO图像识别数据集

    • 规模:330,000张图像,其中2014年有82个对象类别,2017年为91个
    • 获取链接COCO Dataset
    • 加载代码
      import pycocotools.coco as coco
      from pycocotools.cocoeval import COCOeval
      annoFile = '/path/to/instances_val2017.json'
      coco = coco.COCO(annoFile)
      imgIds = coco.getImgIds()
      for id in imgIds[:5]: # 只处理前5张图片
          img = coco.loadImgs(id)[0]

这些数据集覆盖了图像识别、自然语言处理及计算机视觉等多个方向,且因为被广泛使用,所以引用数都非常高。在使用任何数据集之前,请确保遵循其相应的许可协议。

0 条评论

发布
问题

在线
客服