跳转到主要内容

Documentation Index

Fetch the complete documentation index at: https://docs.brightdata.com/llms.txt

Use this file to discover all available pages before exploring further.

正在构建 AI 初创公司?

您可能符合我们的初创计划资格。获得本文所介绍基础设施的全额资助访问权限(最高价值 $20,000)。

AI 模型的训练数据:技术指南

获取高质量、大规模的训练数据是 AI 工程师面临的关键挑战。本指南提供了 Bright Data 基础设施的全面技术概述,用于构建和管理数据采集管道,旨在帮助您做出明智决策并快速开始。

技术快速参考

特性规格
数据格式JSONNDJSONCSVXLSXParquet。在 API 请求中指定您所需的格式。
身份验证所有 API 请求都使用 bearer 令牌进行身份验证。在 Authorization 标头中包含您的 API 密钥。
数据新鲜度存档: 历史数据。预收集: 每天、每周或每月更新。自定义: 按需、近实时。
合规性符合 GDPR、CCPA 和 SOC2。我们遵守所有数据收集的严格伦理框架。查看我们的 信任中心
开发者工具我们为 PythonJavascript 提供 SDK。
免费试用注册并获得测试平台的抵用额。在购买前下载任何数据集的样本。

数据采集策略

您的数据采集策略取决于您的模型需求。选择最适合您使用场景的方法,从基础训练到专门的实时数据收集。
最适合: 基础、大规模的模型训练。Web 存档提供对拍字节级规模历史网络数据存储库的访问,是训练需要全面了解数字世界的大型语言模型和扩散模型的理想来源。

数据交付

一旦收集到数据,可以将其交付到各种目标位置,以与您现有的云基础设施无缝集成。 支持的交付选项:
  • Amazon S3
  • Google Cloud Storage
  • Microsoft Azure Storage
  • Webhook
  • SFTP/FTP
  • Snowflake
  • API 下载
有关设置您首选交付方法的详细说明,请参阅我们的 交付选项文档