Documentation Index
Fetch the complete documentation index at: https://docs.brightdata.com/llms.txt
Use this file to discover all available pages before exploring further.
正在构建 AI 初创公司?
您可能符合我们的初创计划资格。获得本文所介绍基础设施的全额资助访问权限(最高价值 $20,000)。
AI 模型的训练数据:技术指南
获取高质量、大规模的训练数据是 AI 工程师面临的关键挑战。本指南提供了 Bright Data 基础设施的全面技术概述,用于构建和管理数据采集管道,旨在帮助您做出明智决策并快速开始。技术快速参考
| 特性 | 规格 |
|---|---|
| 数据格式 | JSON、NDJSON、CSV、XLSX 和 Parquet。在 API 请求中指定您所需的格式。 |
| 身份验证 | 所有 API 请求都使用 bearer 令牌进行身份验证。在 Authorization 标头中包含您的 API 密钥。 |
| 数据新鲜度 | 存档: 历史数据。预收集: 每天、每周或每月更新。自定义: 按需、近实时。 |
| 合规性 | 符合 GDPR、CCPA 和 SOC2。我们遵守所有数据收集的严格伦理框架。查看我们的 信任中心。 |
| 开发者工具 | 我们为 Python 和 Javascript 提供 SDK。 |
| 免费试用 | 注册并获得测试平台的抵用额。在购买前下载任何数据集的样本。 |
数据采集策略
您的数据采集策略取决于您的模型需求。选择最适合您使用场景的方法,从基础训练到专门的实时数据收集。- Web 存档
- 预收集数据集
- 自定义收集
- 视频和媒体
数据交付
一旦收集到数据,可以将其交付到各种目标位置,以与您现有的云基础设施无缝集成。 支持的交付选项:- Amazon S3
- Google Cloud Storage
- Microsoft Azure Storage
- Webhook
- SFTP/FTP
- Snowflake
- API 下载