跳转到主要内容
一套全面的 CrewAI 工具集,利用 Bright Data 强大的基础设施来执行网页抓取、数据提取和搜索操作。这些工具提供三种不同的能力:

BrightDataDatasetTool

使用预构建的数据集,从热门数据源(Amazon、LinkedIn、Instagram 等)中提取结构化数据。

BrightDataSearchTool

通过多种搜索引擎执行网页搜索,并支持地理定位和设备模拟。

BrightDataUnlockerAPITool

在绕过机器人防护机制的情况下抓取任意网站内容。

开始使用的步骤

要有效使用 Bright Data 工具,请按照以下步骤操作:
1

获取 Bright Data API 密钥

2

安装 Bright Data 集成

通过以下命令安装 CrewAI 的 Bright Data 集成包,以及 aiohttprequests
pip install crewai[tools] aiohttp requests
3

设置环境变量

将你的 Bright Data API 密钥设置为环境变量:
export BRIGHT_DATA_API_KEY="your_api_key_here"
export BRIGHT_DATA_ZONE="your_zone_here"
4

选择你需要的 Bright Data 工具

Bright Data + CrewAI 集成目前支持以下工具:
# Dataset Tool - 提取 Amazon 商品数据
from crewai_tools import BrightDataDatasetTool

# 使用特定 dataset 和 URL 初始化
tool = BrightDataDatasetTool(
    dataset_type="amazon_product",
    url="https://www.amazon.com/dp/B08QB1QMJ5/"
)
result = tool.run()

结论

通过将 Bright Data 工具集成到你的 CrewAI 代理中,你可以获得企业级的网页抓取和数据提取能力。这些工具能够处理复杂的挑战,如机器人防护、地理限制和数据解析,让你专注于构建自己的应用程序,而无需管理抓取基础设施。