为什么在 LlamaIndex 中使用 Bright Data?
Bright Data 工具提供以下功能:网页抓取
网页抓取
scrape_as_markdown
抓取网页并将内容转换为 Markdown 格式。该工具可以绕过 CAPTCHA 和反爬虫检测。
网页截图
网页截图
get_screenshot
截取网页并保存到文件。
搜索引擎访问
搜索引擎访问
search_engine
搜索 Google、Bing 或 Yandex,并以 JSON 或 Markdown 格式获取结构化搜索结果。支持高级参数以进行更具体的搜索。
结构化网页数据提取
结构化网页数据提取
web_data_feed
从多个平台获取结构化数据,包括 LinkedIn、Amazon、Instagram、Facebook、X (Twitter)、Zillow 等。
高级配置
高级配置
Bright Data 工具为特殊用例提供多种配置选项:
搜索引擎参数
search_engine 函数支持高级参数,例如:- 语言定向(
language参数) - 国家/地区搜索(
country_code参数) - 不同搜索类型(图片、购物、新闻等)
- 分页控制
- 移动设备模拟
- 地理位置定向
- 酒店搜索参数
支持的网页数据源
web_data_feed 函数支持从以下平台获取结构化数据:- LinkedIn(个人资料和公司)
- Amazon(产品和评价)
- Instagram(个人资料、帖子、Reels、评论)
- Facebook(帖子、市场列表、公司评价)
- X/Twitter(帖子)
- Zillow(房产列表)
- Booking.com(酒店列表)
- YouTube(视频)
- ZoomInfo(公司资料)
如何将 Bright Data 与 LlamaIndex 集成?
1
获取 Bright Data API Key
- 登录您的 Bright Data 控制面板。
- 转到 账户设置。
- 如果尚未生成,请 生成 API Key。
2
安装
安装所需的包:
3
使用方法
以下示例展示如何在 LlamaIndex 中使用 BrightDataToolSpec: