正在构建 AI 初创公司?
您可能符合我们的初创计划资格。获得本文所介绍基础设施的全额资助访问权限(最高价值 $20,000)。
haystack-brightdata Python 包是 Bright Data 的官方 Haystack 集成,包括对以下功能的支持:
- Bright Data 网页爬虫 - 从 45+ 个支持的网站提取结构化数据,包括 Amazon、LinkedIn、Instagram、Facebook、TikTok、YouTube 等,使用 Bright Data 的数据集 API。
- Bright Data SERP - 查询搜索引擎(Google、Bing、Yahoo),支持地理定位和语言自定义,获取实时搜索结果。
- Bright Data Unlocker - 访问地理限制和机器人保护的网站,绕过验证码和反机器人措施,以多种格式提取内容。
如何使用 Haystack 集成 Bright Data
获取您的 Bright Data API 密钥
- 登录您的 Bright Data 仪表板。
- 进入 账户设置。
- 生成 API 密钥(如果您还没有的话)。
RAG 管道示例
产品数据 RAG 管道
构建一个检索增强生成 (RAG) 管道,使用 Bright Data 从 Amazon 提取产品数据并回答有关产品的问题:SERP + 网页内容 RAG 管道
使用 SERP API 查找相关网页,然后使用 Web Unlocker 提取内容用于 RAG 管道:支持的数据集
BrightDataWebScraper 组件支持 45+ 个数据集,涵盖多个类别:
| 类别 | 数据集 |
|---|---|
| 电子商务 | amazon_product, amazon_product_reviews, amazon_product_search, walmart_product, walmart_seller, ebay_product, homedepot_products, zara_products, etsy_products, bestbuy_products |
| linkedin_person_profile, linkedin_company_profile, linkedin_job_listings, linkedin_posts, linkedin_people_search | |
| instagram_profiles, instagram_posts, instagram_reels, instagram_comments | |
| facebook_posts, facebook_marketplace_listings, facebook_company_reviews, facebook_events | |
| TikTok | tiktok_profiles, tiktok_posts, tiktok_shop, tiktok_comments |
| YouTube | youtube_profiles, youtube_videos, youtube_comments |
| 搜索与商务 | google_maps_reviews, google_shopping, google_play_store, apple_app_store, zillow_properties_listing, booking_hotel_listings |
| 商业智能 | crunchbase_company, zoominfo_company_profile |
| 其他 | github_repository_file, yahoo_finance_business, x_posts, reddit_posts |
用例
Bright Data 的 Haystack 集成支持强大的用例:- 电子商务智能: 价格监测、产品数据提取和竞争分析
- 社交媒体分析: 跨平台的内容监测和参与度分析
- 商业智能: 公司研究和竞争格局分析
- 搜索分析: 具有地理定位搜索结果的 SEO/SEM 研究
- 内容聚合: 使用实时网页数据构建 RAG 管道
- 市场研究: 访问地理限制内容��行全球研究