跳转到主要内容
一个由 Bright Data 企业级基础设施与智能自动检测功能驱动的全面网页抓取和数据提取插件。支持 50+ 平台,包括 Amazon、LinkedIn、Instagram、YouTube 等。
image
如需查看最新更新,请访问此 Repository

可用工具

Structured Data Feeds

从热门平台提取结构化数据:
  • 电商:Amazon、eBay、Walmart、Best Buy、Etsy、Zara
  • 社交媒体:Instagram、Facebook、TikTok、YouTube、X(Twitter)
  • 职场:LinkedIn 个人资料、公司、招聘信息
  • 商业:Crunchbase、ZoomInfo
  • 地图与评论:Google Maps、预订网站
  • 新闻:Reuters 和其他新闻来源

Scrape As Markdown

将任何网页转换为干净、可阅读的 markdown 格式,适用于:
  • 内容分析
  • 文档提取
  • 文章处理

Search Engine

从主要搜索引擎获取搜索结果:
  • Google
  • Bing
  • Yandex 等

使用场景

  • 电商监控:跟踪商品价格和库存
  • 潜在客户开发:从 LinkedIn 抓取商业信息
  • 内容研究:收集文章与新闻用于分析
  • 市场调研:监控竞争对手网站与社交媒体
  • SEO 分析:跟踪搜索结果与排名

如何将 Bright Data 与 Dify 集成

1

安装插件

Dify Marketplace 安装 Bright Data 插件
2

获取 Bright Data API 密钥

3

创建你的第一个工作流

  1. 进入 Dify StudioWorkflow
  2. 添加任意 Bright Data Web Scraper 工具:
  • Structured Data Feeds — 从 20+ 平台提取结构化数据
  • Scrape As Markdown — 将任意网页转换为干净 markdown
  • Search Engine — 从 Google、Bing、Yandex 获取搜索结果
  1. 在提示时输入你的 Bright Data API 密钥
  2. 你可以连接一个 LLM 节点 来处理并总结抓取的数据
4

示例工作流

请查看顶部横幅图片中的 workflow 示例
示例用例:提取 Amazon 商品信息并生成摘要
  1. START → 输入:商品 URL
  2. STRUCTURED DATA FEEDS → 提取商品详情
  3. LLM → 总结为易读文本
  4. END → 输出:干净的商品摘要

重要提示

  • 工作流中的每一步必须引用上一步的输出
  • 在输入字段中设置较高字符限制(URL 输入字段请选择 “short paragraph” 变量类型)

高级选项:使用 Bright Data MCP

虽然 Dify 的 Bright Data 插件使用托管 API,但高级用户也可以直接集成 Bright Data MCP(Model Context Protocol) —— 一个通过 HTTP 公开 Bright Data 全套抓取与自动化工具的本地服务器。 你可以在 Dify 中通过自定义 HTTP 请求或外部服务节点调用 MCP 工具,以解锁高级能力,例如浏览器自动化、结构化数据提取、实时抓取等。