什么是 ParseHub?

ParseHub 是一款用户友好且功能强大的网页抓取工具,彻底改变了从网络中提取数据的方式。其直观的设计使用户能够轻松与复杂网站交互,处理 AJAX 和 JavaScript 元素,并浏览表单和无限滚动页面,而无需编写任何代码。
通过将 Bright Data 代理与 ParseHub 集成,用户可获得无与伦比的优势,轻松应对最具挑战性的数据抓取任务。这一组合不仅能确保高效的数据抓取,还能提供高度的隐私和安全性,是专业人士寻求全面数据收集能力的理想解决方案。

Bright Data 代理:助力您的 ParseHub 体验

将 Bright Data 代理 与 ParseHub 集成,可彻底改变您的网页抓取能力,为数据提取任务带来更高的效率和可靠性。以下是 Bright Data 代理解决方案为何是 ParseHub 强大抓取功能的理想搭配:

广泛的代理网络

  • 全球覆盖:访问 72,000,000+ IP 地址,遍布各个地区,确保您可以抓取任何地理位置的数据。
  • 多样化的代理类型:提供住宅代理、数据中心代理、静态住宅代理和移动代理,以满足不同抓取项目的需求。

增强的匿名性与安全性

  • 强大隐私保护:防止抓取活动被检测和拦截,确保操作匿名性。
  • 安全数据收集:借助 Bright Data 的高级安全措施,放心抓取敏感数据。

高性能与高可靠性

  • 极速与高效:即使面对复杂、依赖 JavaScript 的网站,也能实现快速高效的数据抓取。
  • 稳定的连接性:凭借 Bright Data 稳定的代理基础设施,减少中断,保持一致的抓取性能。

多功能且可扩展的解决方案

  • 适用于多种使用场景:无论是市场调研、网页抓取、SEO 分析,还是竞争情报收集,Bright Data 代理均能满足各种抓取需求。
  • 可扩展性:轻松扩展抓取操作,处理大规模数据,而不会影响速度或准确性。

用户友好的集成方式

  • 简单的设置:无论您的技术水平如何,都可轻松将 Bright Data 代理集成到 ParseHub。
  • 全面的支持:Bright Data 提供详尽的文档和客户支持,确保顺利完成集成过程。

如何集成 ParseHub 代理:

1

注册 Bright Data

  1. 注册后,进入 Bright Data 仪表板
  2. 导航至“代理和抓取基础设施”部分
  3. 添加 一个新的专用 Zone 以供代理使用。

代理管理界面,显示活动代理和添加按钮

2

选择代理类型

在本示例中,我们将演示如何设置 ISP 代理。

代理和抓取基础设施仪表板,显示各种选项

3

命名代理解决方案

选择 IP 类型的表单,显示已选择专用选项

4

选择 IP 数量

填写所需的 IP 数量。

5

国家和城市选择

选择所需的 IP 位置的国家和城市。

针对美国和纽约市的地理定位选项

6

选择域名

使用特定域名,或选择“所有域名”以便一个 IP 可用于访问多个网站。

7

添加 Zone

点击“添加”按钮以创建 Zone。

8

访问参数

点击您的 Zone 名称,导航到“访问参数”选项卡,并记录代理凭据:

代理服务访问参数界面,显示主机和用户名

  1. host: brd.superproxy.io
  2. port: 33335
  3. username: your-zone-username
  4. password: your-zone-password
9

下载并安装 ParseHub

ParseHub 下载选项:Mac、Windows、Linux

  • 访问 ParseHub 官方网站,下载并安装适用于您的操作系统的 ParseHub 应用程序。
  • 启动 ParseHub,并创建新账户或登录现有账户。
10

创建新项目

点击 ParseHub 主页上的“+ 新项目”按钮。

仪表板,显示项目创建和教程界面

11

使用 URL 启动新项目

输入您想要抓取数据的网址(例如 instagram.com),然后点击“在此 URL 上启动项目”。

网页抓取工具界面,显示教程和说明

12

导航到 ParseHub 代理配置

切换到浏览器模式,滑块变绿表示已启用浏览模式。

Instagram 登录页面,显示图片预览

13

设置

打开浏览器界面右上角的设置,然后点击“选项”。

Instagram 网页,显示手机屏幕模拟工具

14

访问高级网络设置

选择“高级”选项卡。

15

点击“网络”选项卡

在“连接”部分选择“设置”。

浏览器设置和错误消息界面

16

配置手动代理设置

在网络设置中,选择“手动代理配置”。

在浏览器选项中配置手动代理设置

17

代理设置

在 HTTP 代理字段中输入 Bright Data 代理 URL brd.superproxy.io,端口设为 33335

浏览器窗口中的代理配置设置截图

18

切换到 SOCKS v4 并点击 OK

切换到 SOCKS v4 后,点击“OK”按钮。

浏览器选项窗口中配置代理设置

19

代理 Zone 凭据

输入您的代理 Zone 凭据,这些信息可以在您的代理 Zone 访问参数中找到。

计算机屏幕上的密码身份验证弹出窗口

20

格式化代理配置

  • 按以下格式填写您的代理信息:IPAddress:Port:Username:Password:Realm。
  • 对于 Bright Data 代理,格式如下:
    brd.superproxy.io:33335:brd-customer-hl_******-zone-isp_proxy6:b1s*****:Luminati

应用已配置的代理到 ParseHub 项目:

  • 导航至 ParseHub 项目设置。

Instagram 网页,显示设置菜单

21

启用自定义代理

勾选“轮换 IP 地址”以启用“自定义代理”文本框。

Instagram 抓取工具界面,显示数据提取

22

自定义代理字段

将格式化后的代理粘贴到“自定义代理”字段中。对于多个代理,每行输入一个。

Instagram 界面,显示用户对话和登录页面

23

保存您的项目设置

保存后,使用 Bright Data 代理运行项目。

Instagram 登录页面,显示手机消息界面

重要提示

如果您使用 Bright Data 的住宅代理、Web Unlocker 或 SERP API,则需要安装 SSL 证书,以启用与目标网站的端到端安全连接。

这个过程很简单,请参阅本指南了解安装说明。