什么是 ParseHub?

ParseHub 是一款用户友好且功能强大的网页抓取工具,彻底改变了从网络中提取数据的方式。其直观的设计使用户能够轻松与复杂网站交互,处理 AJAX 和 JavaScript 元素,并浏览表单和无限滚动页面,而无需编写任何代码。
通过将 Bright Data 代理与 ParseHub 集成,用户可获得无与伦比的优势,轻松应对最具挑战性的数据抓取任务。这一组合不仅能确保高效的数据抓取,还能提供高度的隐私和安全性,是专业人士寻求全面数据收集能力的理想解决方案。

Bright Data 代理:助力您的 ParseHub 体验

将 Bright Data 代理 与 ParseHub 集成,可彻底改变您的网页抓取能力,为数据提取任务带来更高的效率和可靠性。以下是 Bright Data 代理解决方案为何是 ParseHub 强大抓取功能的理想搭配:

广泛的代理网络

  • 全球覆盖:访问 72,000,000+ IP 地址,遍布各个地区,确保您可以抓取任何地理位置的数据。
  • 多样化的代理类型:提供住宅代理、数据中心代理、静态住宅代理和移动代理,以满足不同抓取项目的需求。

增强的匿名性与安全性

  • 强大隐私保护:防止抓取活动被检测和拦截,确保操作匿名性。
  • 安全数据收集:借助 Bright Data 的高级安全措施,放心抓取敏感数据。

高性能与高可靠性

  • 极速与高效:即使面对复杂、依赖 JavaScript 的网站,也能实现快速高效的数据抓取。
  • 稳定的连接性:凭借 Bright Data 稳定的代理基础设施,减少中断,保持一致的抓取性能。

多功能且可扩展的解决方案

  • 适用于多种使用场景:无论是市场调研、网页抓取、SEO 分析,还是竞争情报收集,Bright Data 代理均能满足各种抓取需求。
  • 可扩展性:轻松扩展抓取操作,处理大规模数据,而不会影响速度或准确性。

用户友好的集成方式

  • 简单的设置:无论您的技术水平如何,都可轻松将 Bright Data 代理集成到 ParseHub。
  • 全面的支持:Bright Data 提供详尽的文档和客户支持,确保顺利完成集成过程。

如何集成 ParseHub 代理:

1

注册 Bright Data

  1. 注册后,进入 Bright Data 仪表板
  2. 导航至“代理和抓取基础设施”部分
  3. 添加 一个新的专用 Zone 以供代理使用。

ph-add-zone-2.png

代理管理界面,显示活动代理和添加按钮

2

选择代理类型

在本示例中,我们将演示如何设置 ISP 代理。

ph-proxy-types.png

代理和抓取基础设施仪表板,显示各种选项

3

命名代理解决方案

ph-select-ip-type.png

选择 IP 类型的表单,显示已选择专用选项

4

选择 IP 数量

填写所需的 IP 数量。

ph-number-of-ips-1.png

5

国家和城市选择

选择所需的 IP 位置的国家和城市。

ph-city-ip.png

针对美国和纽约市的地理定位选项

6

选择域名

使用特定域名,或选择“所有域名”以便一个 IP 可用于访问多个网站。

ph-domains.png

7

添加 Zone

点击“添加”按钮以创建 Zone。

ph-click-add.png

8

访问参数

点击您的 Zone 名称,导航到“访问参数”选项卡,并记录代理凭据:

ph-access-parameters.png

代理服务访问参数界面,显示主机和用户名

  1. host: brd.superproxy.io
  2. port: 33335
  3. username: your-zone-username
  4. password: your-zone-password
9

下载并安装 ParseHub

ph-parsehub.png

ParseHub 下载选项:Mac、Windows、Linux

  • 访问 ParseHub 官方网站,下载并安装适用于您的操作系统的 ParseHub 应用程序。
  • 启动 ParseHub,并创建新账户或登录现有账户。
10

创建新项目

点击 ParseHub 主页上的“+ 新项目”按钮。

ph-create-a-new-project.png

仪表板,显示项目创建和教程界面

11

使用 URL 启动新项目

输入您想要抓取数据的网址(例如 instagram.com),然后点击“在此 URL 上启动项目”。

ph-start-new-project.png

网页抓取工具界面,显示教程和说明

12

导航到 ParseHub 代理配置

切换到浏览器模式,滑块变绿表示已启用浏览模式。

ph-broswer-mode.png

Instagram 登录页面,显示图片预览

13

设置

打开浏览器界面右上角的设置,然后点击“选项”。

ph-open-settings.png

Instagram 网页,显示手机屏幕模拟工具

14

访问高级网络设置

选择“高级”选项卡。

ph-advanced-network-settings.png

15

点击“网络”选项卡

在“连接”部分选择“设置”。

ph-connection-settings.png

浏览器设置和错误消息界面

16

配置手动代理设置

在网络设置中,选择“手动代理配置”。

ph-configure-manual-settings.png

在浏览器选项中配置手动代理设置

17

代理设置

在 HTTP 代理字段中输入 Bright Data 代理 URL brd.superproxy.io,端口设为 33335

ph-proxy-and-port.png

浏览器窗口中的代理配置设置截图

18

切换到 SOCKS v4 并点击 OK

切换到 SOCKS v4 后,点击“OK”按钮。

ph-switch-to-socks.png

浏览器选项窗口中配置代理设置

19

代理 Zone 凭据

输入您的代理 Zone 凭据,这些信息可以在您的代理 Zone 访问参数中找到。

ph-access-param-parsehub.png

计算机屏幕上的密码身份验证弹出窗口

20

格式化代理配置

  • 按以下格式填写您的代理信息:IPAddress:Port:Username:Password:Realm。
  • 对于 Bright Data 代理,格式如下:
    brd.superproxy.io:33335:brd-customer-hl_******-zone-isp_proxy6:b1s*****:Luminati

应用已配置的代理到 ParseHub 项目:

  • 导航至 ParseHub 项目设置。

ph-project-settings.png

Instagram 网页,显示设置菜单

21

启用自定义代理

勾选“轮换 IP 地址”以启用“自定义代理”文本框。

ph-custom-proxies.png

Instagram 抓取工具界面,显示数据提取

22

自定义代理字段

将格式化后的代理粘贴到“自定义代理”字段中。对于多个代理,每行输入一个。

ph-custom-proxies-field.png

Instagram 界面,显示用户对话和登录页面

23

保存您的项目设置

保存后,使用 Bright Data 代理运行项目。

ph-save-project.png

Instagram 登录页面,显示手机消息界面

重要提示

如果您使用 Bright Data 的住宅代理、Web Unlocker 或 SERP API,则需要安装 SSL 证书,以启用与目标网站的端到端安全连接。

这个过程很简单,请参阅本指南了解安装说明。