编码环境和教程
探索使用网页抓取工具 IDE 的基本编码指令和最佳实践。 学习如何高效地进行导航、解析数据、与元素交互以及优化抓取任务。
IDE 交互代码
以下是您可以用 IDE 完成的所有代码
input
- 可用于交互代码的全局对象。由触发器 input
或 next_stage()
调用提供
navigate
- 将浏览器会话导航到 URL
url
: 所要导航到的 URL
navigate
选项
parse
- 解析页面数据
collect
- 向网络爬虫创建的数据集添加一行数据
data_line
: 含有您想采集的字段的对象validate_fn
: 用于验证行数据是否有效的可选函数
next_stage
- 使用指定的输入运行网络爬虫的下一阶段
input
: 所要传递给下一个浏览器会话的输入对象
rerun_stage
- 使用新的 input
再次运行此阶段的网络爬虫
input
: 所要传递给下一个浏览器会话的输入对象
run_stage
- 使用新的浏览器会话运行网络爬虫的特定阶段
input
: 所要传递给下一个浏览器会话的输入对象stage
: 将要运行哪个阶段(1 是第一阶段)
country
- 将您的抓取配置为从特定国家/地区运行
code
: 2 个字符的 ISO 国家/地区代码
wait
- 等待元素出现在页面上
selector
: 元素选择器opt
: 等待选项(参见示例)
wait_for_text
- 等待页面上的元素包含一些文本
selector
: 元素选择器text
: 所要等待的文本
click
- 点击一个元素(将等待该元素出现后再点击)
selector
: 元素选择器
type
- 在输入框中输入文本(将等待输入出现后再进行输入)
-
selector
: 元素选择器 -
text
: 所要等待的文本
select
- 从精选元素中选择一个值
selector
: 元素选择器
URL
- 来自 NodeJS
标准 “url” 模块的 URL
类
url
: URL 字符串
location
- 含有当前位置信息的对象. 可用字段: href
url
: URL 字符串
tag_response
- 保存浏览器请求的响应数据
name
: 标记字段的名称pattern
: 所要匹配的 URL 模式
response_header
- 返回最后一次页面加载的响应标头
console
- 来自交互代码的日志消息
load_more
- 滚动到列表底部,触发加载更多项目。适用于延迟加载的无限滚动网站
selector
: 元素选择器
scroll_to
- 滚动页面,从而使元素可见
$
- 类似 jQuery expressions 的助手
selector
: 元素选择器
IDE 解析器代码
以下是您可以用 IDE 完成的所有代码:
input
- 可用于解析器代码的全局变量
$
- 一个 cheerio 的实例
location
- 可用于解析器代码的全局变量。含有当前位置信息的对象