简介

采集和解析指令已删除。 数据将作为对象或阵列从解析器代码中返回,并将自动保存到输出中:

添加新的指令以提供对交互代码中数据的访问:tag_htmltag_requesttag_graphql

此外,更新一些现有指令:tag_responsetag_sitemaptag_all_responses。有关更多详情,请参见IDE 文档: https://docs.brightdata.com/cn/api-reference/web-scraper-ide-api

使用任何标记指令时,您可以提供自定义名称。 然后,您可以在解析器下的解析器代码中使用此名称访问数据。YOUR_KEY.

对于 tag_html,当前的浏览器位置 URL 将保存在解析器下。YOUR_KEY_url.

对于只需要一个 tag_html 的简单情况,可以跳过,它会自动保存在 parser.page 下。

有时,有必要在交互代码中获取经过解析的数据并用其发出请求。查看操作示例:

多个结果

若要采集多个结果,可以从解析器代码返回阵列。

重新解析

重新解析是一项新功能,允许重新解析已采集的数据。 当您想在不重新运行整个交互代码的情况下更改解析器代码时,它可能十分有用:

next_stage and rerun_stage

当抓取工具有多个步骤时,解析器代码仅在最后一步中可用。所有其他步骤只能有 next_stage 调用。若要解析页面中的某些内容,应使用 load_html

基本的 PDP 抓取工具

多重导航示例

多个 tag_response