网页抓取工具 IDE
完整的网页抓取工具 IDE 示例
探索使用网页抓取工具 IDE 进行网页抓取的全面示例,包括交互代码,解析、处理多个结果以及高级技术。
简介
采集和解析指令已删除。 数据将作为对象或阵列从解析器代码中返回,并将自动保存到输出中:
添加新的指令以提供对交互代码中数据的访问:tag_html
、tag_request
、tag_graphql
此外,更新一些现有指令:tag_response
、tag_sitemap
、tag_all_responses
。有关更多详情,请参见IDE 文档: https://docs.brightdata.com/cn/api-reference/web-scraper-ide-api
使用任何标记指令时,您可以提供自定义名称。 然后,您可以在解析器下的解析器代码中使用此名称访问数据。YOUR_KEY
.
对于 tag_html
,当前的浏览器位置 URL
将保存在解析器下。YOUR_KEY_url
.
对于只需要一个 tag_html
的简单情况,可以跳过,它会自动保存在 parser.page
下。
有时,有必要在交互代码中获取经过解析的数据并用其发出请求。查看操作示例:
多个结果
若要采集多个结果,可以从解析器代码返回阵列。
重新解析
重新解析是一项新功能,允许重新解析已采集的数据。 当您想在不重新运行整个交互代码的情况下更改解析器代码时,它可能十分有用:
next_stage
and rerun_stage
当抓取工具有多个步骤时,解析器代码仅在最后一步中可用。所有其他步骤只能有 next_stage
调用。若要解析页面中的某些内容,应使用 load_html
: