在 Web Scraper 抓取过程中,经常遇到需要获取数字的情况。下面以抓取携程酒店介绍为例,说明如何在 Web Scraper 中使用正则表达式来匹配数字。
前言
本文使用的 sitemap 如下,可导入 sitemap 后根寻教程一步一步进行实践操作。
{"_id":"ctrip","startUrl":["https://hotels.ctrip.c……继续阅读 »
tesths
1年前 (2019-11-24) 2764浏览 0评论
24个赞
在 Webscraper 抓取过程中,会遇到想获取第几个或者多个标签的需求。下面整理一些 Web Scraper 常用的 css 伪类。
1. 选择首个元素 :nth-of-type(1)
使用 :nth-of-type(1) 获取首个元素。
示例
span:nth-of-type(1) 匹配第一个 <span> 元素
对应 html 标签
……继续阅读 »
tesths
2年前 (2019-08-03) 2181浏览 0评论
10个赞
webscraper 常用正则表达式
在 Webscraper 抓取过程中,有些复杂的数据需要根据获得的 HTML 进行正则表达式的匹配。下整理几个常用的正则表达式。
可以在 https://regexr.com/ 进行正则表达式的测试。
1、匹配几个连续字符之后
(?<=(字符)).*
1.1 示例
(?<=(</em>)).*
……继续阅读 »
tesths
2年前 (2019-04-02) 2481浏览 0评论
11个赞