webscraper 常用 CSS 伪类(不定期更新)

webscraper 常用 CSS 伪类(不定期更新)
在 Webscraper 抓取过程中,会遇到想获取第几个或者多个标签的需求。下面整理一些 Web Scraper 常用的 css 伪类。 1. 选择首个元素 :nth-of-type(1) 使用 :nth-of-type(1) 获取首个元素。 示例 span:nth-of-type(1) 匹配第一个 <span> 元素 对应 html 标签 ……继续阅读 »

tesths 2个月前 (08-03) 949浏览 0评论 7个赞

Web Scraper 抓取多条链接

Web Scraper 抓取多条链接
在 Web Scraper 使用过程中,会遇到抓取多条链接的情况。 比如需要抓取 http://www.google.com http://www.google.com.hk http://www.google.co.jp http://www.google.co.kr 的搜索结果。 在这四个页面当中,实际显示的结构都一样,只是网址不一样,遇到这种情况该怎么……继续阅读 »

tesths 3个月前 (06-22) 1046浏览 0评论 5个赞

Web Scraper 抓取列表详细内容

Web Scraper 抓取列表详细内容
Web Scraper 抓取列表二级页面内容 在使用 Web Scraper 的过程中,有时候会通过 Link 标签抓取二级页面,而在使用 Element scroll down 或者是 Element click 抓取时,Web Scraper 会一直抓取下去,这导致无法进入二级页面抓取内容。那么如何解决呢? 这里提供两个解决方案。 方案一:断网后重新连接……继续阅读 »

tesths 5个月前 (05-03) 901浏览 2评论 2个赞

webscraper 常用正则表达式

webscraper 常用正则表达式
Web Scraper 常用正则表达式 在 Webscraper 抓取过程中,有些复杂的数据需要根据获得的 HTML 进行正则表达式的匹配。下整理几个常用的正则表达式。 1、匹配几个连续字符之后 (?<=(字符)).* 1.1 示例 1 (?<=(\//)).* 1.2 示例 2 (?<=(</em>)).* 2、匹配字符之……继续阅读 »

tesths 6个月前 (04-02) 973浏览 0评论 6个赞

如何获取微信公众号文章列表

如何获取微信公众号文章列表
如何获取微信公众号文章列表 如果要使用 Web Scraper 获取微信公众号的所有文章的话,需要解决一个问题:  如何让公众号历史文章列表在浏览器显示。   方案 1 使用合适版本的 PC 微信打开 在 PC 上,只有固定版本的微信才能在浏览器上打开公众号文章列表,而且 Mac 和 windows 上的微信打开方式不同。 Mac 版本的微信下载地……继续阅读 »

tesths 9个月前 (12-19) 1335浏览 4评论 3个赞

Web Scraper 如何停止抓取

Web Scraper 如何停止抓取
Web Scraper 如何停止抓取 使用 webscraper 抓取数据的过程中,如果发现数据太多,不想抓了,或者只想抓其中几页,如何操作,才能将一件抓取到的数据保留下来?   方法一:断网 操作步骤 ——  如果你抓到中途,不想抓了,还想保留已经抓到的数据,断开网络。 如果你是 WiFi ,就关闭无限网络。 如果是有线,就断开有线网卡。 断……继续阅读 »

tesths 9个月前 (12-19) 1097浏览 1评论 4个赞