Python技术分享

渐行渐远渐无书

思考

做一个 Request 的步骤是什么样的?

  1. 找到接口(动态数据或静态数据)
  2. 确定数据的请求方式(GET 获取、POST 提交)
  3. 检索请求参数请求头参数,查看表单数据是否存在加密内容
  4. 构建一个 headers (思考:如何验证正确的 headers)
  5. 发送请求
阅读全文 »

简介

  • Playwright 是微软在 2020 年初开源的新一代自动化测试工具,它的功能类似于 SeleniumPyppeteer 等,都可以驱动浏览器进行各种自动化操作。它的功能也非常强大,对市面上的主流浏览器都提供了支持,API 功能简洁又强大。虽然诞生比较晚,但是现在发展得非常火热。
  • 因为 Playwright 是一个类似 Selenium 一样可以支持网页页面渲染的工具,再加上其强大又简洁的 API,Playwright 同时也可以作为网络爬虫的一个爬取利器。
阅读全文 »

场景说明

平时在使用 Selenium 抓取网络数据的时候经常会遇到 Selenium 被网站识别的情况,从而导致获取不到有效的数据,那么该如何屏蔽网站对 Selenium 的识别,从而获取所需数据呢?

阅读全文 »

简介

使用 SFTP 部署 Hexo 项目,即:使用 SFTP 将 Hexo 生成的的静态文件 (public 目录) 上传到服务器。

阅读全文 »

简介

eval 混淆,其实就是利用了 eval() 函数的特性,它跟 Python 里的 eval 函数差不多,能把字符串解析成代码来执行。

阅读全文 »

  • feaplat 命名源于 feapder 与 platform 的缩写,读音: [ˈfiːplæt]
  • feaplat 是一个爬虫管理平台,支持任何 python 脚本,包括不限于 feapderscrapy
  • feaplat 支持浏览器渲染,支持有头模式。浏览器支持 playwrightselenium
阅读全文 »

简介

  • 协程:微线程,底层是通过是通过生成器(generator)完成
  • 使用场景:耗时操作,如:网络请求、网络下载(爬虫)、IO(文件读写)、阻塞
  • 目的:高效利用 CPU
  • 特点:与线程相比,协程的执行效率极高,因为只有一个线程,也不存在同时写变量的冲突,在协程中共享资源不加锁,只需要判断状态
阅读全文 »
0%