Python技术分享

深入浅出学习Python

前言:

很多朋友玩腻了Windows系统都想体验一下苹果系统,不得不承认苹果电脑的Mac OS系统在安全性上比Windows系统高的不止一点两点,还有很多人性化的操作非常方便,这篇文章便可以让你体验到黑苹果的乐趣!💥

下载虚拟机:VMware Workstation Pro
下载黑苹果:链接: https://pan.baidu.com/s/11z6f0R8gMibbiPYTy7siCA 提取码: 2yst
下载Unlocker:3.0.7,密码:cder

阅读全文 »

简介

  • Crawlab 是基于Golang的分布式爬虫管理平台,支持多种编程语言以及多种爬虫框架。
  • 项目自 2019 年 3 月份上线以来受到爬虫爱好者们和开发者们的好评,超过一半的使用者表示已经在用 Crawlab 作为公司的爬虫管理平台。经过近数月的迭代,我们陆续上线了 定时任务数据分析可配置爬虫SDK消息通知Scrapy 支持Git 同步 等功能,将 Crawlab 打造得更加实用,更加全面,能够真正帮助用户解决爬虫管理困难的问题。
  • Crawlab 主要解决的是大量爬虫管理困难的问题,例如需要监控上百个网站的参杂scrapy和selenium的项目不容易做到同时管理,而且命令行管理的成本非常高,还容易出错。Crawlab 支持任何语言和任何框架,配合任务调度、任务监控,很容易做到对成规模的爬虫项目进行有效监控管理。
阅读全文 »

前言:

进入一些公司后,做完项目需要提交mr,这时如果不懂mr操作就会很尴尬😓。。。

  • master:主分支,用来版本发布,更新的最慢
  • develop:开发分支,保存正常开发的最新代码
  • dev:子开发分支,用于提交Merge Requests,和本地分支同步
  • local:本地分支,表示本地的临时添加新功能使用的分支,需要基于develop,然后需要合并到develop
阅读全文 »

前言:

在使用Python爬虫的过程中难免会遇到很多301,302的问题。他们出现时,很大程度的影响到我们的爬虫速度和信息的准确性。下面针对不同的模块给出不同的解决方案。

阅读全文 »

  • RSS(Really Simple Syndication)是一种用于发布和订阅网站内容的XML格式。它允许用户获取更新的内容,而无需访问网站本身。RSS通过提供简洁的摘要和链接,使用户能够快速浏览多个网站的最新信息。
  • RSS的工作原理是,网站所有者将其内容组织为RSS源,然后用户可以使用RSS阅读器订阅这些源。当源中的内容发生更新时,阅读器会自动获取最新的内容,并将其显示给用户。这样,用户就可以通过一个集中的阅读器查看多个网站的更新,而无需逐个访问这些网站。
  • RSS源通常包含文章标题、摘要、发布日期和链接等信息。用户可以通过阅读器将感兴趣的文章保存下来,随时阅读。RSS还支持分类和标签,以帮助用户组织和筛选内容。
阅读全文 »

前言:

有时候想要将新内容去重后写入文件,发现直接用以下代码并不能有效去重,这是为什么呢?

1
2
3
with open('poem.txt', 'a+', encoding='utf8') as fp:
if str(item) not in fp.read():
fp.write(str(item) + '\n')
阅读全文 »

前言:

写作帮助文档是一种为写作过程提供指导和支持的文档。它旨在帮助作者更好地组织思维、表达观点和撰写文稿。

阅读全文 »

前言:

  • 今天用Pyhton做爬虫的时候,需要用上xpath,我已经用pip安装了lxml模块,结果引入的时候,显红报错。
  • 编辑环境:Python3.7 + lxml4.2.5
  • 编辑器:PyCharm
阅读全文 »

pandas是数据分析的一个核心框架,集成了数据结构化和数据清洗以及分析的一些方法。
pandas在numpy的基础上新增了三个数据类型:Series、DataFrame、Panel。

阅读全文 »
0%