Python 技术分享

深入浅出学习 Python

  • Crawlab 是强大的 网络爬虫管理平台(WCMP),它能够运行多种编程语言(包括 Python、Go、Node.js、Java、C#)或爬虫框架(包括 Scrapy、Colly、Selenium、Puppeteer)开发的网路爬虫。它能够用来运行、管理和监控网络爬虫,特别是对可溯性、可扩展性以及稳定性要求较高的生产环境。
  • Crawlab 项目自 2019 年 3 月开始一直在不断迭代,并且经历了多次大的更新。它最初是用来解决调度和运行大量爬虫时出现的管理问题。随着大量的优化和新功能加入,Crawlab 越来越受到开发者社区的欢迎,尤其是网路爬虫工程师。
阅读全文 »

前言:

进入一些公司后,做完项目需要提交mr,这时如果不懂mr操作就会很尴尬😓。。。

  • master:主分支,用来版本发布,更新的最慢
  • develop:开发分支,保存正常开发的最新代码
  • dev:子开发分支,用于提交Merge Requests,和本地分支同步
  • local:本地分支,表示本地的临时添加新功能使用的分支,需要基于develop,然后需要合并到develop
阅读全文 »

前言:

在使用Python爬虫的过程中难免会遇到很多301,302的问题。他们出现时,很大程度的影响到我们的爬虫速度和信息的准确性。下面针对不同的模块给出不同的解决方案。

阅读全文 »

  • RSS(Really Simple Syndication)是一种用于发布和订阅网站内容的XML格式。它允许用户获取更新的内容,而无需访问网站本身。RSS通过提供简洁的摘要和链接,使用户能够快速浏览多个网站的最新信息。
  • RSS的工作原理是,网站所有者将其内容组织为RSS源,然后用户可以使用RSS阅读器订阅这些源。当源中的内容发生更新时,阅读器会自动获取最新的内容,并将其显示给用户。这样,用户就可以通过一个集中的阅读器查看多个网站的更新,而无需逐个访问这些网站。
  • RSS源通常包含文章标题、摘要、发布日期和链接等信息。用户可以通过阅读器将感兴趣的文章保存下来,随时阅读。RSS还支持分类和标签,以帮助用户组织和筛选内容。
阅读全文 »

前言:

有时候想要将新内容去重后写入文件,发现直接用以下代码并不能有效去重,这是为什么呢?

1
2
3
with open('poem.txt', 'a+', encoding='utf8') as fp:
if str(item) not in fp.read():
fp.write(str(item) + '\n')
阅读全文 »

前言:

写作帮助文档是一种为写作过程提供指导和支持的文档。它旨在帮助作者更好地组织思维、表达观点和撰写文稿。

阅读全文 »

前言:

  • 今天用Pyhton做爬虫的时候,需要用上xpath,我已经用pip安装了lxml模块,结果引入的时候,显红报错。
  • 编辑环境:Python3.7 + lxml4.2.5
  • 编辑器:PyCharm
阅读全文 »

pandas是数据分析的一个核心框架,集成了数据结构化和数据清洗以及分析的一些方法。
pandas在numpy的基础上新增了三个数据类型:Series、DataFrame、Panel。

阅读全文 »

前言:

当我们更新完NVIDIA显卡的时候,发现原本在Windows右下角和鼠标右键菜单的NVIDIA控制面板不见了,这时我们想调一些显卡配置怎么办呢?
系统版本:Windows 10 pro 1909
显卡版本:NVIDIA GeForce GTX 1070

阅读全文 »
0%