- 博客(63)
- 收藏
- 关注
原创 爬虫初学篇——看完这些还怕自己入门不了?
(1) http、Hypertext Transfer Protocol,超文本传输协议http是一个基于“请求与响应”模式的、无状态的应用层协议(2)基本格式:scheme://host[:post#]/path/……/[?query-string] [#anchor]etree.HTML(内容):将不是html的格式的内容转换成htmletree.tostring(内容,encoding=‘UTF-8’).decode(‘UTF-8’):如果不是UTF-8编码格式的内容,这里可以更改成UTF-8的内容e
2024-06-17 07:00:00 4625 3
原创 正则表达式(知识总结篇)
通用的字符串表达框架简洁表达一组字符串的表达式针对字符串表达“简洁”和“特征”思想的工具判断某字符串的特征归属正则表达式在文本处理中十分常用表达式文本类型的特征(病毒、入侵等)同时查找或替换一组字符串匹配字符串的全部或部分。
2024-05-20 22:56:38 5607 1
原创 python爬虫小案例——汽车之家
为了更深入的学习爬虫,今天来了解下bs4的使用和实践,当然解析网页不止只有bs4的BeautifulSoup可以做到,还有xpath语法和正则表达式。本期是初步的了解BeautifulSoup模块的使用,欢迎初学者学习本期内容。这里需要注意的是使用bs4语句获取的标签内容是bs4的类型,不是列表类型,所以使用了强制转换成列表【list()】.拓展:目标网站结构改变。
2024-04-21 17:44:26 3330 4
原创 面试官问什么?Python基础与进阶?介绍Django框架?MySQL数据库索引?
: 我是谁,我从哪里来,我能给你带来什么价值,我希望得到什么样的支持,薪资构成问题如:Python 支持多种内置的数据类型,这些数据类型可以分为几大类:数字类型、序列类型、映射类型、集合类型和布尔类型。下面是每种数据类型的详细介绍:整型 ()浮点型 ()复数 ()布尔型 ()字符串 ()列表 ()元组 ()字典 ()集合 ()不可变集合 ()NoneType ()在Python中,模块(module)是一个包含Python定义和声明的文件。一个模块可以定义函数、类和变量,并且可以包含可执行的代码。模块的主要
2024-08-25 16:23:51 1003
原创 看小说?笔趣阁?你是怎么爬取的?
如何才能去找好一份好工作?面临着就业问题和期末考试等诸多问题,自己也忘记了创作、更新,在此对你们说声抱歉,由于在生活中各种繁琐的事情,让脑袋也焦头烂额,对未来的迷茫,也对未来憧憬的没信息,刚开始面试的时候,自己还是什么不懂而且紧张的小群众,我也想在这个行业脱颖而出,也知道现在这个就业环境,几乎都是不要实习岗位,想在一个岗位体现自己的价值,确实很重要,当然我也会不断精进自己,表达方面还有待提升,会好好在生活中珍惜每时每刻,希望我这个小博主能给你们带来启发。笔趣阁小说爬虫源代码开源。
2024-06-27 23:33:50 3534 4
原创 防火墙安全策略
Trust”区域的用户可以访问“Untrust”的用户;“Trust”和“Untrust”区域的用户可以访问“DMZ”区域的用户;“Untrust”区域用户不能直接访问“Trust”区域用户;“DMZ”区域用户不能直接访问“Trust”和“Untrust”区域的用户。
2024-06-20 17:14:06 1088
原创 MySQL初学知识总篇
MySQL语言是一种用于管理和操作MySQL关系型数据库管理系统(RDBMS)的结构化查询语言(Structured Query Language,SQL)。MySQL语言基于SQL标准,但它也包含了一些特定于MySQL的扩展,使其能够适应更广泛的数据库管理需求。MySQL因其高效、稳定、灵活和免费的特性,被广泛应用于Web应用、企业内部系统、数据仓库、内容管理系统等多个领域。
2024-06-17 13:01:33 780
原创 爬虫实训案例:中国大学排名
本次案例主要涉及bs4库中的内容、requests的使用和存储数据等知识。提示:以下是本篇文章正文内容,下面案例可供参考总代码块:导入requests库和bs4库和bs4库中的import bs4try:r.raise_for_status() # 判断请求是否成功:如果不是200,产生异常requests.HTTPErrorr.encoding = r.apparent_encoding # http header中猜测的响应内容编码方式 设置为 内容中分析出的响应内容编码方式(备选编码方式)
2024-05-24 21:22:08 4254 3
原创 爬虫中信息的形式和提取(bs4中解析)
结合形式解析与搜索方法,提取关键信息。XML、JSON、YAML、搜索。需要标记解析器及文本查找函数。完整解析信息的标记形式,再提取关键信息。XML、JSON、YAML ,需要标记解析器;优点:提取过程简洁,速度较快。缺点:提取结果准确性与信息内容相关。无视标记形式,直接搜索关键信息。对信息的文本查找函数即可。) 等价于 soup.find_all(…优点:信息解析准确;缺点:提取过程繁琐,速度慢。
2024-05-17 22:39:35 568
原创 Beautiful Soup库
prettify()为HTML文本及其内容增加更加”\n“.prettofuy()可用与标签,方法:.prettift()标签内字符串的注释部分。
2024-05-15 23:41:25 1346
原创 Request请求数据 (** kwargs参数)
在Python中,发送网络请求是一项常见的任务,特别是对于爬虫开发、API调用或任何需要与远程服务器交互的应用。requests库是最受欢迎的用于发送HTTP请求的第三方库,它提供了简洁易用的API来执行GET、POST、PUT、DELETE等多种HTTP方法。requests库的强大之处在于其简单直观的接口设计,使得开发者能够快速上手并完成复杂的网络请求任务,而无需关注底层细节。
2024-05-12 16:22:33 1438 2
原创 IPv6路由配置:ripng、ospfv3、静态路由
IPv6,全称为Internet Protocol Version 6,是互联网协议的第六版。它是Internet Engineering Task Force (IETF)设计的一种标准,用以替代目前广泛使用的IPv4,主要解决IPv4地址空间即将耗尽的问题。IPv6主要在地址空间、安全性、网络管理和性能方面优于IPv4,但其全面推广面临兼容性挑战和升级成本。IPv4则因历史原因被广泛使用,但地址空间的局限性是其最大的劣势。
2024-05-11 15:42:16 1836
原创 在python中对Requests的理解
离上次写文章已经有小半个月了,但是:没有动态的日子里,都在努力生活❤️;发表动态的日子里,都在热爱生活。🌹。
2024-05-08 16:08:37 1024
原创 知识分享之cookie
Cookie(曲奇,小甜饼的译名)在互联网技术领域中,是指一种小型文本文件,它由网站服务器发送给用户的浏览器,并被浏览器存储在用户本地计算机或其他设备上。用户识别与会话管理:Cookie最基础的功能是帮助服务器识别用户身份。当用户首次访问一个网站时,服务器可能会生成一个唯一的标识符(即Cookie)并发送给浏览器。浏览器在后续对该网站的所有请求中都会自动附带上这个Cookie,使得服务器能够识别这是同一位用户,实现保持登录状态、个性化设置、购物车内容等会话相关的功能。存储用户偏好与状态信息。
2024-04-26 17:07:20 1073
原创 python网页篇
爬取网页动态数据通常涉及到JavaScript渲染的内容,这类数据并不是在原始HTML文档中直接提供的,而是通过AJAX请求、WebSocket通信或者其他客户端渲染技术生成的。
2024-04-21 17:49:21 1132
原创 豆瓣影评信息爬取 (爬虫)
etree.tostring(内容,encoding=‘UTF-8’).decode(‘UTF-8’):如果不是UTF-8编码格式的内容,这里可以更改成UTF-8的内容。如果在浏览器上保存网页到本地,在python中获取.html文件需要利用自定解析器来解析文件内容。xpath中的[1]表示第一个元素,而python中的第一个是从0开始,例如:[0]etree.parse(文件路径):parse对html导入python并解析。etree.HTML(内容):将不是html的格式的内容转换成html。
2024-04-19 22:46:32 1085 1
原创 linux 云计算平台基本环境(知识准备篇)
云计算平台基本环境是以虚拟化技术为核心的分布式计算系统,包括基础设施即服务(IaaS)、平台即服务(PaaS)和软件即服务(SaaS)三层架构。其中,IaaS提供虚拟服务器、存储和网络资源,如Amazon EC2、阿里云ECS;PaaS则包含了运行时环境和数据库服务,如Heroku、Google App Engine,助力开发者快速构建和部署应用;SaaS层则是完整的云端应用程序,如Office 365、Salesforce等。
2024-04-15 21:59:18 1585
原创 选择程序员是为什么?
最后,选择成为一名程序员,是我基于对逻辑思维的追求,对科技创新的向往,以及对社会影响的期待所作出的决定。我相信,在这个数字化的时代,程序员将扮演越来越重要的角色,而我也将在这一旅程中不断成长,实现自我价值,并积极回馈社会。在未来的职业生涯中,我将以饱满的热情、扎实的技能和持续的创新精神,投身于编程的世界,成为新时代的技术建设者和创新引领者。这是一点,不过最让我接收这个行业的是好奇世界的新大陆,可以简单的说就是,短短的一行代码可以作用到很大范围,小到一个眼神交流,大到一个世界范围的大数据收集和整理。
2024-04-11 22:01:15 471
原创 python pygame事件与事件处理
游戏需要与玩家交互,因此它必须能够接收玩家的操作,并根据玩家的不同操作做出有针对性的响应。程序开发中将玩家会对游戏进行的操作称为事件(Event),根据输入媒介的不同,游戏中的事件分为键盘事件、鼠标事件和手柄事件等。事件产生途径参数解释KEYDOWN键盘上的按键被按下unicode记录安静Unicode值key按下或放开的键的键值mod包含组合键信息KEYUP键盘上的键被放开keymod鼠标移动pos鼠标指针操作的位置,包含(x,y)rel。
2024-04-10 21:07:02 1407
原创 python pygame库的略学
pygame 是为开发2D游戏而设计的Python跨平台模块,该模块中定义了很多接口,开发人员使用这些接口可以方便时间游戏开发的常用功能。例如,图形和图像绘制,播放音频等。提示:以下是本篇文章正文内容,下面案例可供参考本次章节是为初学者了解pygame模块提供的,为了更有效的学习pygame内容,我也是为此总结了一章节,制作小游戏的七大重要步骤,在此我只做出了前六步解释,最后一步是 :事件与事件处理下期为最后一步做出详细解释以及拓展小游戏案例🌈🌈。
2024-04-09 22:51:09 1393
原创 如何明确的选择IT方向?
硬件:包括计算机硬件制造商、网络设备供应商、服务器提供商、移动设备生产商等,这些企业专注于设计、生产和销售用于信息处理和传输的物理设备。软件:包括操作系统开发商、商业软件开发商(如ERP、CRM、SCM系统)、应用程序开发商、游戏开发商、中间件开发商、数据库开发商等,以及专门提供软件解决方案和服务的企业。应用服务:涵盖了各类基于软件的业务应用、数据分析服务、咨询服务等,帮助企业或个人有效利用信息进行决策支持和业务流程改进。集成与服务。
2024-04-07 19:05:57 1165 2
原创 通用爬虫的概念简述
通用爬虫(General Purpose Web Crawler或Scalable Web Crawler)是一种网络爬虫,其设计目标是对整个互联网或尽可能广泛的网络空间进行数据抓取。通用爬虫主要用于搜索引擎构建其庞大的网页索引数据库,从互联网中自动爬取、下载网页内容,形成网页的海量集合,以便后续对这些数据进行索引、存储和搜索。通用网络爬虫是搜索引擎抓取系统(Baidu、Google、Yahoo等)重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。通用搜索引擎(Search
2024-04-06 23:19:59 2236
原创 Python 爬虫基础——http请求和http响应
解析:先把IP地址分为两部分一部分是123.123.123. 另一部分是123,又因Ip最大值为255,所以先使用分组,然后在组里边再进行选择,组里也有三部分,0-199,200-249,250-255,分别和上述的表达是对应,最后还要注意分组之后还要加上一个.,因为是元字符所以要转义故加上. 然后再把这部分整体看做是一个组,重复三次,再加上仅有数字的一组也就是不带.的那一组即可完成IP地址的校验。我在问自己要不要写这篇东西,关于相似的内容网上多如牛毛,而且还不乏珍品,况且,就算我写了也不一定能写的好。
2024-04-04 23:04:51 3732 1
原创 python小项目——时钟模拟
钟表是一种计时的装置,也是计量和指示时间的精密仪器。钟表的样式千变万化,但是用来显示时间的表盘相差无几,大多数钟表表盘的样式由刻度(共60个,围成圆形)、指针(时针、分针和秒针)、周日期显示和日期显示组成。
2024-04-03 17:58:40 2218
原创 AI会是一个怎样的创业技术
总之,AI技术几乎可以在所有行业中找到应用点,从改善现有业务流程到推动全新的商业模式产生,AI创业不仅限于以上所列,还有更多的细分领域有待发掘和创新。同时,随着技术进步和社会需求的变化,新的AI创业机会将持续涌现。人工智能(AI)技术作为当今科技创新的前沿领域,为创业者提供了广阔的机会和挑战。随着AI技术的快速发展和应用领域的不断拓展,未来AI技术方面会有哪些创业机会呢?
2024-04-01 22:23:10 616 1
原创 云计算概述报告
云计算(Cloud Computing)是一种基于互联网的计算方式,它通过将共享的远程计算资源进行动态、可扩展和虚拟化处理,以按需服务的方式提供给用户。1.**资源共享:**云计算通过网络连接,使得用户能够访问并利用由多个物理服务器组成的大型数据中心中的硬件资源(如CPU、内存、存储空间)、软件资源以及平台能力。2.**弹性伸缩:**根据用户需求,云计算可以快速地分配或释放计算资源,实现资源使用的灵活扩展与收缩,用户只需支付实际使用量的费用,无需预先大量投资购买和维护基础设施。3.
2024-04-01 21:21:56 2423
原创 Python 常用内置库 time库、random库、turtle库
输出:time.struct_time(tm_year=2024, tm_mon=3, tm_mday=31, tm_hour=18, tm_min=30, tm_sec=48, tm_wday=6, tm_yday=91, tm_isdst=0)trutle(海龟)是python中的内置的一个标准模块,它提供了绘制线、圆和其他形状的函数,使用该模块可创建图形窗口,在图形窗口中通过简单重复动作直观地绘制界面和图形。输出:Sun,31 Mar 2024 18:31:56。
2024-03-31 22:20:59 1751 2
原创 python 计算生态概览的概述
python计算生态概览的解释Python计算生态概览是对Python作为一门强大而广泛使用的编程语言所拥有的庞大软件集合的整体描述和概述。这个生态体系不仅包含了Python的标准库(stdlib),即随Python解释器安装的基本模块,还涵盖了极其丰富的第三方库和框架,它们通过扩展Python的功能,使得开发者能够在众多领域高效地解决问题和完成项目。Python计算生态涵盖网络爬虫、数据分析、文本处理、数据可视化、机器学习、图形用户界面、web开发、网络应用、游戏开发、图形处理等多个领域。
2024-03-29 17:21:34 1985 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人