大牛阁下资源

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 666|回复: 10

【Python】零基础学Python网络爬虫(升级版)无密

[复制链接]

65

主题

0

回帖

307

积分

管理员

积分
307
发表于 2024-12-27 15:52:46 | 显示全部楼层 |阅读模式
1.png


回复下载:


游客,如果您要查看本帖隐藏内容请回复



0

主题

178

回帖

394

积分

中级会员

积分
394
发表于 2024-12-28 13:50:41 | 显示全部楼层
感谢分享

0

主题

255

回帖

538

积分

高级会员

积分
538
发表于 2024-12-28 14:29:40 | 显示全部楼层
感谢分享

0

主题

139

回帖

232

积分

中级会员

积分
232
发表于 2024-12-29 09:31:45 | 显示全部楼层
谢谢分享

0

主题

24

回帖

88

积分

注册会员

积分
88
发表于 2024-12-29 20:12:34 | 显示全部楼层
附赠下载

0

主题

29

回帖

74

积分

注册会员

积分
74
发表于 2025-1-2 20:59:26 | 显示全部楼层
gxfx454545545

0

主题

18

回帖

50

积分

注册会员

积分
50
发表于 2025-1-3 18:11:42 来自手机 | 显示全部楼层
666666666666

0

主题

2

回帖

8

积分

新手上路

积分
8
发表于 2025-1-13 23:03:25 | 显示全部楼层
111111111111111

0

主题

5

回帖

24

积分

新手上路

积分
24
发表于 2025-2-15 07:58:55 | 显示全部楼层
    rss文件基于xml,我们的目的是提取rss文件里的文本,操作过程是:

        1. 使用tinyxml2插件把xml文件里标签内的包着的文本提取出来

        2. 使用regex,regex是正则表达式操作,用于去除提取的文本里的html标签

    1. tinyxml2的使用:

        1. 把tinyxml2.cpp和tinyxml2.h传进要写代码的目录下

        2. include "tinyxml2.h",using namespace tinyxml2

        3. XMLDocument doc,创建一个对象

        4. doc.LoadFile("文件名"),加载文件

        5. 用if( doc.ErrorID() )可以判断加载文件是否成功

        6.XMLElement *pNode = doc.FirstChildElement("rss")->FirstChildElement("channel")->FirstChildElement("item");从而得大标签item包着的文本

        7. while(pNode)  string title = pNode->FirstChildElement("title")->GetText();得到item里的title包着的文本

        

    1. regex:

        使用前:需要#include<regex>,using std::regex

        用法:regex reg(a)

            参数:a是一个字符串

            作用:得到一个待使用的a这样的字符串的regex对象

    2. regex_replace:

        返回值:string

        用法:regex_replace(a,b,c)

            参数:a是string类型,b是regex类的对象,c是string类型

            作用:把a里的b这样的内容替换为c,并返回一个string

        

    rss文件基于xml,我们的目的是提取rss文件里的文本,操作过程是:

        1. 使用tinyxml2插件把xml文件里标签内的包着的文本提取出来

        2. 使用regex,regex是正则表达式操作,用于去除提取的文本里的html标签

    1. tinyxml2的使用:

        1. 把tinyxml2.cpp和tinyxml2.h传进要写代码的目录下

        2. include "tinyxml2.h",using namespace tinyxml2

        3. XMLDocument doc,创建一个对象

        4. doc.LoadFile("文件名"),加载文件

        5. 用if( doc.ErrorID() )可以判断加载文件是否成功

        6.XMLElement *pNode = doc.FirstChildElement("rss")->FirstChildElement("channel")->FirstChildElement("item");从而得大标签item包着的文本

        7. while(pNode)  string title = pNode->FirstChildElement("title")->GetText();得到item里的title包着的文本

        

    1. regex:

        使用前:需要#include<regex>,using std::regex

        用法:regex reg(a)

            参数:a是一个字符串

            作用:得到一个待使用的a这样的字符串的regex对象

    2. regex_replace:

        返回值:string

        用法:regex_replace(a,b,c)

            参数:a是string类型,b是regex类的对象,c是string类型

            作用:把a里的b这样的内容替换为c,并返回一个string

        

    rss文件基于xml,我们的目的是提取rss文件里的文本,操作过程是:

        1. 使用tinyxml2插件把xml文件里标签内的包着的文本提取出来

        2. 使用regex,regex是正则表达式操作,用于去除提取的文本里的html标签

    1. tinyxml2的使用:

        1. 把tinyxml2.cpp和tinyxml2.h传进要写代码的目录下

        2. include "tinyxml2.h",using namespace tinyxml2

        3. XMLDocument doc,创建一个对象

        4. doc.LoadFile("文件名"),加载文件

        5. 用if( doc.ErrorID() )可以判断加载文件是否成功

        6.XMLElement *pNode = doc.FirstChildElement("rss")->FirstChildElement("channel")->FirstChildElement("item");从而得大标签item包着的文本

        7. while(pNode)  string title = pNode->FirstChildElement("title")->GetText();得到item里的title包着的文本

        

    1. regex:

        使用前:需要#include<regex>,using std::regex

        用法:regex reg(a)

            参数:a是一个字符串

            作用:得到一个待使用的a这样的字符串的regex对象

    2. regex_replace:

        返回值:string

        用法:regex_replace(a,b,c)

            参数:a是string类型,b是regex类的对象,c是string类型

            作用:把a里的b这样的内容替换为c,并返回一个string

        

0

主题

1

回帖

10

积分

新手上路

积分
10
发表于 2025-2-20 00:19:16 来自手机 | 显示全部楼层
不能回复???
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|大牛阁下资源网

GMT+8, 2025-5-18 21:31 , Processed in 0.121153 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表