| 
 | 
 
 
发表于 2025-2-15 07:58:55
|
显示全部楼层
 
 
 
    rss文件基于xml,我们的目的是提取rss文件里的文本,操作过程是: 
 
        1. 使用tinyxml2插件把xml文件里标签内的包着的文本提取出来 
 
        2. 使用regex,regex是正则表达式操作,用于去除提取的文本里的html标签 
 
    1. tinyxml2的使用: 
 
        1. 把tinyxml2.cpp和tinyxml2.h传进要写代码的目录下 
 
        2. include "tinyxml2.h",using namespace tinyxml2 
 
        3. XMLDocument doc,创建一个对象 
 
        4. doc.LoadFile("文件名"),加载文件 
 
        5. 用if( doc.ErrorID() )可以判断加载文件是否成功 
 
        6.XMLElement *pNode = doc.FirstChildElement("rss")->FirstChildElement("channel")->FirstChildElement("item");从而得大标签item包着的文本 
 
        7. while(pNode)  string title = pNode->FirstChildElement("title")->GetText();得到item里的title包着的文本 
 
         
 
    1. regex: 
 
        使用前:需要#include<regex>,using std::regex 
 
        用法:regex reg(a) 
 
            参数:a是一个字符串 
 
            作用:得到一个待使用的a这样的字符串的regex对象 
 
    2. regex_replace: 
 
        返回值:string 
 
        用法:regex_replace(a,b,c) 
 
            参数:a是string类型,b是regex类的对象,c是string类型 
 
            作用:把a里的b这样的内容替换为c,并返回一个string 
 
         
 
    rss文件基于xml,我们的目的是提取rss文件里的文本,操作过程是: 
 
        1. 使用tinyxml2插件把xml文件里标签内的包着的文本提取出来 
 
        2. 使用regex,regex是正则表达式操作,用于去除提取的文本里的html标签 
 
    1. tinyxml2的使用: 
 
        1. 把tinyxml2.cpp和tinyxml2.h传进要写代码的目录下 
 
        2. include "tinyxml2.h",using namespace tinyxml2 
 
        3. XMLDocument doc,创建一个对象 
 
        4. doc.LoadFile("文件名"),加载文件 
 
        5. 用if( doc.ErrorID() )可以判断加载文件是否成功 
 
        6.XMLElement *pNode = doc.FirstChildElement("rss")->FirstChildElement("channel")->FirstChildElement("item");从而得大标签item包着的文本 
 
        7. while(pNode)  string title = pNode->FirstChildElement("title")->GetText();得到item里的title包着的文本 
 
         
 
    1. regex: 
 
        使用前:需要#include<regex>,using std::regex 
 
        用法:regex reg(a) 
 
            参数:a是一个字符串 
 
            作用:得到一个待使用的a这样的字符串的regex对象 
 
    2. regex_replace: 
 
        返回值:string 
 
        用法:regex_replace(a,b,c) 
 
            参数:a是string类型,b是regex类的对象,c是string类型 
 
            作用:把a里的b这样的内容替换为c,并返回一个string 
 
         
 
    rss文件基于xml,我们的目的是提取rss文件里的文本,操作过程是: 
 
        1. 使用tinyxml2插件把xml文件里标签内的包着的文本提取出来 
 
        2. 使用regex,regex是正则表达式操作,用于去除提取的文本里的html标签 
 
    1. tinyxml2的使用: 
 
        1. 把tinyxml2.cpp和tinyxml2.h传进要写代码的目录下 
 
        2. include "tinyxml2.h",using namespace tinyxml2 
 
        3. XMLDocument doc,创建一个对象 
 
        4. doc.LoadFile("文件名"),加载文件 
 
        5. 用if( doc.ErrorID() )可以判断加载文件是否成功 
 
        6.XMLElement *pNode = doc.FirstChildElement("rss")->FirstChildElement("channel")->FirstChildElement("item");从而得大标签item包着的文本 
 
        7. while(pNode)  string title = pNode->FirstChildElement("title")->GetText();得到item里的title包着的文本 
 
         
 
    1. regex: 
 
        使用前:需要#include<regex>,using std::regex 
 
        用法:regex reg(a) 
 
            参数:a是一个字符串 
 
            作用:得到一个待使用的a这样的字符串的regex对象 
 
    2. regex_replace: 
 
        返回值:string 
 
        用法:regex_replace(a,b,c) 
 
            参数:a是string类型,b是regex类的对象,c是string类型 
 
            作用:把a里的b这样的内容替换为c,并返回一个string 
 
         
 
 |   
 
 
 
 |