simplexml_load解析xml和获取xml子元素内容的方法

9296次阅读 710人点赞 作者: WuBin 发布时间: 2021-09-24 09:00:21
扫码到手机查看

一段Rss的XML

最近在捣鼓RSS,也制作了一个RSS的订阅频道,感兴趣的小伙伴可以看一下:https://www.wubin.work/rss

这里面就涉及到了xml的解析的问题,我们先来看一段XML:

<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
       ...
>
<channel>
    <title>张鑫旭-鑫空间-鑫生活</title>
    <atom:link href="..." rel="self" type="application/rss+xml" />
    <link>https://..</link>
    <description>it&#039;s my whole life!</description>
    <lastBuildDate>Thu, 23 Sep 2021 16:09:56 +0000</lastBuildDate>
    <language>zh-CN</language>
    <sy:updatePeriod>hourly</sy:updatePeriod>
    <sy:updateFrequency>1</sy:updateFrequency>
    <generator>https://wordpress.org/?v=5.0.4</generator>
    <item>
        <title>HTML slot 插槽元素深入</title>
        <link>https://.../</link>
        <comments>https://...</comments>
        <pubDate>Thu, 23 Sep 2021 16:04:44 +0000</pubDate>
        <dc:creator><![CDATA[张 鑫旭]]></dc:creator>
        <category><![CDATA[HTML相关]]></category>
        <category><![CDATA[customElements]]></category>
        <category><![CDATA[dialog]]></category>
        <category><![CDATA[display:contents]]></category>
        <category><![CDATA[html]]></category>
        <category><![CDATA[slot]]></category>
        <category><![CDATA[Web Components]]></category>
        <guid isPermaLink="false">https://...</guid>
        <description><![CDATA[最细致的介绍 HTML slot 插槽元素的文章]]></description>
        <content:encoded><![CDATA[
            ...一堆HTML元素
        ]]></content:encoded>
        <wfw:commentRss>https://...</wfw:commentRss>
        <slash:comments>0</slash:comments>
    </item>

    <item>..若干item元素</item>

</channel>
</rss>

通用的解析方法

比较简单的是使用simplexml_load_file()方法。(代码节选自《PHP深度分析:101个核心技巧P280》

$url = 'http://rss.sitepoint.com/f/sitepoint_blogs_feed';
$xml = simplexml_load_file($url);
$channel = $xml->channel;
echo "Title: ", (string) $channel->title, "\n",
    "Description: ", (string) $channel->description, "\n",
    "Link: ", (string) $channel->link, "\n";
foreach ($channel->item as $item)
{
  echo "Item: ", (string) $item->title, "\n",
      "Link: ", (string) $item->link, "\n",
      "Description:\n", (string) $item->description, "\n";
}

注意:如果要正在访问的属性的实际值,就必须首先将其转换为合适的类型,否则会收到代表这个值的SimpleXMLElement。

同样的也有simplexml_load_string,XMLreader等。

解析子元素

以上方法解析平常元素没什么问题,但是当遇到子元素的时候,比如,《一》中的:

<content:encoded><![CDATA[
            ...一堆HTML元素
]]></content:encoded>

首先,要明确:<content:encoded>,content是命名空间,encoded是标签名称。encoded就相当于子元素。

$url = 'https://www.uisdc.com/feed'; // 下面用到

方法一

$xml = simplexml_load_file($url);
$channel = $xml->channel;

foreach ($channel->item as $itemIndex => $item) {
   // var_dump($item->children('content', true));
   $cc = $item->children('content', true)->encoded;
   echo $cc;
}

使用->children('content',true)->encoded获取</content:encoded>标签中的内容。

方法二

参考:http://cn.voidcc.com/question/p-cvhtjuik-cw.html

$feed_url = $url; 
$feeds = file_get_contents($feed_url); 
$feeds = str_replace("<content:encoded>","<contentEncoded>",$feeds); 
$feeds = str_replace("</content:encoded>","</contentEncoded>",$feeds); 
$rss = simplexml_load_string($feeds); 
foreach($rss->channel->item as $entry) { 
    echo ("<a href='$entry->link' title='$entry->title'>" . $entry->title . "</a>"); 
    echo ("$entry->contentEncoded"); 
} 

这里首先获取xml内容,转化为字符串,然后替换掉字符串中的特定标签,最后使用simplexml_load_string方法从字符串中加载xml转化为simpleXML对象,并使用获取title的方法直接读取。

方法三

参考:https://cloud.tencent.com/developer/ask/108517

$rss = new DOMDocument();
$rss->load($url);
$feed = array();
foreach ($rss->getElementsByTagName('item') as $node) {
    $item = array (
            'title' => $node->getElementsByTagName('title')->item(0)->nodeValue,
            'link' => $node->getElementsByTagName('link')->item(0)->nodeValue,
            'pubDate' => $node->getElementsByTagName('pubDate')->item(0)->nodeValue,
            'description' => $node->getElementsByTagName('description')->item(0)->nodeValue,
            'content' => $node->getElementsByTagName('encoded')->item(0)->nodeValue

            );
    array_push($feed, $item);
}

就是使用newDOMDocument获取到simpleXML对象转化为节点,并获取节点中的内容的操作思路。

相关资料

点赞 支持一下 觉得不错?客官您就稍微鼓励一下吧!
关键词:simplexml_load_file,simplexml_load_string
推荐阅读
  • uniapp实现被浏览器唤起的功能

    当用户打开h5链接时候,点击打开app若用户在已经安装过app的情况下直接打开app,若未安装过跳到应用市场下载安装这个功能在实现上主要分为两种场景,从普通浏览器唤醒以及从微信唤醒。

    10059次阅读 660人点赞 发布时间: 2022-12-14 16:34:53 立即查看
  • Vue

    盘点Vue2和Vue3的10种组件通信方式

    Vue中组件通信方式有很多,其中Vue2和Vue3实现起来也会有很多差异;本文将通过选项式API组合式API以及setup三种不同实现方式全面介绍Vue2和Vue3的组件通信方式。

    4680次阅读 346人点赞 发布时间: 2022-08-19 09:40:16 立即查看
  • JS

    几个高级前端常用的API

    推荐4个前端开发中常用的高端API,分别是MutationObserver、IntersectionObserver、getComputedstyle、getBoundingClientRect、requ...

    14754次阅读 967人点赞 发布时间: 2021-11-11 09:39:54 立即查看
  • PHP

    【正则】一些常用的正则表达式总结

    在日常开发中,正则表达式是非常有用的,正则表达式在每个语言中都是可以使用的,他就跟JSON一样,是通用的。了解一些常用的正则表达式,能大大提高你的工作效率。

    13963次阅读 525人点赞 发布时间: 2021-10-09 15:58:58 立即查看
  • 【中文】免费可商用字体下载与考证

    65款免费、可商用、无任何限制中文字体打包下载,这些字体都是经过长期验证,经得住市场考验的,让您规避被无良厂商起诉的风险。

    12705次阅读 1023人点赞 发布时间: 2021-07-05 15:28:45 立即查看
  • Vue

    Vue3开发一个v-loading的自定义指令

    在vue3中实现一个自定义的指令,有助于我们简化开发,简化复用,通过一个指令的调用即可实现一些可高度复用的交互。

    16943次阅读 1357人点赞 发布时间: 2021-07-02 15:58:35 立即查看
  • JS

    关于手机上滚动穿透问题的解决

    当页面出现浮层的时候,滑动浮层的内容,正常情况下预期应该是浮层下边的内容不会滚动;然而事实并非如此。在PC上使用css即可解决,但是在手机端,情况就变的比较复杂,就需要禁止触摸事件才可以。

    15465次阅读 1257人点赞 发布时间: 2021-05-31 09:25:50 立即查看
  • Vue

    Vue+html2canvas截图空白的问题

    在使用vue做信网单页专题时,有海报生成的功能,这里推荐2个插件:一个是html2canvas,构造好DOM然后转canvas进行截图;另外使用vue-canvas-poster(这个截止到2021年3月...

    30556次阅读 2403人点赞 发布时间: 2021-03-02 09:04:51 立即查看
  • Vue

    vue-router4过度动画无效解决方案

    在初次使用vue3+vue-router4时候,先后遇到了过度动画transition进入和退出分别无效的情况,搜遍百度没没找到合适解决方法,包括vue-route4有一些API都进行了变化,以前的一些操...

    26529次阅读 2041人点赞 发布时间: 2021-02-23 13:37:20 立即查看
交流 收藏 目录