发布于 2016-01-17 09:39:07 | 598 次阅读 | 评论: 1 | 来源: PHPERZ

查找HTML DOM元素

// 从一个URL或者一个文件的内容创建DOM
$html = file_get_html('http://www.oschina.net/');
$html = file_get_html('demo.html/');

//获取所有的img元素
foreach($html->find('img') as $element)
       echo $element->src . '<br>';

// 获取所有的a链接
foreach($html->find('a') as $element)
       echo $element->href . '<br>'; 

修改HTML DOM元素


//解析HTML字符串为DOM
$html = str_get_html('<div id="hello">Hello</div><div id="world">World</div>');

$html->find('div', 1)->class = 'bar';

$html->find('div[id=hello]', 0)->innertext = 'foo';

echo $html; // 输出: <div id="hello">foo</div><div id="world" class="bar">World</div>

提取HTML文本内容


//获取HTML中的纯文本(不包含标签)。ps:类似jq的$.text()方法。
echo file_get_html('http://www.oschina.net/')->plaintext; 

抓取文章示例

// 解析URL内容为DOM
$html = file_get_html('http://slashdot.org/');

//遍历所有的文章块元素
foreach($html->find('div.article') as $article) {
    $item['title']     = $article->find('div.title', 0)->plaintext;
    $item['intro']    = $article->find('div.intro', 0)->plaintext;
    $item['details'] = $article->find('div.details', 0)->plaintext;
    $articles[] = $item;
}

print_r($articles); 
最新网友评论  共有(1)条评论 发布评论 返回顶部
PHPERZ网友 发布于2016-09-18 11:11:30
这个用来辅助抓取数据还是不错的.
支持(0)  反对(0)  回复

Copyright © 2007-2017 PHPERZ.COM All Rights Reserved   冀ICP备14009818号  版权声明  广告服务