发布于 2016-11-04 22:07:16 | 202 次阅读 | 评论: 0 | 来源: PHPERZ
pyquery默认使用lxml.xml作为解析器,所以如果用户的应用不能使用,则可以尝试用lxml.html进行html解析。xml解析器有时候会有些问题。特别是当处理xhtml页面的时候,因为解析器会触发一个错误当遇到一个没有的xml树时(以 w3c.org为例)。
你也可以选择特定的解析器:
>>> pq('<html><body><p>toto</p></body></html>', parser='xml') [<html>] >>> pq('<html><body><p>toto</p></body></html>', parser='html') [<html>] >>> pq('<html><body><p>toto</p></body></html>', parser='html_fragments') [<p>]
html和html_fragments解析器来自lxml.html。