关于Xpath地址的分析小结

简介: 发现有时候遇到xpath的路径报错,然而使用的都是一些插件工具,但不同浏览器和不同插件得到的xpath又有所差别,故做一个测试记录

1、旁引: 因故装python 3 +2 的双蛇系统,是故再次要把anaconda配置到python 2 去然后搜网址的时候,看到一个评论,喜感,记录如下:

问:anaconda与python什么关系

答复:
python 是莽蛇,一般是陆上蛇
Anaconda 是美洲大水蛇。

好吧:如果英文不好的,可以用简友0han写的翻译小程序来看下:

===============================

=有道词典 命令行版v1.1 by 0han=

输入’q’可退出程式

请输入词语:python

翻译:n. 巨蟒;大蟒

请输入词语:anaconda

翻译:n. 水蟒;蟒蛇

请输入词语:


是不是可以写一部: 水与火之歌 :)

2、以豆瓣网电影板块的“热门”按键为例,如图:

在chrome里的xpath是:

//*[@id="gaia_frm"]/div[1]/div[1]/label[1]

在firefox 的firebug插件::

/html/body/div[3]/div[1]/div/div[2]/div[4]/div[2]/div[1]/form/div[1]/div[1]/label[1]

而firexfox的xpath checker插件则是:

id('gaia_frm')/x:div[1]/x:div[1]/x:label[1]

又测试QQ浏览器为:

//*[@id="gaia_frm"]/div[1]/div[1]/label[1]

可以发现,谷歌和qq浏览器的格式一致,但firefox的插件,则不尽相同,但最起码,倒过来看,还是基本相同,这其实是路径开头选择差异导致的,而到路径最后基本都一样,这可以理解为绝对路径和相对路径,前者最开始一个斜杠,后者2个斜杠。那即便后面就肯定一样?但还要看“后面”的层级定义,即便到达最后一级的标签,采用的是什么属性定位,比如通过id,通过name等的区别。

  • 其中,firefox的xpath checker插件显示的比较特别,带有X: 字样,估计是该插件自定义的xpath格式,但如果直接复制到python里,是不识别的,因此会报错。所以,如果要采用他的格式,需要把x: 给删掉。测试就通过了。也就是要修改成:

    driver.find_element_by_xpath(“id(‘gaia_frm’)/div[1]/div[1]/label[1]”)

  • 谷歌和qq的一样,只需要测试一个,结论直接通过:

    driver.find_element_by_xpath(“//*[@id=\”gaia_frm\”]/div[1]/div[1]/label[1]”)

  • firebug的,结论通过:

    driver.find_element_by_xpath(“/html/body/div[3]/div[1]/div/div[2]/div[4]/div[2]/div[1]/form/div[1]/div[1]/label[1]”

结论:

  • 谷歌和qq浏览器自带的xpath路径分析,可通过常规需求的测试(由于有隐藏元素的一些网页功能,遇到的话依然可能失败,还有就是动态刷新技术)
  • 由于我安装的firefox没看到自带的xpath分析功能,所以安装了firebug插件以及xpath checker插件,但xpath checker插件自带的格式却得不到浏览器的支持,需要特别注意。
  • xpath checker在反向验证xpath路径的时候还是有用。

关于最后一点展开下,也是经验总结:

比如,你看别人的代码分析,因为你不确定他是使用浏览器自带的,还是自己定义的,还是插件的xpath路径,甚至可能对方根本没有任何注释,导致你看到xpath路径的时候,一头的晕,丫到底写的是啥呀?也许聪明的你会说,那可以到网页源代码查找一部分的关键词,确实可以,但也麻烦,举例来说:

driver_item.find_element_by_xpath("//div[@class='list-wp']/a[@class='more']").click()

虽然可以知道要点击一个含有class=’more’的控件元素,但你会发现直接网页源代码木有!! 为何? 因为他的真实是双引号class=”more”
原来,因为selenium 的find_element_by_xpath(“XXX”) 命令,如果你把XXX用class=”more”直接代替,绝对的报错,为何,因为双引号冲突, 你可以反斜杠来区分,抑或用单引号,这就是原因所在。可见,即便你到网页源代码查找还是麻烦的很,更不要说,如果万一源代码里有好几个这样的查找单元了。

而我们用,xpath checker反向验证,可以很快的让你知道,对方分析的是什么元素,如下图: