爬蟲采集器Xpath常見語法使用詳細(xì)教程

主題： xpath語法 html 采集爬蟲

XPath語法在簡數(shù)采集器中是定位獲取頁面HTML標(biāo)簽或者標(biāo)簽中的內(nèi)容。（需要懂點(diǎn)HTML代碼知識(shí)，重點(diǎn)看第4和第5章）

1. /--選擇對應(yīng)的子標(biāo)簽

例子：/html/body/p/a

上面xpath路徑意思是獲取html標(biāo)簽下的子標(biāo)簽body，body下的子標(biāo)簽p，p下的子標(biāo)簽a，獲取結(jié)果是對應(yīng)下圖的第10行a標(biāo)簽；

2. // --選擇對應(yīng)的子孫標(biāo)簽，即不考慮嵌套位置

例子：/html/body/p//a

上面xpath路徑意思是獲取html標(biāo)簽下的子標(biāo)簽body，body下的子標(biāo)簽p，p下的所有標(biāo)簽a，獲取結(jié)果是對應(yīng)下圖的第10行和12行的a標(biāo)簽；

3. [數(shù)字]--選取第幾個(gè)標(biāo)簽

例子：/html/body/p/a[2]

上面xpath路徑意思是獲取html標(biāo)簽下的子標(biāo)簽body，body下的子標(biāo)簽p，p下的第二個(gè)標(biāo)簽a，獲取結(jié)果是對應(yīng)下圖的第11行的a標(biāo)簽；

4. //*[@屬性="值"]--選取屬性對應(yīng)的標(biāo)簽(重點(diǎn))

@后面常填寫id或者class屬性，若能在頁面找到對應(yīng)的id屬性更好，因?yàn)閕d屬性在頁面是唯一的值，即一個(gè)id值只能出現(xiàn)一次；

例子：//*[@id="main"]

上面xpath路徑意思是獲取頁面中id屬性值為main的標(biāo)簽，不管嵌套關(guān)系了，直接定位到對應(yīng)屬性值的標(biāo)簽，十分快捷方便，獲取結(jié)果是對應(yīng)下圖的第14行的a標(biāo)簽；

如果不用屬性來定位，就得寫成 /html/body/div/p/a ；

5. 在簡數(shù)采集器為例：

I、打開詳情提起器，點(diǎn)擊【打開網(wǎng)頁】

II、打開查看html代碼界面

III、查找有沒對應(yīng)正文的特殊屬性，找到class="m-t-md wzzPd in2"

IV、填寫到xpath路徑中

大部分爬蟲都是使用xpath作為規(guī)則提取，屬于通用規(guī)則，市面大部分采集器都支持xpath。

日韩一区视频精品无高清在线观,欧美性受xxxx视频,亚洲av久播在线播放青青尤物电,久久国产精品亚洲77777,亚洲精品资源

爬蟲采集器Xpath常見語法使用詳細(xì)教程

1. /--選擇對應(yīng)的子標(biāo)簽

2. // --選擇對應(yīng)的子孫標(biāo)簽，即不考慮嵌套位置

3. [數(shù)字]--選取第幾個(gè)標(biāo)簽

4. //*[@屬性="值"]--選取屬性對應(yīng)的標(biāo)簽(重點(diǎn))

5. 在簡數(shù)采集器為例：

I、打開詳情提起器，點(diǎn)擊【打開網(wǎng)頁】

II、打開查看html代碼界面

III、查找有沒對應(yīng)正文的特殊屬性，找到class="m-t-md wzzPd in2"

IV、填寫到xpath路徑中

推薦采集經(jīng)驗(yàn)知識(shí)

最新經(jīng)驗(yàn)知識(shí)

日韩一区视频精品无高清在线观,欧美性受xxxx视频,亚洲av久播在线播放青青尤物电,久久国产精品亚洲77777,亚洲精品资源

爬蟲采集器Xpath常見語法使用詳細(xì)教程

1. /--選擇對應(yīng)的子標(biāo)簽

2. // --選擇對應(yīng)的子孫標(biāo)簽，即不考慮嵌套位置

3. [數(shù)字]--選取第幾個(gè)標(biāo)簽

4. //*[@屬性="值"]--選取屬性對應(yīng)的標(biāo)簽(重點(diǎn))

5. 在簡數(shù)采集器為例：

I、打開詳情提起器，點(diǎn)擊【打開網(wǎng)頁】

II、打開查看html代碼界面

III、查找有沒對應(yīng)正文的特殊屬性，找到class="m-t-md wzzPd in2"

IV、填寫到xpath路徑中

推薦采集經(jīng)驗(yàn)知識(shí)

最新經(jīng)驗(yàn)知識(shí)

2. // --選擇對應(yīng)的子孫標(biāo)簽，即不考慮嵌套位置

I、打開詳情提起器，點(diǎn)擊【打開網(wǎng)頁】

II、打開查看html代碼界面

III、查找有沒對應(yīng)正文的特殊屬性，找到class="m-t-md wzzPd in2"

IV、填寫到xpath路徑中