如果需要采集網(wǎng)站登錄后顯示的信息,可以嘗試獲取賬號登錄網(wǎng)站后的cookie值,填寫到簡數(shù)采集器登錄采集。
獲取與填寫cookie信息操作步驟如下:
獲取網(wǎng)站cookie的方式一般有以下兩種:
最簡單的方法是通過現(xiàn)代瀏覽器來獲取,以chrome為例:
1. F12或右鍵檢查進入開發(fā)者模式界面;
2. 點擊NetWork,F(xiàn)5重新加載頁面;
3. 選擇對應頁面名稱的html文件;
4. 獲取cookie;
通過fiddler工具抓取網(wǎng)站的cookie,相比較 “方式1通過瀏覽器獲取“ 會比較麻煩,如果需要查看具體操作步驟,請查看本文最后的補充內(nèi)容。
把獲取的cookie信息拷貝到采集器中,再打開詳情提取器加載即可查看到之前隱藏的內(nèi)容;
簡數(shù)采集器有兩處入口可填寫cookie:(填寫其中一處即可)
I、點擊 “啟動 | 定時采集 ” ,在網(wǎng)絡配置中填上相關信息;
II、詳情提起器左側列表的網(wǎng)絡配置:
注意:如果還是無法顯示登錄后的內(nèi)容,請在 “Cookie域名” 處填上對應域名,不用加上http協(xié)議,例如:m.119kj.com
到此就完成采集網(wǎng)站登錄的數(shù)據(jù)信息。
還可以使用fiddler工具來進行抓?。唬ㄈ绻呀?jīng)使用瀏覽器獲取cookie,可以跳過這一步,直接到第二步--獲取的cookie填寫入簡數(shù))
fiddler是介于客戶端和服務器端的HTTP代理,也是常用的http抓包工具之一 。 它可以記錄下客戶端和服務器之間的所有HTTP請求,也可以針對指定的HTTP請求,進分析請求數(shù)據(jù)、設置斷點、修改請求的數(shù)據(jù),甚至還可以修改服務器返回的數(shù)據(jù),功能十分強大,是網(wǎng)站調(diào)試的得力助手。
fiddler官網(wǎng)下載: https://www.telerik.com/download/fiddler
下載安裝完成后,按照以下流程來操作:(本文章是基于Fiddler 4版本)
1. 右側顯示頁面中先選擇Inspectors欄;
2. 由于左側顯示頁面已有許多訪問網(wǎng)站的信息,我們接下先清空一下,方便接下來尋找指定的網(wǎng)頁;
可以用快捷鍵ctrl+x或者在左側顯示頁面右鍵Remove------>>all sessions;
3. 接下來登陸上需要抓取cookie的網(wǎng)站或者刷新已經(jīng)登錄的網(wǎng)頁,就可以在左側顯示欄輕松找到網(wǎng)站的Host(網(wǎng)站域名)+ URL,以我這個
例子,選取的就是這一條,注意URL內(nèi)容是斜杠 / 的那一條信息;
4. 右邊顯示欄選擇raw欄,這時能看到獲取的cookie了;
5. 為了獲取完整的cookie,我們點擊右側顯示欄中間的view in Notepad,即打開記事本來獲取完整的cookie;