用 wget 抓無名單一相簿
雖說也有幹圖王之類的可以用,不過我個人感覺那實在是肥大了點。加上好玩,就用 wget 試了一下。
無名的 page source 寫得相當簡單。首先從中找到類似以下這行的 html code。
src=’http://f7.wretch.yimg.com/jolin/6/1509316192.jpg
就可以得到 server_id, user_id, album_id, photo_id(應該明顯到不需要寫出來吧 :))
用這樣的方法找到該相簿第一張與最後一張的 photo_id,寫出類似以下 shell script,執行,就搞定啦。
for ((i=photo_id_start; i<=photo_id_end; i++))
do
wget http://server_id/user_id/album_id/$i.jpg –referer=“http://www.wretch.cc”
done
do
wget http://server_id/user_id/album_id/$i.jpg –referer=“http://www.wretch.cc”
done
基本上 pixnet 也差不多,可以自己試試看。
要注意的是從 photo_id_start 到 photo_id_end 不見得每個 url 都實際存在。但實際測試基本上都滿 OK 的,如果真的隔太遠自己手動調一下也行。我沒有很常抓圖,所以就一直沿用這本質上很暴力的方法,如果有比較好的方法歡迎討論討論。
Tags: Image, Network, Wget, Wretch
. 20 Aug 08 | Network | Comment (1)


