Home Contact Sitemap

Team Programming Dragon.編程龍

Programming Art、C++、Python、Django、LinuxDev、HCI、Graphics、Web2.0。讓我們成為編程界的朝田龍太郎吧。

Beauty is Our Business

A Birthday Salute to Computer Scientist Edsger W. Dijkstra.

用 wget 抓無名單一相簿

雖說也有幹圖王之類的可以用,不過我個人感覺那實在是肥大了點。加上好玩,就用 wget 試了一下。

無名的 page source 寫得相當簡單。首先從中找到類似以下這行的 html code。

src=’http://f7.wretch.yimg.com/jolin/6/1509316192.jpg

就可以得到 server_id, user_id, album_id, photo_id(應該明顯到不需要寫出來吧 :))

用這樣的方法找到該相簿第一張與最後一張的 photo_id,寫出類似以下 shell script,執行,就搞定啦。

for ((i=photo_id_start; i<=photo_id_end; i++))
do
wget http://server_id/user_id/album_id/$i.jpg –referer=“http://www.wretch.cc”
done

基本上 pixnet 也差不多,可以自己試試看。

要注意的是從 photo_id_start 到 photo_id_end 不見得每個 url 都實際存在。但實際測試基本上都滿 OK 的,如果真的隔太遠自己手動調一下也行。我沒有很常抓圖,所以就一直沿用這本質上很暴力的方法,如果有比較好的方法歡迎討論討論。

Tags: , , ,

. 20 Aug 08 | Network | Comment (1)