最近在做一个web挖掘工程, 把某几个网站的rss链接全部下载到本地, 目的是SEO.
自我总结了几点重要经验:
1. 用多个代理服务器进行批处理挖掘, 可以到www.proxycn.com找到每天的最新代理.
2. 最好是随机时间进行页面访问, 不然, webmaster很容易从日志中看到你的行为.
3. 注意下载的数据最好转成utf-8格式存储, 不然, 像中文,日文,韩文之类的数据在保存时会现莫名问题.
Trackbacks:http://www.geekclaw.net/blog/cmd.asp?act=tb&id=119