robots.txt - 網站對搜尋引擎爬蟲的聲明文件
搜尋引擎:google, yahoo, bing...
robots.txt統一位於http://網站基本網址/robots.txt , 如:http://edition.cnn.com/robots.txt
允許搜尋引擎爬取的部分以Allow標記,反之以Disallow標記
Allow: /partners/ipad/live-video.json
Disallow: /editionssi
- 一次爬取大量資料,或爬蟲做商業用途時,除網站本身的版權聲明,還須注意Disallow的部分