如何模拟搜索引擎爬虫抓取网站?
一、直接上答案,语法如下:
curl -A "爬虫UA" "页面URL"
二、以禁止百度移动端爬虫为例:
Windows 10 操作方法如上图
(一)命令符如下:
curl -A "Mozilla/5.0(Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko)Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)" "https://m.1baidu.com/"
(二)解读:
1、curl:
cURL是一个利用URL语法在命令行下工作的文件传输工具,1997年首次发行。支持的通信协议有FTP、FTPS、HTTP、HTTPS、TFTP、SFTP、Gopher、SCP、Telnet、DICT、FILE、LDAP、LDAPS、IMAP、POP3、SMTP和RTSP。
2、-A:
option:-A/--user-agent <string> 设置用户代理发送给服务器
-A可以让我们指定浏览器去访问网站
3、百度移动端-爬虫UA:
Mozilla/5.0(Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko)Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)
《搜索引擎爬虫大全》
4、目标页面URL:
https://m.1baidu.com/