当前位置:首页 > 专栏 > 互联网 > 正文内容

如何模拟搜索引擎爬虫抓取网站?

seo宾9个月前 (03-11)互联网591

一、直接上答案,语法如下:

curl -A "爬虫UA" "页面URL"

二、以禁止百度移动端爬虫为例:

微信图片_20240311113503.png

Windows 10 操作方法如上图

(一)命令符如下:

curl -A "Mozilla/5.0(Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko)Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)" "https://m.1baidu.com/"

(二)解读:

1、curl:

cURL是一个利用URL语法在命令行下工作的文件传输工具,1997年首次发行。支持的通信协议有FTP、FTPS、HTTP、HTTPS、TFTP、SFTP、Gopher、SCP、Telnet、DICT、FILE、LDAP、LDAPS、IMAP、POP3、SMTP和RTSP。

2、-A:

option:-A/--user-agent <string>              设置用户代理发送给服务器

-A可以让我们指定浏览器去访问网站

3、百度移动端-爬虫UA:

Mozilla/5.0(Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko)Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)

搜索引擎爬虫大全

4、目标页面URL:

https://m.1baidu.com/



扫描二维码推送至手机访问。

版权声明:本文由字母汇发布,如需转载请注明出处。

本文链接:https://www.izzi.cn/post/153970.html

分享给朋友:

“如何模拟搜索引擎爬虫抓取网站?” 的相关文章

SEOer日常每天需要做什么

一、流量检查项频次是否必须说明总流量:PV、UV、IP……每日是监控流量是否异常渠道来源:搜索来源、直接访问和其他每日是监控渠道数据是否异常各业务线频道:PV、UV、IP……每日是保障重点业务,才是最重要的重点业务线频道渠道来源:搜索来源、直接访问和其他每日否补充查找重点业务线异常流量来源各个搜索引...

如何快速获取SEO流量?优质内容网站效果最佳

如何快速获取SEO流量?做用户搜索聚合页,是个不错的选择。前提条件:有大量优质的原创内容(没有也能做,但效果一般或是短期效果)。案例:1688、京东、阿里云、腾讯云、抖音、懂车帝……如何做?一、明确行业内用户需求,找到用户搜索词(爱站、5118都有搜索词提供)。二、调研自己官网用户搜索词的覆盖情况(...

网站URL书写规则

网站的网址结构尽可能使用简单、易懂的字词,使网址结构合乎逻辑并易于人们理解。同时,也要兼顾同类页面的收录查询和数据统计。建议:在网址中使用简单、说明性字词:https://www.izzi.cn/wiki/建议:在网址中使用已本地化的字词(如果适用)。https://www.example.com/...

网站常用中英文对比大全

首页:Home page搜索:Search登录:Login注册:Register个人资料:Profile设置:Settings帮助:Help联系我们:Contact us关于我们:About us产品:Products服务:Services新闻:News博客:Blog下载:Download上传:Up...

文章网页常用中英文对比大全

文章:Article标题:Title作者:Author发布日期:Publish date阅读量:Pageviews评论:Comments目录:Table of contents摘要:Abstract引言:Introduction内容:Content结论:Conclusion参考文献:Referenc...

网站数据分析中英文对比大全

数据分析:Data analysis统计:Statistics报告:Report指标:Metrics图表:Charts表格:Tables趋势:Trends增长率:Growth rate用户:Users访问量:Visits页面浏览量:Pageviews会话:Sessions平均停留时间:Average...