python爬虫神器Headless Chrome浏览器的安装及使用
Headless Chrome
headless chrome 无头浏览器是一种没有操作界面的浏览器,常用于网页自动化测试,利用其提供的API,可以自动执行操作指令,它是测试利器,也是爬虫神器
在浏览器中手动完成的大多数事情都可以通过使用 Puppeteer 完成,下面是一些入门的例子:
生成屏幕截图和 PDF 页面
检索 SPA 并生成预渲染内容(即“SSR”)
从网站上爬取内容
自动提交表单,UI测试,键盘输入等
这就是为爬虫准备的啊,一个命令行控制的浏览器。
什么是Headless Chrome?
在Chrome59中开始搭载Headless Chrome。这是一种在无需显示headless的环境下运行Chrome 浏览器的方式。从本质上来说,就是不用Chrome浏览器来运行Chrome的功能!它将Chromium和Blink渲染引擎提供的所有现代Web平台的功能都带入了命令行。
headless其实是Chrome浏览器的一种特性,可以在无图形界面的情况下解析网站资源
intoli
开始安装之前我们来了解一下这家公司
我们(intoli)是一家在数据采集,处理和分析方面具有深厚专业知识的咨询机构。
安装Headless Chrome
intoli在其博客上介绍了几种安装Headless Chrome的方式,我们采用如下方式安装:
curl https://intoli.com/install-google-chrome.sh | bash
安装完成提示:
Successfully installed Google Chrome!
intoli安装文档
运行chrome
我们可以通过如下命令来启动Chrome,同时将博客截图保存
google-chrome-stable --no-sandbox --headless --disable-gpu --screenshot http://ioozu.com
Chromedriver
chromedriver可以前往淘宝镜像下载,同时通过下面命令进行验证:
./chromedriver Starting ChromeDriver 73.0.3683.68 (47787ec04b6e38e22703e856e101e840b65afe72) on port 9515 Only local connections are allowed. Please protect ports used by ChromeDriver and related test frameworks to prevent access by malicious code.
如果有如上输出则表示驱动正常运行
点击链接加入群聊三群:751529538
点击链接加入群聊二群:376877156
点击链接加入群聊【路由器交流群:622891808已满】
本站附件分享,如果附件失效,可以去找找看
饿了么红包