node的简单爬虫
本文最后更新于:2024年11月17日 晚上
你们看到这个封面可能以为我是用的playwright,其实不是,只是一个简单的小功能
关于爬虫呢,就是可以代替人去做一些本来是人可以做的东西,但是会很繁琐和麻烦。
!!! 有些数据是不能爬取滴
我们的互联网就是一张超级大的蜘蛛网,而每一个你想要了解的知识就是一个个食物,爬虫呢就是那只蜘蛛,可以通过每条特定的线路去获取食物,这个特定的线路就是每个url(网址)
我所知道到的爬虫工具有puppeteer、playwright、selenium、scrapy
爬虫大概有四个步骤
- 获取目标网页数据
- 分析目标网页得到想要的数据
- 下载数据
- 保存数据
例子:
就拿我的网站https://badspider.top 来做个例子吧
首先要npm init -y
初始化一个node项目,然后需要下载一些必须的包
cnpm i axios download cheerio –save
1 |
|
最后console.log(arr)出来的数据
- 总结:
学习到了cheerio这个库的使用,服务器端的JQuery,可以很方便的操作DOM,同时也小小的体验了一下爬虫的乐趣哈哈哈哈,最开始学网页就是因为python里面的爬虫要学一丢丢的网页知识才学的前端,结果学着学着就喜欢上了前端,觉得在计算机里面有很多有趣的事情可以靠自己去实现,只需要一点点的时间就可以了,还是很nice的,接下来就是看playwright的文档了
小彩蛋:
windows 下面自带的表情里面居然也有这个🎭哈哈哈哈,playwright的图标,很喜欢这个风格,还有sails.js的风格也蛮不错的
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!