教学科研

学科建设 学术交流

大数据行业认知讲座 | 数据采集——爬虫

数记青春 2023-12-05

2023年12月1日上午十点由陈鑫老师为2022级大数据专业的同学带来了关于数据采集—爬虫的相关知识点,陈老师分别从爬虫的概念,原理,应用,技术以及技术难点,法律责任和风险方面为我们一一解答。

爬虫概念

网络爬虫(又称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本

图片

爬虫原理

图片

爬虫技术和风险

随后陈老师又告诉了我们,爬虫的技术分别为:聚焦爬虫、通用爬虫、增量爬虫和深层网络爬虫技术。虽然如此爬虫也会带来一些风险。(违反网站意愿,网络不能正常运行、安全性等问题)

应用领域

图片

      陈老师向我们介绍了爬虫的应用领域,让我们知道了例如:网络数据采集,搜索引擎,网络安全、数据分析,自然语言处理等都是通过爬虫实现的。


图片

总结汇报

图片

此次讲座圆满成功,陈老师准备的也相当充分让同学们了解了很多之前不知道的东西,同学们都听的特别认真,过程中还有许多精彩的互动,可谓是受益匪浅。

收获

随着网络科技的发展,作为一名大数据专业的学生掌握一门专业的技术是非常重要的,此次讲座也让我们明白了自己今后的目标和方向。