# 初识爬虫

# 应用场景

  • 为大数据和人工智能提供数据支持
  • 数据分析
  • 搜索引擎
  • 12306抢票
  • 网站投票
  • 短信轰炸
    • 验证码注册

# 爬虫定义

模拟浏览器发送请求,接收请求响应,按照自动抓取信息的程序

# 爬虫分类

  • 通用爬虫:通常指搜索引擎的爬虫
  • 聚焦爬虫:针对特定网站的爬虫

# 爬虫工作流程

  1. 发送请求
  2. 获取响应
    • ->提取url,发送请求
  3. 数据解析
  4. 数据存储

爬虫要根据当前url地址对应的响应为准,当前url的elements的内容和url的响应不一样

  • 页面上的数据在哪里
    • 当前url地址对应的响应中
    • 其他url地址对应的响应中
      • ajax请求
    • js生成
      • 部分由js生成
      • 全部由js生成
      • 例:
        • token
        • 时间戳
        • 请求参数

# HTTP 和 HTTPS

  • http
    • 超文本传输协议
    • 默认端口:80
  • https
    • HTTP+SSL(安全套接字层)
    • 默认端口号:443

HTTPS比HTTP更安全,但性能更低

# 搜索引擎爬虫

  • PageRank 算法

  • 局限性

    • 大多数返回内容无用
    • 图片、音频、视频内容搜索引擎支持较差
    • 不同用户目的不同,返回内容相同

# ROBOTS协议

  • 一般在根目录/robots.txt
    • 淘宝
      User-agent:  Baiduspider
      Allow:  /article
      Allow:  /oshtml
      Allow:  /ershou
      Allow: /$
      Disallow:  /product/
      Disallow:  /
      
      User-Agent:  Googlebot
      Allow:  /article
      Allow:  /oshtml
      Allow:  /product
      Allow:  /spu
      Allow:  /dianpu
      Allow:  /oversea
      Allow:  /list
      Allow:  /ershou
      Allow: /$
      Disallow:  /
      

# 一次请求

评 论: