python实现一个简单的爬虫脚本

6574次阅读 237人点赞 作者: WuBin 发布时间: 2024-12-06 10:48:17
扫码到手机查看

OS库

import os

检测目录存在,不存在则创建输出目录

output_dir = '...'
if not os.path.exists(output_dir):
   os.makedirs(output_dir)

保存内容到文件

content = 'xxx'
// 将output_dir与文件名拼接
filename = os.path.join(output_dir, f'page_1.txt')
with open(filename, 'w', encoding='utf-8') as f:
        f.write(content)

requests

使用requests与BeautifulSoup实现一个简单的爬虫 爬取html页面中静态div中的文本内容

安装BeautifulSoup

> pip install -r requirements.txt
import requests
from bs4 import BeautifulSoup

实现一个获取指定网页中特定class=xx的div中的内容

def get_page_content(page_num):
    url = f'https://....?p={page_num}'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }
    
    try:
        response = requests.get(url, headers=headers)
        response.raise_for_status()  # 检查请求是否成功
        soup = BeautifulSoup(response.text, 'html.parser')
        
        # 找到指定class的div
        content_div = soup.find('div', class_='xxx')
        if content_div:
            return content_div.get_text(strip=True)
        return None
    except Exception as e:
        print(f"获取第{page_num}页时发生错误: {str(e)}")
        return None

完整代码

time

添加延迟 避免请求过快

import time
time.sleep(2)

完整脚本代码

import requests
from bs4 import BeautifulSoup
import time
import os

def get_page_content(page_num):
    url = f'https://www.doyo.cn/article/243714?p={page_num}'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }
    
    try:
        response = requests.get(url, headers=headers)
        response.raise_for_status()  # 检查请求是否成功
        soup = BeautifulSoup(response.text, 'html.parser')
        
        # 找到指定class的div
        content_div = soup.find('div', class_='CH243714PsfiiY01QjM3f')
        if content_div:
            return content_div.get_text(strip=True)
        return None
    except Exception as e:
        print(f"获取第{page_num}页时发生错误: {str(e)}")
        return None

def save_content(content, page_num):
    # 创建输出目录
    output_dir = 'output'
    if not os.path.exists(output_dir):
        os.makedirs(output_dir)
    
    # 保存内容到文件
    filename = os.path.join(output_dir, f'page_{page_num}.txt')
    with open(filename, 'w', encoding='utf-8') as f:
        f.write(content)
    print(f"第{page_num}页内容已保存到 {filename}")

def main():
    print("开始爬取内容...")
    for page_num in range(1, 12):  # 1到11页
        print(f"正在获取第{page_num}页...")
        content = get_page_content(page_num)
        if content:
            save_content(content, page_num)
        else:
            print(f"第{page_num}页内容获取失败")
        # 添加延时,避免请求过快
        time.sleep(2)
    print("爬取完成!")

if __name__ == '__main__':
    main()

get_page_content这个函数还可以再优化下,根据div中的p标签,对文字内容进行换行

def get_page_content(page_num):
    url = f'https://www.doyo.cn/article/243714?p={page_num}'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }
    
    try:
        response = requests.get(url, headers=headers)
        response.raise_for_status()  # 检查请求是否成功
        soup = BeautifulSoup(response.text, 'html.parser')
        
        # 找到指定class的div
        content_div = soup.find('div', class_='CH243714PsfiiY01QjM3f')
        if content_div:
            # 获取所有段落
            paragraphs = content_div.find_all('p')
            # 将每个段落的文本连接起来,用换行符分隔
            content = '\n\n'.join([p.get_text(strip=True) for p in paragraphs if p.get_text(strip=True)])
            return content
        return None
    except Exception as e:
        print(f"获取第{page_num}页时发生错误: {str(e)}")
        return None

关于__name__

if __name__ == '__main__':
    main()

这段代码的意思是:只有当文件被直接运行时,才会执行main()函数;如果这个文件被其他文件导入,main()函数就不会被执行。这样可以让你的代码更加灵活和可重用。

  1. 直接运行与导入的区别

    • 当你直接运行一个Python文件时,Python会将特殊变量__name__设置为'__main__'
    • 当你将这个文件作为模块导入到其他文件时,__name__会被设置为模块的名称
  2. 主要用途

    • 可以防止代码被导入时自动执行
    • 可以控制代码的执行逻辑
    • 是一种代码组织的最佳实践
  3. 实际应用场景

    • 当你的Python文件既可以作为脚本直接运行,又可以作为模块被导入时
    • 用于测试代码,测试代码只在直接运行文件时执行,而在导入时不执行
    • 可以把主要的程序逻辑放在main()函数中,更好地组织代码结构
点赞 支持一下 觉得不错?客官您就稍微鼓励一下吧!
关键词:python,os
推荐阅读
  • uniapp实现被浏览器唤起的功能

    当用户打开h5链接时候,点击打开app若用户在已经安装过app的情况下直接打开app,若未安装过跳到应用市场下载安装这个功能在实现上主要分为两种场景,从普通浏览器唤醒以及从微信唤醒。

    9867次阅读 644人点赞 发布时间: 2022-12-14 16:34:53 立即查看
  • Vue

    盘点Vue2和Vue3的10种组件通信方式

    Vue中组件通信方式有很多,其中Vue2和Vue3实现起来也会有很多差异;本文将通过选项式API组合式API以及setup三种不同实现方式全面介绍Vue2和Vue3的组件通信方式。

    4454次阅读 330人点赞 发布时间: 2022-08-19 09:40:16 立即查看
  • JS

    几个高级前端常用的API

    推荐4个前端开发中常用的高端API,分别是MutationObserver、IntersectionObserver、getComputedstyle、getBoundingClientRect、requ...

    14666次阅读 959人点赞 发布时间: 2021-11-11 09:39:54 立即查看
  • PHP

    【正则】一些常用的正则表达式总结

    在日常开发中,正则表达式是非常有用的,正则表达式在每个语言中都是可以使用的,他就跟JSON一样,是通用的。了解一些常用的正则表达式,能大大提高你的工作效率。

    13780次阅读 510人点赞 发布时间: 2021-10-09 15:58:58 立即查看
  • 【中文】免费可商用字体下载与考证

    65款免费、可商用、无任何限制中文字体打包下载,这些字体都是经过长期验证,经得住市场考验的,让您规避被无良厂商起诉的风险。

    12327次阅读 992人点赞 发布时间: 2021-07-05 15:28:45 立即查看
  • Vue

    Vue3开发一个v-loading的自定义指令

    在vue3中实现一个自定义的指令,有助于我们简化开发,简化复用,通过一个指令的调用即可实现一些可高度复用的交互。

    16669次阅读 1334人点赞 发布时间: 2021-07-02 15:58:35 立即查看
  • JS

    关于手机上滚动穿透问题的解决

    当页面出现浮层的时候,滑动浮层的内容,正常情况下预期应该是浮层下边的内容不会滚动;然而事实并非如此。在PC上使用css即可解决,但是在手机端,情况就变的比较复杂,就需要禁止触摸事件才可以。

    15301次阅读 1245人点赞 发布时间: 2021-05-31 09:25:50 立即查看
  • Vue

    Vue+html2canvas截图空白的问题

    在使用vue做信网单页专题时,有海报生成的功能,这里推荐2个插件:一个是html2canvas,构造好DOM然后转canvas进行截图;另外使用vue-canvas-poster(这个截止到2021年3月...

    30269次阅读 2384人点赞 发布时间: 2021-03-02 09:04:51 立即查看
  • Vue

    vue-router4过度动画无效解决方案

    在初次使用vue3+vue-router4时候,先后遇到了过度动画transition进入和退出分别无效的情况,搜遍百度没没找到合适解决方法,包括vue-route4有一些API都进行了变化,以前的一些操...

    26306次阅读 2026人点赞 发布时间: 2021-02-23 13:37:20 立即查看
交流 收藏 目录