Python进阶-day 26:自动化脚本 - 使用 Selenium 实现网页搜索

发布时间：2025-05-06 16:20:10

19 阅读

0 评论

文章标签： html 搜索框

学习目标

理解 Selenium 的基础用法，掌握如何控制浏览器进行自动化操作。
学习如何定位网页元素并与之交互（如输入文本、点击按钮）。
完成一个简单的自动化任务：在百度搜索“Selenium”并查看结果。

课程内容

1. 准备工作

安装 Selenium：在你的 Python 环境中安装 Selenium：bash
pip install selenium
下载 ChromeDriver：

访问 chromedriver.chromium.org，下载与你的 Chrome 浏览器版本匹配的 ChromeDriver（例如，Chrome 135.x 需要对应的 ChromeDriver）。
将 ChromeDriver 放置在指定路径，例如 /Users/xxxx/Downloads/chromedriver-mac-arm64/chromedriver。

验证环境：确保你的 Python 脚本可以找到 ChromeDriver，并确认 Chrome 浏览器已安装。

2. 学习 Selenium 基础

导入必要的库：python

import time
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By

time：用于添加暂停以便观察结果。
webdriver：Selenium 的核心模块，用于控制浏览器。
Service：管理 ChromeDriver 的服务。
By：用于定位网页元素。

设置 ChromeDriver 路径：python指定 ChromeDriver 的路径并创建服务对象。

driver_path = "/Users/xxxx/Downloads/chromedriver-mac-arm64/chromedriver"
service = Service(driver_path)

配置 Chrome 选项：python添加选项以减少网站检测到自动化行为（例如隐藏 Selenium 特征）。

options = webdriver.ChromeOptions()
options.add_argument("--disable-blink-features=AutomationControlled")
options.add_experimental_option("excludeSwitches", ["enable-automation"])
options.add_experimental_option("useAutomationExtension", False)

初始化 WebDriver：python创建 Chrome WebDriver 实例，启动浏览器。

driver = webdriver.Chrome(service=service, options=options)

打开网页：python使用 driver.get() 打开百度首页。

driver.get("https://www.baidu.com")

定位元素并交互：

定位搜索框（id="kw"）并输入文本：python

driver.find_element(By.ID, 'kw').send_keys("selenium")

By.ID：通过元素的 id 属性定位。
send_keys()：模拟键盘输入，输入搜索关键词“Selenium”。

定位搜索按钮（id="su"）并点击：python

driver.find_element(By.ID, 'su').click()

click()：模拟鼠标点击，触发搜索。

错误处理与清理：

使用 try-except 捕获可能出现的异常：python

try:
    # 自动化操作
except Exception as e:
    print(f"发生错误：{e}")
    time.sleep(10)  # 暂停以便检查

使用 finally 确保浏览器关闭：python

finally:
    driver.quit()  # 关闭浏览器

3. 完整代码示例

以下是完整的自动化脚本，用于在百度搜索“Selenium”：

python

import time
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By

# 设置 chromedriver 路径
driver_path = "/Users/xxxx/Downloads/chromedriver-mac-arm64/chromedriver"
service = Service(driver_path)

# 配置 Chrome 选项以减少自动化检测
options = webdriver.ChromeOptions()
options.add_argument("--disable-blink-features=AutomationControlled")
options.add_experimental_option("excludeSwitches", ["enable-automation"])
options.add_experimental_option("useAutomationExtension", False)

try:
    # 初始化 Chrome WebDriver
    driver = webdriver.Chrome(service=service, options=options)

    # 打开百度首页
    driver.get("<https://www.baidu.com>")

    # 定位搜索框并输入关键词
    driver.find_element(By.ID, 'kw').send_keys("selenium")

    # 定位搜索按钮并点击
    driver.find_element(By.ID, 'su').click()

    print("搜索成功！")

    # 暂停查看结果
    time.sleep(5)

except Exception as e:
    print(f"发生错误：{e}")
    # 暂停以便手动检查页面
    time.sleep(10)

finally:
    # 关闭浏览器
    driver.quit()

4. 运行结果

运行脚本后： Chrome 浏览器会自动打开并访问 https://www.baidu.com。搜索框中会输入“selenium”。点击搜索按钮后，页面显示搜索结果。脚本暂停 5 秒以便查看结果，然后关闭浏览器。
如果发生错误，脚本会打印错误信息并暂停 10 秒，方便调试。

扩展练习

改进等待机制：

当前脚本使用 time.sleep() 进行固定等待，可能不稳定。尝试使用 Selenium 的显式等待（WebDriverWait）：python

from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# 等待搜索框出现
search_box = WebDriverWait(driver, 10).until(
    EC.element_to_be_clickable((By.ID, "kw"))
)
search_box.send_keys("selenium")

# 等待搜索按钮可点击
search_button = WebDriverWait(driver, 10).until(
    EC.element_to_be_clickable((By.ID, "su"))
)
search_button.click()

这样可以确保元素加载完成后再操作，提高脚本稳定性。

提取搜索结果：

在搜索完成后，提取第一条搜索结果的标题：python

first_result = WebDriverWait(driver, 10).until(
    EC.presence_of_element_located((By.XPATH, "//h3[contains(@class, 't')]"))
)
print(f"第一条搜索结果标题：{first_result.text}")

检查百度搜索结果页面的 HTML 结构，调整 XPath 或其他定位方式。

保持浏览器打开：

如果需要在搜索后执行更多操作（例如点击搜索结果），可以移除 finally 块中的 driver.quit()，并添加交互式选项：python

print("搜索完成，浏览器将保持打开状态...")
input("按 Enter 键关闭浏览器...")
driver.quit()

注意事项

ChromeDriver 版本匹配：

确保 ChromeDriver 版本与 Chrome 浏览器版本匹配。如果不匹配，可能导致 driver.get() 失败。

如果遇到问题，可以使用 webdriver-manager 自动管理 ChromeDriver：python

from webdriver_manager.chrome import ChromeDriverManager
service = Service(ChromeDriverManager().install())

反自动化检测：

百度可能会检测到自动化行为（尽管可能性较低）。当前脚本已添加反检测选项（如 --disable-blink-features=AutomationControlled），但如果仍被识别，可以：

添加随机延迟：time.sleep(random.uniform(1, 3))（需导入 random）。

设置 User-Agent：python

options.add_argument("user-agent=Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/135.0.0.0 Safari/537.36")

macOS 权限问题：

如果 macOS 阻止 ChromeDriver 运行，运行以下命令移除隔离属性：bash

xattr -d com.apple.quarantine /Users/xxxx/Downloads/chromedriver-mac-arm64/chromedriver

确保 ChromeDriver 有执行权限：bash

chmod +x /Users/xxxx/Downloads/chromedriver-mac-arm64/chromedriver

总结

你学习了如何使用 Selenium 自动化控制 Chrome 浏览器，完成了在百度搜索“Selenium”的任务。
掌握了基本的元素定位（By.ID）和交互方法（send_keys 和 click）。
通过扩展练习，你可以进一步学习显式等待、提取页面内容等高级用法。

建议：尝试将脚本应用到其他搜索引擎（例如 Google）或更复杂的页面，练习不同的元素定位方式（By.XPATH、By.CLASS_NAME 等）。如果遇到问题（如元素未找到或反自动化检测），可以手动检查页面 HTML 或调整脚本。

如果需要更复杂的自动化任务（例如登录网站、爬取数据），请继续学习下一课！