当前位置：首页 > 游戏攻略> 正文

《英雄联盟》三周年庆S4中国区选拔赛将启

发布时间：06/21 10:58:33

《英雄联盟》S4选拔赛观战数据实时抓取与可视化分析实战

一、环境准备与工具安装

本实战指南将带你从零搭建一个能自动抓取《英雄联盟》S4中国区选拔赛实时数据，并进行本地可视化分析的系统。我们将使用Python作为主要开发语言。

1.1 Python环境与基础包安装

确保你的计算机已安装Python 3.8或更高版本。打开终端（Windows系统请使用PowerShell或CMD），执行以下命令安装必需的核心库：

安装命令：

``` pip install requests==2.31.0 beautifulsoup4==4.12.2 pandas==2.0.3 matplotlib==3.7.2 selenium==4.10.0 ```

这些库的作用分别是：requests用于发送HTTP请求获取网页数据；beautifulsoup4用于解析HTML页面；pandas用于数据处理与分析；matplotlib用于生成图表；selenium用于模拟浏览器行为，应对动态加载的页面。

1.2 浏览器驱动配置（针对动态页面）

部分比赛数据网站采用JavaScript动态渲染，我们需要配置Selenium的浏览器驱动。这里以Chrome浏览器为例。

查看你Chrome浏览器的版本。在浏览器地址栏输入chrome://version/，找到“Google Chrome”后面的版本号（例如：115.0.5790.110）。

访问 https://chromedriver.chromium.org/ 下载与你的Chrome版本号完全匹配的驱动程序。下载后，将可执行文件（chromedriver.exe 或 chromedriver）解压到一个你记得的路径，例如C:\WebDriver\bin\（Windows）或/usr/local/bin/（Mac/Linux）。

关键步骤：将驱动所在目录添加到系统的环境变量PATH中，或后续在代码中指定该驱动文件的绝对路径。

二、确定数据源与页面结构分析

我们以“英雄联盟赛事官网”或大型游戏数据平台（如玩加电竞）的赛事页面作为数据源示例。实际操作前，你需要手动访问目标页面，分析其结构。

2.1 静态页面数据抓取（以赛事官网赛程页为例）

假设目标URL为：https://lpl.qq.com/es/schedule.shtml（此为示例，请替换为实际S4选拔赛页面）。

我们使用Requests库获取页面HTML内容，并用BeautifulSoup解析。

基础抓取代码：

``` import requests from bs4 import BeautifulSoup 目标URL，此处需替换为实际的三周年庆S4选拔赛页面地址 url = ‘YOUR_TARGET_SCHEDULE_URL_HERE’ 添加请求头，模拟浏览器访问，避免被反爬 headers = { ‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36’ } try: response = requests.get(url, headers=headers, timeout=10) response.raise_for_status() 检查请求是否成功 response.encoding = response.apparent_encoding 自动识别编码 soup = BeautifulSoup(response.text, ‘html.parser’) 此时soup对象包含了整个页面的HTML结构，可以开始查找数据 except requests.RequestException as e: print(f“请求页面失败: {e}”) ```

2.2 定位并提取关键数据

使用浏览器的“开发者工具”（F12打开）检查网页元素。找到包含比赛列表的HTML容器，观察其标签和属性。

例如，你可能发现每场比赛信息包裹在一个<div class=“match-item”>的标签内。比赛时间、队伍A、队伍B、比分等信息分别位于其子标签中。

数据提取代码示例：

``` 假设每场比赛信息在 class=‘match-item’ 的div中 match_list = soup.find_all(‘div‘， class_=’match-item’) all_matches_data = [] for match in match_list: 根据实际HTML结构调整选择器 time = match.find(‘span‘， class_=’time’).text.strip() if match.find(‘span‘， class_=’time’) else ‘N/A’ team_a = match.find(‘div‘， class_=’team-a’).text.strip() team_b = match.find(‘div‘， class_=’team-b’).text.strip() score = match.find(‘div‘， class_=’score’).text.strip() match_data = { ‘比赛时间’: time, ‘队伍A’: team_a, ‘队伍B’: team_b, ‘比分’: score } all_matches_data.append(match_data) 打印查看抓取结果 for data in all_matches_data: print(data) ```

注意：上述代码中的CSS选择器（如‘match-item’、‘time’）必须根据你目标网页的实际HTML结构进行修改。这是整个抓取过程中最关键的步骤。

2.3 动态页面数据抓取（使用Selenium）

如果目标页面数据是通过AJAX动态加载的，上述方法只能获取到初始HTML，看不到数据。此时需使用Selenium。

动态抓取代码示例：

``` from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC import time 配置Selenium，指定驱动路径 driver_path = r‘C:\WebDriver\bin\chromedriver.exe’ 请替换为你的实际路径 options = webdriver.ChromeOptions() options.add_argument(‘--headless’) 无头模式，不显示浏览器窗口 options.add_argument(‘--disable-gpu’) driver = webdriver.Chrome(executable_path=driver_path， options=options) driver.get(‘YOUR_DYNAMIC_PAGE_URL_HERE’) 等待特定数据元素加载完成，例如等待比赛列表出现 try: 显式等待最多10秒，直到class为‘match-list’的元素出现 WebDriverWait(driver， 10).until( EC.presence_of_element_located((By.CLASS_NAME， “match-list”)) ) 等待2秒确保数据完全渲染 time.sleep(2) 获取渲染后的页面源码 page_source = driver.page_source soup_dynamic = BeautifulSoup(page_source， ‘html.parser’) 之后的数据提取步骤与2.2节相同，使用soup_dynamic对象进行解析 except Exception as e: print(f“动态页面加载或等待元素失败: {e}”) finally: driver.quit() 关闭浏览器，释放资源 ```

三、数据清洗、存储与结构化

3.1 使用Pandas进行数据清洗

将抓取到的原始数据列表转换为Pandas DataFrame，便于清洗和分析。

数据处理代码：

``` import pandas as pd 将之前抓取的 all_matches_data 列表转为DataFrame df = pd.DataFrame(all_matches_data) 数据清洗示例： 1. 检查缺失值 print(df.isnull().sum()) 2. 去除完全为空的行 df_cleaned = df.dropna(how=‘all’) 3. 规范比分格式，假设原始数据为‘2:1’ def split_score(score_str): try: a， b = score_str.split(‘:’) return int(a)， int(b) except: return None， None df_cleaned[[‘队伍A得分’， ‘队伍B得分’]] = df_cleaned[‘比分’].apply( lambda x: pd.Series(split_score(x)) ) 4. 将比赛时间字符串转换为datetime格式 df_cleaned[‘比赛时间’] = pd.to_datetime(df_cleaned[‘比赛时间’]， errors=‘coerce’) print(df_cleaned.head()) ```

3.2 数据存储

将清洗后的数据保存到本地文件，方便后续分析或避免重复抓取。

存储为CSV和Excel：

``` 保存为CSV文件，编码为UTF-8防止中文乱码 csv_file_path = ‘./s4_selection_matches.csv’ df_cleaned.to_csv(csv_file_path， index=False， encoding=‘utf-8-sig’) print(f“数据已保存至: {csv_file_path}”) 保存为Excel文件，可读性更好 excel_file_path = ‘./s4_selection_matches.xlsx’ df_cleaned.to_excel(excel_file_path， index=False， sheet_name=‘S4选拔赛’) print(f“数据已保存至: {excel_file_path}”) ```

四、数据可视化分析实战

利用Matplotlib对比赛数据进行基础可视化，生成直观的图表。

4.1 各队伍出场次数统计柱状图

生成图表代码：

``` import matplotlib.pyplot as plt import numpy as np 设置中文字体，防止图表中文乱码（根据你的系统调整字体路径） plt.rcParams[‘font.sans-serif’] = [‘SimHei’， ‘Microsoft YaHei’] 指定默认字体 plt.rcParams[‘axes.unicode_minus’] = False 解决负号显示问题统计各队伍出场次数（合并队伍A和队伍B） teams_series = pd.concat([df_cleaned[‘队伍A’]， df_cleaned[‘队伍B’]]) team_appearances = teams_series.value_counts() 绘制柱状图 plt.figure(figsize=(12， 6)) bars = plt.bar(team_appearances.index， team_appearances.values， color=‘skyblue’， edgecolor=‘black’) plt.title(‘S4选拔赛各队伍出场次数统计’， fontsize=16， fontweight=‘bold’) plt.xlabel(‘队伍名称’， fontsize=12) plt.ylabel(‘出场次数’， fontsize=12) plt.xticks(rotation=45， ha=‘right’) 旋转X轴标签，避免重叠在柱子上方添加数字标签 for bar in bars: height = bar.get_height() plt.text(bar.get_x() + bar.get_width()/2.， height， f‘{int(height)}’， ha=‘center’， va=‘bottom’， fontsize=10) plt.tight_layout() 自动调整布局 plt.savefig(‘./team_appearances.png’， dpi=300) 保存图表为图片 plt.show() ```

4.2 比赛时间分布折线图

分析比赛在日期上的分布密度。

生成图表代码：

``` 按日期统计比赛场次 df_cleaned[‘比赛日期’] = df_cleaned[‘比赛时间’].dt.date matches_per_day = df_cleaned[‘比赛日期’].value_counts().sort_index() plt.figure(figsize=(14， 6)) plt.plot(matches_per_day.index.astype(str)， matches_per_day.values， marker=‘o’， linewidth=2， markersize=8， color=‘coral’) plt.title(‘S4选拔赛每日比赛场次趋势’， fontsize=16， fontweight=‘bold’) plt.xlabel(‘比赛日期’， fontsize=12) plt.ylabel(‘比赛场次’， fontsize=12) plt.grid(True， linestyle=‘--’， alpha=0.6) plt.xticks(rotation=30) plt.tight_layout() plt.savefig(‘./matches_daily_trend.png’， dpi=300) plt.show() ```

五、自动化脚本整合与定时执行

将上述步骤整合到一个Python脚本中，并设置定时任务，实现每日自动抓取更新数据。

5.1 创建完整脚本

新建一个Python文件，例如auto_lol_s4_data.py，将第二、三、四节的代码按逻辑顺序整合到函数中。

脚本结构示例：

``` def fetch_data(url， is_dynamic=False): 包含2.1， 2.2， 2.3节的抓取逻辑根据is_dynamic参数选择使用requests或selenium 返回 all_matches_data 列表 pass def clean_and_save_data(raw_data_list): 包含3.1， 3.2节的数据清洗与存储逻辑返回清洗后的DataFrame pass def visualize_data(clean_dataframe): 包含4.1， 4.2节的可视化逻辑 pass if __name__ == ‘__main__’: target_url = “YOUR_ACTUAL_DATA_SOURCE_URL” raw_data = fetch_data(target_url， is_dynamic=True) 根据实际情况设置 if raw_data: df_clean = clean_and_save_data(raw_data) visualize_data(df_clean) print(“数据抓取、分析与可视化完成。”) else: print(“未获取到数据，请检查网络或页面结构是否变更。”) ```

5.2 设置定时任务（以Windows任务计划程序为例）

1. 打开“任务计划程序”（可在开始菜单搜索）。
2. 点击右侧“创建基本任务”。
3. 填写名称，例如“每日抓取LOL S4数据”。
4. 触发器选择“每日”，并设置你希望执行的具体时间（如凌晨2点）。
5. 操作选择“启动程序”。
6. 在“程序或脚本”框中，填写你的Python解释器完整路径（例如C:\Users\YourName\AppData\Local\Programs\Python\Python39\python.exe）。
7. 在“添加参数”框中，填写你的脚本完整路径（例如C:\YourProject\auto_lol_s4_data.py）。
8. 完成设置，脚本将会在指定时间自动运行。

至此，你已经构建了一个完整的《英雄联盟》S4选拔赛数据抓取、处理、分析与可视化系统。请务必根据实际目标网页的HTML结构调整代码中的选择器，这是项目成功的关键。所有代码块均可直接复制修改后使用。

版权保护: 本文由 741卡盟原创，转载请保留链接: http://741ka.com/gamenews/22612.html