教程2026年6月16日4,357 浏览约 7 分钟阅读

Excel数据太乱？用Gemini3.5生成清洗脚本

Excel表格中常见的日期混乱、金额列异常、重复数据等问题如何处理？本文结合Gemini 3.5与pandas代码，梳理一套可复用的数据清洗与分析流程。

在日常办公和数据分析场景中，Excel 依然是最常见的数据载体。无论是销售订单、用户反馈、库存报表、财务流水，还是活动投放数据，很多团队都会先把信息沉淀在表格里。但真正开始分析时，最大的问题往往不是“不会做图表”，而是数据本身不够干净：日期格式不统一、金额列混入文字、字段命名不规范、重复记录过多、空值没有明确标记，甚至同一个业务含义会出现在多个不同列名中。

过去处理这类问题，通常依赖人工筛选、Excel 公式、Power Query 或 Python 脚本。对于熟悉 pandas 的开发者来说，清洗 Excel 并不算复杂；但对于业务人员来说，从发现问题到写出稳定脚本，中间仍然有明显门槛。Gemini 3.5 的价值，正是在这个环节体现出来：它可以先理解表格结构，再给出清洗策略，最后生成可执行代码，把“看表格、找问题、写脚本、出结论”串成一条较完整的工作流。

一、为什么 Excel 数据清洗最容易耗时间

很多 Excel 文件看起来只是几千行或几万行，但真正处理时会遇到不少细节问题。比如“销售额”字段理论上应该是数值，但里面可能混入“待确认”“无”“-”等文本；“下单日期”字段可能同时存在 2026/06/01、2026-06-01、6月1日，甚至还有 Excel 序列号；“客户名称”字段也可能存在空格、大小写、简称和全称混用等问题。

如果直接基于这些数据做透视表或图表，很容易得到错误结论。金额列无法求和、日期无法分组、重复订单被重复统计，都会让后续分析失真。因此，数据分析的第一步不是画图，而是建立一套可靠的清洗规则。

Gemini 3.5 在这个流程中的作用，是先帮用户识别字段类型和异常模式。例如上传表格后，可以让它先输出一份“数据质量诊断报告”，包括哪些列存在缺失、哪些列疑似类型不一致、哪些字段适合做分组维度、哪些字段不适合直接参与计算。相比人工逐列检查，这种方式可以更快定位问题，也方便后续制定清洗方案。

二、从自然语言到 pandas 清洗脚本

原文中提到的一个典型场景，是数值列中混入了“待确认”这类文本。传统做法是手动筛选或写代码逐列判断，而 Gemini 3.5 可以根据自然语言要求生成 pandas 脚本。比如可以给出这样的提示词：

请生成 Python 代码，遍历所有数值列，把“待确认”“-”“无”等无法计算的文本统一转为缺失值，并将可转换的内容转为数值类型，保留异常日志。

对应的代码可以写成下面这样：

import pandas as pd
import numpy as np

input_file = "raw_data.xlsx"
output_file = "cleaned_data.xlsx"
log_file = "clean_log.csv"

df = pd.read_excel(input_file)

invalid_values = ["待确认", "-", "无", "暂无", "N/A", "na", ""]

logs = []

for col in df.columns:
    original_non_null = df[col].notna().sum()

    # 先统一清理字符串前后空格
    if df[col].dtype == "object":
        df[col] = df[col].astype(str).str.strip()
        df[col] = df[col].replace(invalid_values, np.nan)

    # 尝试将字段转换为数值
    converted = pd.to_numeric(df[col], errors="coerce")

    # 如果转换后仍保留较多有效值，则认为该列可作为数值列处理
    valid_ratio = converted.notna().sum() / max(original_non_null, 1)

    if valid_ratio > 0.6:
        error_count = df[col].notna().sum() - converted.notna().sum()
        logs.append({
            "column": col,
            "valid_ratio": round(valid_ratio, 4),
            "error_count": int(error_count)
        })
        df[col] = converted

df.to_excel(output_file, index=False)
pd.DataFrame(logs).to_csv(log_file, index=False, encoding="utf-8-sig")

print("清洗完成，已生成 cleaned_data.xlsx 和 clean_log.csv")

这段代码的关键不是复杂，而是把清洗动作标准化：先读取 Excel，再统一异常值，再尝试类型转换，最后输出清洗后的文件和日志。这样做的好处是，业务人员不会只得到一个“看似正常”的结果，还能看到哪些列被修改、异常值大概有多少，后续便于复查。

这里也能看出 AI 辅助数据处理的一个实用方向：它不是简单替你点击 Excel，而是把模糊需求转成可执行逻辑。用户只需要描述“哪些内容算异常”“希望输出什么结果”，AI 就可以生成一版初始脚本，再由开发者或数据人员继续优化。

三、AI 适合做什么，不适合做什么

在 Excel 数据分析中，Gemini 3.5 更适合承担三类任务。

第一类是结构理解。它可以快速判断一张表大概包含哪些业务对象，比如订单、客户、商品、渠道、地区、时间等。对于字段命名混乱的表格，它也能给出更规范的命名建议。

第二类是清洗方案设计。比如日期统一、金额转换、重复行识别、缺失值处理、异常值标记，这些规则可以先由 AI 给出，再由人确认是否符合业务逻辑。

第三类是代码生成。对于常见的 pandas 操作，例如 read_excel、to_datetime、to_numeric、drop_duplicates、groupby、pivot_table，AI 可以显著降低起步门槛。对于需要频繁切换不同模型能力的开发者，也可以通过 koalaapi 这类大模型 API 聚合平台统一调用多个模型，用于测试不同模型在表格理解、代码生成和摘要归纳上的差异。

但 AI 不适合完全替代人工判断。比如“退款订单是否应该计入销售额”“异常高金额是不是刷单”“缺失值应该删除还是补零”，这些问题并不是纯技术问题，而是业务规则问题。AI 可以提示风险，但最终规则必须由熟悉业务的人决定。尤其是财务、订单、库存等高敏感数据，不能只看 AI 输出是否流畅，还要检查规则是否合理、结果是否可复现。

四、从清洗到分析：让结论更可靠

完成清洗后，下一步才是分析。常见分析动作包括按日期查看销售趋势、按渠道统计转化效果、按地区比较订单金额、识别高价值客户、观察异常波动等。清洗后的数据可以继续用 pandas 生成汇总表：

summary = (
    df.groupby("渠道")
      .agg(
          订单数=("订单ID", "count"),
          销售额=("销售额", "sum"),
          平均客单价=("销售额", "mean")
      )
      .reset_index()
      .sort_values("销售额", ascending=False)
)

summary.to_excel("channel_summary.xlsx", index=False)
print(summary)

如果表格中包含日期字段，也可以进一步做趋势分析：

df["下单日期"] = pd.to_datetime(df["下单日期"], errors="coerce")

daily_sales = (
    df.dropna(subset=["下单日期"])
      .groupby(df["下单日期"].dt.date)["销售额"]
      .sum()
      .reset_index()
)

daily_sales.columns = ["日期", "销售额"]
daily_sales.to_excel("daily_sales.xlsx", index=False)

这类代码并不复杂，但它解决了一个核心问题：分析结论必须建立在干净、结构化、可复查的数据之上。否则，图表越漂亮，误导性可能越强。很多数据分析失误，并不是统计方法多复杂，而是前面的清洗规则没有统一，导致不同人用同一份表格得出了不同结论。

五、一个更稳妥的使用流程

如果要把 Gemini 3.5 用在真实办公数据分析中，可以按下面的流程操作。

第一步，上传原始 Excel，让 AI 先做字段解释和数据质量诊断，不要一上来就要求生成图表。

第二步，让 AI 输出清洗规则，明确哪些值要转为空、哪些列要转为日期、哪些字段要去重、哪些异常值需要保留日志。

第三步，让 AI 生成 pandas 脚本，并要求代码包含异常处理、输出文件、日志文件和必要注释。

第四步，在小样本数据上先跑一遍，检查结果是否符合业务逻辑，再处理完整数据。

第五步，让 AI 基于清洗后的汇总结果生成分析结论，而不是直接基于原始脏数据写报告。

这个流程看似多一步，实际能减少大量返工。尤其在多人协作场景中，清洗规则、代码脚本和输出日志都应该保留下来，方便后续复盘和复用。否则每次都靠人工临时处理，效率低，也很难保证结果一致。

六、总结

Gemini 3.5 处理 Excel 数据的真正价值，不是简单替代 Excel，也不是让所有人都不再学习 pandas，而是把数据分析前半段的门槛降低了。它可以帮助用户更快发现脏数据，更快形成清洗策略，更快生成可运行脚本，并把分析工作从“手工修表”推进到“规则化处理”。

不过，AI 生成的代码和结论都需要验证。对于开发者来说，它是一个高效的脚本助手；对于业务人员来说，它是一个理解表格、梳理规则、生成初稿的分析助理。只有把 AI 的生成能力和人的业务判断结合起来，Excel 数据分析才会真正变得更稳定、更高效。

标签GeminiExcel数据清洗AI数据分析

Koala API · 一站式大模型 API 中转

把博客读到的，落地到你的下一个项目

国内直连 · 兼容 OpenAI SDK · GPT / Claude / Gemini 等主流模型聚合

立即注册查看接入教程

Excel数据太乱？用Gemini3.5生成清洗脚本

一、为什么 Excel 数据清洗最容易耗时间

二、从自然语言到 pandas 清洗脚本

三、AI 适合做什么，不适合做什么

四、从清洗到分析：让结论更可靠

五、一个更稳妥的使用流程

六、总结

把博客读到的，落地到你的下一个项目

延伸阅读

llama-cpp-python实战：Qwen2.5本地大模型流式推理指南

LLM、RAG、Agent、MCP详解：大模型应用架构指南

Qwen2-7B推理成本优化方案：AWQ+LoRA+TensorRT-LLM部署

Claude Code与Codex安全防护：Hook阻断权限逃逸