教程2026年6月16日4,357 浏览约 7 分钟阅读

Excel数据太乱?用Gemini3.5生成清洗脚本

Excel表格中常见的日期混乱、金额列异常、重复数据等问题如何处理?本文结合Gemini 3.5与pandas代码,梳理一套可复用的数据清洗与分析流程。

Excel数据太乱?用Gemini3.5生成清洗脚本

在日常办公和数据分析场景中,Excel 依然是最常见的数据载体。无论是销售订单、用户反馈、库存报表、财务流水,还是活动投放数据,很多团队都会先把信息沉淀在表格里。但真正开始分析时,最大的问题往往不是“不会做图表”,而是数据本身不够干净:日期格式不统一、金额列混入文字、字段命名不规范、重复记录过多、空值没有明确标记,甚至同一个业务含义会出现在多个不同列名中。

过去处理这类问题,通常依赖人工筛选、Excel 公式、Power Query 或 Python 脚本。对于熟悉 pandas 的开发者来说,清洗 Excel 并不算复杂;但对于业务人员来说,从发现问题到写出稳定脚本,中间仍然有明显门槛。Gemini 3.5 的价值,正是在这个环节体现出来:它可以先理解表格结构,再给出清洗策略,最后生成可执行代码,把“看表格、找问题、写脚本、出结论”串成一条较完整的工作流。

一、为什么 Excel 数据清洗最容易耗时间

很多 Excel 文件看起来只是几千行或几万行,但真正处理时会遇到不少细节问题。比如“销售额”字段理论上应该是数值,但里面可能混入“待确认”“无”“-”等文本;“下单日期”字段可能同时存在 2026/06/012026-06-016月1日,甚至还有 Excel 序列号;“客户名称”字段也可能存在空格、大小写、简称和全称混用等问题。

如果直接基于这些数据做透视表或图表,很容易得到错误结论。金额列无法求和、日期无法分组、重复订单被重复统计,都会让后续分析失真。因此,数据分析的第一步不是画图,而是建立一套可靠的清洗规则。

Gemini 3.5 在这个流程中的作用,是先帮用户识别字段类型和异常模式。例如上传表格后,可以让它先输出一份“数据质量诊断报告”,包括哪些列存在缺失、哪些列疑似类型不一致、哪些字段适合做分组维度、哪些字段不适合直接参与计算。相比人工逐列检查,这种方式可以更快定位问题,也方便后续制定清洗方案。

二、从自然语言到 pandas 清洗脚本

原文中提到的一个典型场景,是数值列中混入了“待确认”这类文本。传统做法是手动筛选或写代码逐列判断,而 Gemini 3.5 可以根据自然语言要求生成 pandas 脚本。比如可以给出这样的提示词:

请生成 Python 代码,遍历所有数值列,把“待确认”“-”“无”等无法计算的文本统一转为缺失值,并将可转换的内容转为数值类型,保留异常日志。

对应的代码可以写成下面这样:

import pandas as pd
import numpy as np

input_file = "raw_data.xlsx"
output_file = "cleaned_data.xlsx"
log_file = "clean_log.csv"

df = pd.read_excel(input_file)

invalid_values = ["待确认", "-", "无", "暂无", "N/A", "na", ""]

logs = []

for col in df.columns:
    original_non_null = df[col].notna().sum()

    # 先统一清理字符串前后空格
    if df[col].dtype == "object":
        df[col] = df[col].astype(str).str.strip()
        df[col] = df[col].replace(invalid_values, np.nan)

    # 尝试将字段转换为数值
    converted = pd.to_numeric(df[col], errors="coerce")

    # 如果转换后仍保留较多有效值,则认为该列可作为数值列处理
    valid_ratio = converted.notna().sum() / max(original_non_null, 1)

    if valid_ratio > 0.6:
        error_count = df[col].notna().sum() - converted.notna().sum()
        logs.append({
            "column": col,
            "valid_ratio": round(valid_ratio, 4),
            "error_count": int(error_count)
        })
        df[col] = converted

df.to_excel(output_file, index=False)
pd.DataFrame(logs).to_csv(log_file, index=False, encoding="utf-8-sig")

print("清洗完成,已生成 cleaned_data.xlsx 和 clean_log.csv")

这段代码的关键不是复杂,而是把清洗动作标准化:先读取 Excel,再统一异常值,再尝试类型转换,最后输出清洗后的文件和日志。这样做的好处是,业务人员不会只得到一个“看似正常”的结果,还能看到哪些列被修改、异常值大概有多少,后续便于复查。

这里也能看出 AI 辅助数据处理的一个实用方向:它不是简单替你点击 Excel,而是把模糊需求转成可执行逻辑。用户只需要描述“哪些内容算异常”“希望输出什么结果”,AI 就可以生成一版初始脚本,再由开发者或数据人员继续优化。

三、AI 适合做什么,不适合做什么

在 Excel 数据分析中,Gemini 3.5 更适合承担三类任务。

第一类是结构理解。它可以快速判断一张表大概包含哪些业务对象,比如订单、客户、商品、渠道、地区、时间等。对于字段命名混乱的表格,它也能给出更规范的命名建议。

第二类是清洗方案设计。比如日期统一、金额转换、重复行识别、缺失值处理、异常值标记,这些规则可以先由 AI 给出,再由人确认是否符合业务逻辑。

第三类是代码生成。对于常见的 pandas 操作,例如 read_excelto_datetimeto_numericdrop_duplicatesgroupbypivot_table,AI 可以显著降低起步门槛。对于需要频繁切换不同模型能力的开发者,也可以通过 koalaapi 这类大模型 API 聚合平台统一调用多个模型,用于测试不同模型在表格理解、代码生成和摘要归纳上的差异。

但 AI 不适合完全替代人工判断。比如“退款订单是否应该计入销售额”“异常高金额是不是刷单”“缺失值应该删除还是补零”,这些问题并不是纯技术问题,而是业务规则问题。AI 可以提示风险,但最终规则必须由熟悉业务的人决定。尤其是财务、订单、库存等高敏感数据,不能只看 AI 输出是否流畅,还要检查规则是否合理、结果是否可复现。

四、从清洗到分析:让结论更可靠

完成清洗后,下一步才是分析。常见分析动作包括按日期查看销售趋势、按渠道统计转化效果、按地区比较订单金额、识别高价值客户、观察异常波动等。清洗后的数据可以继续用 pandas 生成汇总表:

summary = (
    df.groupby("渠道")
      .agg(
          订单数=("订单ID", "count"),
          销售额=("销售额", "sum"),
          平均客单价=("销售额", "mean")
      )
      .reset_index()
      .sort_values("销售额", ascending=False)
)

summary.to_excel("channel_summary.xlsx", index=False)
print(summary)

如果表格中包含日期字段,也可以进一步做趋势分析:

df["下单日期"] = pd.to_datetime(df["下单日期"], errors="coerce")

daily_sales = (
    df.dropna(subset=["下单日期"])
      .groupby(df["下单日期"].dt.date)["销售额"]
      .sum()
      .reset_index()
)

daily_sales.columns = ["日期", "销售额"]
daily_sales.to_excel("daily_sales.xlsx", index=False)

这类代码并不复杂,但它解决了一个核心问题:分析结论必须建立在干净、结构化、可复查的数据之上。否则,图表越漂亮,误导性可能越强。很多数据分析失误,并不是统计方法多复杂,而是前面的清洗规则没有统一,导致不同人用同一份表格得出了不同结论。

五、一个更稳妥的使用流程

如果要把 Gemini 3.5 用在真实办公数据分析中,可以按下面的流程操作。

第一步,上传原始 Excel,让 AI 先做字段解释和数据质量诊断,不要一上来就要求生成图表。

第二步,让 AI 输出清洗规则,明确哪些值要转为空、哪些列要转为日期、哪些字段要去重、哪些异常值需要保留日志。

第三步,让 AI 生成 pandas 脚本,并要求代码包含异常处理、输出文件、日志文件和必要注释。

第四步,在小样本数据上先跑一遍,检查结果是否符合业务逻辑,再处理完整数据。

第五步,让 AI 基于清洗后的汇总结果生成分析结论,而不是直接基于原始脏数据写报告。

这个流程看似多一步,实际能减少大量返工。尤其在多人协作场景中,清洗规则、代码脚本和输出日志都应该保留下来,方便后续复盘和复用。否则每次都靠人工临时处理,效率低,也很难保证结果一致。

六、总结

Gemini 3.5 处理 Excel 数据的真正价值,不是简单替代 Excel,也不是让所有人都不再学习 pandas,而是把数据分析前半段的门槛降低了。它可以帮助用户更快发现脏数据,更快形成清洗策略,更快生成可运行脚本,并把分析工作从“手工修表”推进到“规则化处理”。

不过,AI 生成的代码和结论都需要验证。对于开发者来说,它是一个高效的脚本助手;对于业务人员来说,它是一个理解表格、梳理规则、生成初稿的分析助理。只有把 AI 的生成能力和人的业务判断结合起来,Excel 数据分析才会真正变得更稳定、更高效。

标签GeminiExcel数据清洗AI数据分析
Koala API · 一站式大模型 API 中转

把博客读到的,落地到你的下一个项目

国内直连 · 兼容 OpenAI SDK · GPT / Claude / Gemini 等主流模型聚合

延伸阅读

免费注册