AI Sheets
综合介绍
AI Sheets 是由 Hugging Face 推出的一个开源工具,它提供了一个类似电子表格的界面,让用户不需要编写任何代码,就能使用各种人工智能模型来创建、处理和丰富数据集。你可以将它部署在本地电脑,也可以直接在 Hugging Face 的云端平台(Hub)上免费试用。这个工具深度集成了 Hugging Face Hub 上数以千计的开源模型,甚至包括 OpenAI 的 gpt-oss
模型,让你能够通过简单的自然语言指令来操作数据。
AI Sheets 的核心理念是让数据处理变得更加简单和快捷,它围绕快速实验而构建,鼓励用户先从少量数据开始,验证有效后再扩展到大规模的数据生成流程。在 AI Sheets 中,你可以通过编写提示语(Prompt)来创建新的数据列,并且可以反复迭代优化。一个独特的功能是,你可以直接编辑或“点赞”某个单元格的生成结果,AI Sheets 会自动将这些优质范例作为“少样本示例”(few-shot examples)加入到后续的指令中,从而教会模型更精准地理解你的需求。
功能列表
- 无代码操作:通过类似电子表格的用户界面,使用自然语言提示(Prompt)就能调用AI模型处理数据,无需任何编程知识。
- 数据集生成与扩充:可以从零开始,仅通过一句描述就生成一个全新的数据集;也可以在现有数据集(如地址列表)基础上,利用网络搜索功能添加新的信息列(如补充邮政编码)。
- 模型比较与测试:可以方便地导入一份包含测试问题的数据集,然后为每个想评估的模型创建一个专属列,并用相同的指令进行处理,从而直观地并排比较不同模型的输出结果。
- LLM即评委(LLM-as-Judge):支持利用一个AI模型来自动化地评估另一个或多个AI模型的输出质量,让模型评估过程更加高效。
- 高效的提示语优化:通过直接编辑或“点赞”单元格的输出结果,为模型提供正向反馈。这些反馈会被自动用作“少样本示例”,极大地提升了针对特定数据进行提示语优化的效率。
- 数据集转换与清洗:通过简单的指令,对数据集中的某一列进行处理,例如
从以下文本中移除多余的标点符号:{{text}}
。 - 数据分类与分析:快速对数据集内容进行分类或提取关键信息。例如,使用指令
为以下文本分类:{{text}}
或从以下内容中提取核心观点:{{text}}
。 - 集成网络搜索:在生成数据时可以启用网络搜索功能,以获取更准确、更具时效性的信息。
- 支持本地和自定义模型:除了Hugging Face上的模型,AI Sheets还支持连接和使用本地部署的模型或通过推理服务商提供的模型。
- 文本到图像生成:内置了文本到图像的功能,可以直接在表格中根据文本描述生成相应的图片。
使用帮助
AI Sheets 提供了两种开始方式:从零开始生成一个新数据集,或者导入已有的数据。无论哪种方式,一旦数据加载完成,你就可以在熟悉的电子表格界面中对它进行处理和优化。
第一步:获取数据
选项A:从零开始生成数据集(推荐用于快速体验和创建测试数据)
这种方式就像一个“提示语到数据集”的功能,你用自然语言描述想要什么,AI Sheets 就会为你创建整个数据集的结构和内容。
适用场景:
- 初次探索 AI Sheets 功能。
- 为测试或原型设计快速生成合成数据。
- 进行头脑风暴,对数据多样性和准确性要求不高。
操作方法:
- 在顶部的输入框中描述你想要的数据集。例如,输入
世界上的主要城市,以及它们所属的国家和每个城市的一个地标性建筑图片,风格要像吉卜力动画
。 - AI Sheets 会自动为你生成包含“城市”、“国家”和“图片”三列的表格,并填充5行样例数据。
- 你可以通过拖拽列的右下角来生成更多行,或者修改提示语来改变表格结构。
选项B:导入你的数据集(推荐用于大多数真实场景)
对于大多数需要转换、分类、丰富和分析真实数据的场景,推荐使用导入数据的方式,因为它提供了更高的控制力和灵活性。
适用场景:
- 你手头有现成的数据,并希望用AI模型来处理。
- 你希望生成合成数据,但对数据的准确性和多样性有较高要求。
操作方法:
- 支持上传
XLS
,TSV
,CSV
, 或Parquet
格式的文件。 - 请确保你的文件至少包含一个列名和一行数据。
- 最多可以上传1,000行数据(列数不限)。
- 上传后,你的数据会以电子表格的形式呈现。
第二步:处理你的数据集
数据加载后,就可以开始用AI来处理它了。
- 添加AI列:点击表格最右侧的“+”按钮来添加一个新列。你可以选择推荐的操作(如提取信息、总结、翻译),或者选择
Do something with {{column}}
来自定义你的指令。 - 编写提示语:在新列的配置中,你可以编写指令。使用
{{列名}}
的语法来引用同一行中其他列的数据。例如,根据{{用户反馈}}的内容,总结用户的核心诉求
。
第三步:优化和扩展数据集
这是 AI Sheets 最强大的部分,你可以通过多种方式优化AI生成的结果。
- 添加更多单元格:将鼠标悬停在某一列的最后一个单元格的右下角,光标会变成“+”号,按住并向下拖拽,即可立即生成更多行的内容。这个操作也适用于重新生成出错的单元格。
- 通过手动编辑提供反馈:直接双击任意一个AI生成的单元格并修改内容。你修改后的内容会被系统视为一个“优质范例”。
- 通过“点赞”提供反馈:点击单元格旁边的大拇指图标,可以标记出那些令你满意的生成结果。
- 重新生成以应用反馈:在你进行手动编辑或点赞后,这些单元格在内部被标记为“少样本示例”(few-shot examples)。当你点击列标题旁的刷新按钮重新生成整列时,AI模型会参考这些范例,从而输出更符合你要求的结果。
- 调整列配置:你随时可以修改列的提示语、更换更合适的AI模型、切换不同的模型服务商,或者开关网络搜索功能,然后重新生成列,以获得更好的输出。
第四步:导出与规模化生成
当你对数据集感到满意后,可以将其导出。
- 导出到Hugging Face Hub:点击右上角的导出按钮,可以将数据集发布到Hub。这样做有一个额外的好处:它会自动生成一个
config.yml
配置文件。这个文件记录了你为每一列设置的提示语、模型以及你通过编辑和点赞提供的“少样本示例”。 - 使用Hugging Face Jobs进行大规模生成:对于需要生成大规模数据集(例如超过1000行)的场景,你可以使用上一步导出的
config.yml
文件和官方提供的运行脚本,在Hugging Face Jobs上运行一个数据生成任务。命令示例如下:hf jobs uv run \ -s HF_TOKEN=$HF_TOKEN \ https://huggingface.co/datasets/aisheets/uv-scripts/raw/main/extend_dataset/script.py \ --config https://huggingface.co/datasets/dvilasuero/nemotron-personas-kimi-questions/raw/main/config.yml \ --num-rows 100 \ nvidia/Nemotron-Personas dvilasuero/nemotron-kimi-qa-distilled
应用场景
- 模型测试与比较当你想测试最新的大模型在处理你关心的特定任务上的表现时,AI Sheets 是一个绝佳的平台。你可以导入一个包含问题的样本数据集,然后为每个你想测试的模型(如GPT-OSS、Qwen、Kimi)创建一个专属列,使用相同的提示语进行处理,并直观地并排比较它们的输出质量。
- 使用LLM作为评委进行评估在模型比较的基础上,你可以更进一步,再添加一个“评委列”。在这一列中,使用一个强大的模型(如LLaMA 3)作为评委,让它根据特定标准来评估其他几个模型的输出结果,并给出优劣判断和理由,从而实现自动化的模型评估。
- 为现有数据集添加分类或标签如果你有一个包含大量文本的数据集(例如,用户评论、新闻文章),你可以使用AI Sheets快速为其添加分类。通过编写一个分类提示语(如
将以下评论分类为正面、负面或中性:{{评论内容}}
),并手动修正或点赞几个初始结果来“教会”模型你的分类标准,然后就可以快速为整个数据集打上标签。 - 生成用于微调(Fine-tuning)的高质量合成数据先用一个提示语生成基础数据列(例如,
生成一个IT领域常见的专业人士简介
),然后再创建另一列,引用前一列的数据来生成更复杂的内容(例如,请模仿{{专业人士简介}}的口吻,撰写一封专业的商务邮件
)。通过这种方式,可以创造出结构复杂且内容逼真的合成数据集,用于AI模型的训练。
QA
- AI Sheets和传统的电子表格软件(如Excel, Google Sheets)有什么区别?传统电子表格软件的核心是手动数据输入和公式计算。而AI Sheets将AI模型的能力融入了电子表格的界面中,它的核心是通过自然语言指令(Prompt)来自动生成、转换和分析数据。其独特的“通过编辑和点赞进行反馈”机制,使其成为一个强大的提示语工程和数据迭代工具。
- 使用AI Sheets需要付费吗?AI Sheets本身是一个开源工具,你可以免费在本地部署使用。如果使用Hugging Face官方提供的在线版本,基础功能也是免费的。对于需要大规模推理的用户,Hugging Face 提供了PRO订阅服务,可以获得更多的免费推理额度。
- 我生成的数据是否安全和私密?如果你在本地环境中部署并连接本地模型来运行AI Sheets,所有数据都保留在你自己的电脑上,是完全私密的。如果你使用在线版本,数据会经过 Hugging Face 的服务器进行处理。
- AI Sheets是否支持中文?是的,AI Sheets可以很好地处理中文内容。你可以在提示语中使用中文,并要求它生成中文的输出结果。
- 生成的数据准确性如何保证?AI生成的内容可能存在事实性错误。为了提高准确性,建议在生成需要事实依据的数据时,启用“Search the web”选项。同时,AI Sheets的设计理念就是让人类专家保持在流程中(human-in-the-loop),通过其便捷的编辑和反馈功能,不断对AI生成的内容进行校验和修正,从而提升最终数据的质量。