Jigsaw Datasets：提升程序合成研究的实用工具

Jigsaw数据集为程序合成和大型语言模型的结合提供了一个宝贵的研究资源。通过深入分析和利用这些数据，研究人员可以推动这一领域的技术进步和理论发展。

直达下载

回到上一页

clickgpt_line.png_noView

介绍

Jigsaw数据集是专为研究程序合成与大型语言模型（LLM）交互而设计的数据集。本文将详细介绍Jigsaw数据集的组成、结构以及如何利用这些数据支持程序合成的研究。

Jigsaw数据集概览

Jigsaw项目包含两个主要的数据集，都在相关论文《Jigsaw: Large Language Models meet Program Synthesis》中有详细描述：

PandasEval1 - 由论文作者收集，包含68个条目。
PandasEval2 - 通过两次黑客马拉松用户研究会议收集，涵盖21个独特的任务。每个任务包含多个具有细微差别的集合，例如标量/常数差异，某些任务的集合在语义上有所不同。每个任务最多有5种变体/集合，每个集合包含多种自然语言的变体，共计725个条目。

数据集结构

Jigsaw数据集的结构非常清晰，具体包括：

最外层： 包含唯一任务ID的键值对。
任务层： 每个任务包含不同集合的键值对。
集合层： 每个集合包括：
- 用户编写的查询列表及其用户ID。
- 一个或多个输入输出（IO）示例，每个示例都是一个字典，包含：
  - 输入的代码片段。
  - 输出的代码片段。
  - 输入与输出的对应名称。
- 一个或多个正确的解决方案。

数据集的应用

Jigsaw数据集的设计支持程序合成领域的研究，尤其适用于研究LLM在程序代码生成中的应用。通过分析这些数据，研究人员可以更好地理解LLM如何处理各种编程任务，以及如何优化模型以提高其效率和准确性。

RPA

八爪鱼RPA

支持一键抓取公众号/小红书/抖音/淘宝数据

流程自动化

付费

AI爆文训练营

图文变现友好赛道，低门槛、高上限，教你从0到1做个赚钱的公众号!

躺着赚钱

￥149/年

何老师陪你做副业

这里聚焦AI副业、个人IP、自媒体运营、写作、赚钱案例。不哔哔，只分享有价值的副业项目。

AI赚钱案例

限免

DeepSeek进阶教程

带你全面掌握DeepSeek应用技巧。提升工作、学习效率

100万人学过

付费

网盘拉新实战教程

每周花费一小时，手把手教你赚网盘平台佣金

500人学过

限时优惠

AiPPT

结合最新AI技术，为用户提供一键生成高质量PPT的解决方案。

一键生成 PPT

免费

豆包MarsCode

一款免费的AI编程助手，全新支持DeepSeek R1/V3、豆包大模型1.5自由切换，免部署、更准确、更强大！

AI编程助手

免费

Monica AI

Monica AI满血复活DeepSeek【免费】，提升您的聊天、搜索、写作和编程体验。

一站式 AI 助手

云服务

腾讯云

综合性的云计算服务平台，现已接入DeepSeek，提供多样化的云解决方案

高效可靠

云服务

阿里云

全球领先的云计算与数据服务平台，提供云服务器、存储、数据库、安全等多种服务

多样化

编程学习

免费领取编程学习资料