X

中文NL2SQL准确率超92% 产学研携手推动智能交互发展

10月12日,由追一科技主办、南京大学计算机软件新技术国家重点实验室协办的“首届中文NL2SQL挑战赛”总决赛答辩暨颁奖典礼在南京大学举行。经过最终决赛的5强选手队伍现场分享答辩和现场评委考评,国防科技大学选手团队夺得冠军,国双科技团队获得亚军,观安信息与妙盈科技联合团队获得季军,华南理工大学与佛罗里达大学的选手队伍,以及浙江大学的团队则获得优胜奖。

由众多人工智能权威专家组成的评委团,包括中国移动研究院首席科学家冯俊兰、复旦大学教授肖仰华、新加坡南洋理工大学副教授毛可智、南京大学教授俞扬、追一科技CTO刘云峰等产学研多方代表,在决赛现场对选手们的技术方案,进行了专业的分析点评,从而产生最终结果。

随着NLP基础能力发展,自然语言转换可执行的SQL语句,访问数据库等一系列复杂的人机交互正逐渐成为可能。此次大赛短短几个月里,顶级选手模型方案准确率达到92%以上,刷新业界记录。

追一科技CTO刘云峰

“此次挑战赛参与规模、选手表现远超预期,显示出NL2SQL在学术和产业应用上的潜力,数据库的交互创新,正在受到越来越多关注。”追一科技联合创始人兼CTO刘云峰表示,追一科技将与更多院校、企业界同仁携手,共同推动中文NLP研究与应用突破。

新一代数据库交互

NL2SQL(自然语言转结构化查询语句)作为新兴的研究领域,在国外由SalesForce耶鲁大学等发布了WikiSQL和Spider数据集,但在国内市场,目前还处于起步阶段。此次NL2SQL挑战赛是国内首次举办。

“大数据价值变现最大难题就是访问门槛太高”,嘉宾评委代表、复旦大学教授肖仰华表示,利用自然语言访问关系型数据库里的数据,一直是数据库业内梦想。太多的数据“沉睡”在关系表格里,使得这一愿望更变得日益迫切。

NL2SQL挑战赛点评评委、复旦大学教授肖仰华

作为此次比赛的主办方,追一科技联合创始人兼CTO刘云峰也表示,追一在服务企业的过程中的发现,很多企业的知识和数据都是以关系型数据库的形式存储,例如银行用户的消费记录、基金公司的基金属性、保险公司的保单记录等等,如果想更好地利用,“亟需将自然语言转换成可执行的机器语言技术”。

刘云峰认为,NL2SQL正是非常好的技术实现路径,“这也是追一科技发起比赛的原因。”

期间,追一科技发布了业内首个大规模的中文数据集,包括4870张表格数据、近50000条标注数据以及相应的SQL语句,并获得很多学界专家、产业界伙伴的支持,通过“产学研”等多方联动,希望提供一个平台,来推动NL2SQL研究和应用。

产学研参与

据了解,本次比赛吸引了海内外1457支队伍参与,包括院校、机构和企业开发者。

其中,学生及科研人员占比48%,企业技术员工占比52%。学生参赛队伍来自众多知名院校,如北京大学、清华大学、复旦大学、上海交通大学、南京大学、浙江大学、中国科学技术大学、哈尔滨工业大学、西安交通大学等。以及来自海外CMU、墨尔本大学、新加坡国立大学等顶级院校参与。

企业界的开发爱好者,则成为比赛的另一只重要力量。来自中国移动、平安集团、搜狗、达闼科技、中兴通讯、网宿科技、国双科技、捷通华声等众多企业的技术人员,也成为参赛队伍的重要力量。

院校与院校、企业与企业等联合“组队”挑战,成为比赛的一大亮点。比如5强中的华南理工与佛罗里达,上海观安信息与妙盈科技等,均为联合战队。

“众人拾柴火焰高”,刘云峰表示,这次比赛也是搭建一个桥梁,让学界、技术创业者、市场多方更好地联动,“让企业钉子找到‘锤子’,让学术和技术创业者的锤子找到‘钉子’。”

作为高校嘉宾代表,南京大学人工智能创新研究院院长詹德川表示,除了选手的热情和参与,更看重比赛的交流机会,“学界和产业界可以进行深入的交流。”他同时表示,产学研携手,“AI的热情不会进入冬天” 。此次活动中,南京大学计算机软件新技术国家重点实验室与追一科技合作,协办比赛,助力产学研合作。

南京大学人工智能创新研究院院长詹德川

经过多方努力,短短几个月里,NL2SQL中文领域研究快速突破。

比赛初期,准确率尚为60%多,至8月份初赛结束时,榜上头部分数已经达到89%,接近WikiSQL成绩。复赛结束时,选手最高成绩达到92%,刷新业界记录。并且,最终晋级决赛的5支队伍,个个都在“90分”以上。

“最终选手的成绩,完全超出了我们对于比赛的预期。”作为评委代表,肖仰华表示,实际上中文自然语言转SQL的挑战更大,选手们的成绩,不但让人惊喜,而且表现了深厚理论功底,对深度学习、自然语言处理思路和模型的娴熟。

中国移动研究院首席科学家冯俊兰

作为来自产业界的专家评委,冯俊兰表示,NL2SQL 是自然语言处理的一个非常重要的应用领域,涉及到多个自然语言处理领域的核心问题,非常开心看到这么多高水平的队伍参赛,并取得了非常好的成绩,也看了产、学、研在这个方向上共同提升技术的热情。

应用前景

如火如荼比赛背后,NL2SQL应用潜力,也受到了越来越多的瞩目。

业内人士表示, NL2SQL在银行、保险、证券、电商、汽车、地产等数据富矿领域,有很大的应用潜力,可以极大地降低数据库访问和使用门槛,提升人机交互体验,并更好地挖掘数据价值。

“今天在AI与数据库交互上,我们又一次看到了突破,新的想象空间。”对于此次比赛的举行,创新工场董事长兼首席执行官李开复也表示,期待看到追一和更多NLP开发爱好者,不断探索努力,推进NLP创新和普惠应用。

“此次挑战赛参与规模远超预期,显示出NL2SQL在学术和产业应用上的潜力,数据库的交互创新,正在受到越来越多关注。”追一科技联合创始人兼CTO刘云峰博士表示,追一科技将与更多院校、企业界同仁携手,共同推动中文NLP研究与应用突破。