打造中国版ChatGPT,深圳数据交易所要做“数据养料”

2023-02-23 14:12:19     来源:21世纪经济报道

南方财经全媒体记者 石恩泽 深圳报道


(资料图片仅供参考)

在刚刚过去的深圳“两会”上,ChatGPT成为参会委员和代表热议的话题。

深圳市政协委员、中国平安研究院院长肖京在提案中写道,“国内数字经济和人工智能发展亟需一个坚实的数字底座。尤其是ChatGPT的成功,更加印证了强大数字底座的重要性。”

数字底座的建造,离不开被喻为新“石油”的数据要素。而数据也是大模型时代的最核心要素。目前国内虽然有很多数据,但可用的高质量数据远低于国外。因而,“目前中国亟需加强数据建设,把零散数据变成有效的数据资源。”肖京在提案中建议道。

2022年11月,深圳数据交易所揭牌成立,同时启动首批线上数据交易。至此,北上广深均开启了新的数据交易探索。其中,截至1月末,深圳数据交易所已完成登记备案的数据交易总计505笔,累计交易金额超过14亿元。

“数据治理是数据流通的关键一步。只有经过治理之后的数据,才能进行流通。”深圳数据交易所董事长李红光近日在媒体沟通交流会上如此说道。

同时,若想在人工智能领域发展上有所突破,就要“喂”取机器足够高质量的数据,而高质量数据就需要标准化的治理。“目前市场上流通的数据产品大部分都属于金字塔最底层的流量型产品,用专业的术语来说,就是低维度应用。体现在数据产品上,就是只有单一数据或者单一数据库里面某几个字段组合出来产品。”李红光表示。

但ChatGPT已经进化到需要文字、图片、语音、视频等多模态数据集的融合应用了。“从这点上来说,ChatGPT与未来用于数据交易的产品之间,有相互可借鉴的地方。”李红光说。

构建“动态”合规体系,降低数据流通成本

在实现ChatGPT级别的数据产品开发和应用之前,还有一个大前提,就是数据能够有序、大规模且低成本的流通。而实现这一步,就需要在法律层面实现一个标准化的体系。

目前各地交易所都有一套自己的交易规则和技术标准,同时各行各业又有不同的监管要求。因此,在落地和监管上,还有待进一步统一。

首先,在落地机制方面,目前场内数据交易的合规机制还比较僵化。“传统的场内数据交易是静态的合规模式,即入场一次就要求企业提供一个由律师出具的合规评估报告。这对于频繁交易的企业来说,将面临极大的合规成本。”深圳数据交易所合规部负责人王青兰说。

为解决这个问题,深圳数据交易所正在全国首创“动态合规体系”。王青兰介绍,深圳数据交易所开创性的把“信用”工具引入数据交易合规体系的建设中,横坐标是“4+N”道合规审核防线,纵坐标是“3+N”套市场参与主体的诚信合规评级制度。“相当于给符合要求的企业,打上一个‘绿色免检标签’。”

在上述基础上,深圳数据交易所还将引入独立的第三方信用机构对这个“绿色标签”进行动态评级。王青兰表示,在这个动态化的体系下,入场交易有了明晰的合规指引,企业之间有了统一信任的标准,不再需要每进场一次就评估一次了。同时,动态合规体系将一切流程标准化,不仅能够为企业的数字资产带来信誉增值,还有助于倒逼场外不合规、低质量的交易,转向场内高质量的数据交易。

此外,在不同行业上,深圳数据交易所也正在进行单点突破,今年预计将在2个行业上实现突破,以点及面,在细分领域上争取打通监管协同。

“深圳拥有特区立法权和综合授权改革两大创新武器,可以护航我们合规体系的改革向‘深水区’挺进。”王青兰说。届时,深圳有望给国家层面的数据要素流通相关立法,提供更多可实操、可落地的标杆级案例经验,形成数据交易的“深圳标准”。

找寻场景闭环,以河套和前海为深港跨境数据交易突破口

除了降低数据流通成本,另一个有利于深圳打造出中国版ChatGPT的机遇在于,利用好毗邻香港的优势地理位置,实现跨境数据的互联互通。

从深港两地基础看,深圳市高科技产业基础雄厚、数据资源富集、融合应用场景丰富,并于2022年5月落地了中国首批场内跨境数据交易产品。

截至1月31日,数据提供方、数据商、数据需求方等参与主体共计605家,交易登记备案集中涉及73类应用场景;跨境交易共14笔,累计交易金额1115万元。恰恰印证了深圳市和深圳数据交易所具备抓住机遇的能力。

反倒是香港地区数字经济产业特色不够明显。在致公党深圳市委会共同提交的一份提案中写道,“由于香港地区经济结构和规模,但其区位优势尚未以数据形式服务大湾区整体经济,自身数字经济发展也面临‘区位塌陷’的情况。内地互联网企业国际化布局已久,但普遍仅把香港地区单纯用作为融资中介平台;全球互联网巨头仅在港提供通用性互联网服务,也并未给予相应研发等重视布局。”

对于上述问题,该份提案建议,在河套深港科技创新合作区基础上进一步完善深港跨境数据要素交易平台。

而以河套和前海地区为跨境数据流通交易探索,正是深圳数据交易所今年工作的一大重点。“接下来我们将重点围绕深港澳跨境数据流通场景打造闭环案例。”深圳数据交易所运营部负责人说。

在场景选择上,该负责人进一步介绍称,前海和河套基于政策条件、产业优势、数据跨境基础设施等不同,预计选择的示范场景也会不同。

培育数据人才,从“数据开发者计划”挖掘更多企业需求

正所谓交易讲求两方实力对等,也就是生态的平衡。在供给端要保证数据可流通、有应用场景,在需求端则是要挖掘出企业潜在的需求。

然而,挖掘这个过程,需要大量懂数据的专业人才。对此,深圳数据交易所在2022年中国互联网大会上,推出了一项“数据开发者培养计划。”

这项计划将由深圳数据交易所联合政府机构、数据源方以及数据流通技术方等模拟数据交易市场,为广大的开发者、高校、学生、企业开发者提供基于数据安全可信的环境,构建基于开发者自身认知的行业应用孵化场景。

“这将有效解决‘有原料,缺厨师’的问题。”深圳数据交易所市场部负责人李东阳比喻道,同时,这也是深圳为数据要素市场化建设提出的一个重要理念,为广大学生、社会工作者提供一个新的技术应用赛道,在数据应用侧,为市场培育一批数据开发方向的稀缺人才。同时,此计划所产出的数据产品,也将回馈市场,以需求为导向,形成深度的产品规划能力,支持深圳企业在数字经济产业改革中走在前列。

“深圳数据交易所接下来将基于数据开发者培养计划,打造一个持续的开发者大赛活动,形成具有全国影响力的赛事。”李东阳说,同时借助赛事,搭建企业需求者、数据开发者、数据提供方三方共同交流的桥梁,理想状态是每年在这个时间轴里都可以产生新的内容、新的需求、新的应用。

关键词: 人工智能 数据交易

明星

电影