WeData 智能化升级大模型与大数据双向赋能 AI

发布时间：2024-11-15 05:40:15点击：

一、大模型面临的机遇与挑战

如今大模型已在全球范围内各行各业中得到了快速应用和发展，在智能对话、医疗健康、内容生成和教育赋能等关键领域呈现出了爆发式的增长态势。这一发展不仅推动了相关行业的智能化转型，还促进了技术创新与产业升级。

然而，在享受大模型带来的便利与效益的同时，我们也必须正视其所面临的诸多数据问题和挑战，例如数据幻觉问题、数据不一致、数据安全问题以及数据多样性不足等问题。这些问题揭示出高质量数据对大模型发展起着至关重要的作用。那么如何才能获得高质量的数据呢？

WeData平台将大模型与大数据相互驱动与共融，一方面利用 AI 技术加速企业专属数据资产的构建，同时这些数据资产又为模型训练提供了高质量的数据，两者相辅相成，加速企业的数据价值释放。接下来就将介绍如何利用 WeData 平台，实现>

WeData 是腾讯云推出的一站式数据开发治理平台，融合了数据集成、开发、测试、运维的全链路>

三、Data for AI -为大模型提供高质量数据

大数据与 AI 在数据处理流程中通常是独立存在的，为实现利用大数据为 AI 提供高质量的数据，并持续优化数据质量，就需要构建一个一站式数据平台将大数据与 AI 紧密结合起来。Data for AI 部分的核心目标是让平台覆盖数据的全生命周期，并且通过数据治理措施，协助企业构建专属的数据资产。

通常整个数据的全生命周期，涵盖了从需求的提出，到数据工程师对数据的集成、加工、清洗和转换，并提供对外的数据服务，再到数据科学家使用这些数据进行模型训练、参数调整，最终生成模型服务，进而为各式各样的业务应用赋能。

在此过程中，平台针对数据科学家及分析师类用户，新增了 Notebook 数据探索功能，以支持轻量化的模型训练和增强分析功能。此外，平台还与腾讯云机器学习平台 Ti-One 进行了集成，用于支持模型的训练任务。最后，通过平台统一的数据调度编排机制，将大数据处理任务与机器学习任务串联起来，构建起完整的数据链路，确保数据流畅传输，促进组织内不同角色间的紧密协作，进而加快数据价值的转化过程。

另外，平台还针对泛互、金融等行业客户的业务实际场景，结合混元和一些开源技术，提供针对于行业的精调服务，并为企业快速搭建全面而精准的知识库体系，构建结构化、非结构化数据，构建向量存储，提升大模型在行业的问答准确率。

以腾讯内部的游戏部门为例，平台通过混元大模型为其打造了专属的知识库，方便业务人员直接通过自然语言的方式查询运营数据，还实现了针对不同业务推荐的库表服务，极大地提升了用数效率。

在数据质量方面，平台通过覆盖数据的全生命周期，从事前、事中到事后的数据治理流程，解决数据不规范、不一致、不准确等问题，确保企业能够为大模型提供更高质量的数据。

在事前阶段，我们严格遵循数据标准来规范数据建模过程，通过落标检测和标准稽核机制，来保障数据标准能够落到数据模型中去。随后，利用高效的模型发布功能，将模型发布至数据仓库或数据湖中，使其能够为后续的数据资产管理和多样化的数据应用提供服务。

在事中阶段，平台上提供了全链路的数据质量监测与检查，可以严格遵循业界标准，对数据的六大核心维度——准确性、唯一性、完整性、一致性、及时性与有效性——进行详尽而全面的质量评估。为确保评估的精准与高效，平台针对每一维度均设定了详尽的质量保障规则，并配置了相应的任务执行计划。通过这一体系，平台能够实时捕捉数据质量问题，及时采取纠正措施，从而确保数据的整体质量符合业务需求与合规要求。同时，该体系还具备高度的灵活性，能够根据不同业务需求与数据特点进行定制化调整，以满足多样化的数据治理需求。

在数据治理的事后阶段，平台提供了全面的数据资产健康评价体系，从数据规范、成本、安全等多个维度，对数据的健康状况进行详尽、客观的评估，从而精准识别问题，并据此设定清晰、合理的治理目标。通过实施这一评价体系，驱动组织及个人进行持续的改进，进而依托有效的运营手段，推动形成数据质量不断提升的正向循环机制，确保数据资产的长远价值与稳健发展。

通过数据治理，可以帮助企业获得高质量的专属数据，而企业要用好数、管好数，还需要数据资产管理。

在数据资产管理中，提供了数据的全生命周期管理，可以帮助 AI 系统有效管理并处理过期的数据。同时，成本优化措施的实施可以帮助企业降低数据存储和计算的成本。此外，数据血源分析功能则能够支持 AI 在分析过程中获取更准确的数据上下文，从而提高分析结果的准确率。

平台还提供了全方位的数据安全防护，通过对数据分级分类和敏感数据识别，可以全面掌握数据安全状况。例如，了解数据分类分级的分布情况，明确敏感数据到底都在哪里。根据这些分类分级结果，我们可以针对不同类型及不同分类的数据，制定相应的数据安全策略，以确保大模型所提供的数据满足合规要求。同时，对所有数据访问行为进行审计与监控，从而全方位地保护数据安全。

四、AI for> 接下来是 AI for>
在数据开发方面，我们推出了与混元大模型相融合的 AI 智能助手。智能助手展现出了卓越的 SQL 排错能力，其错误修复准确率高达 90% 以上。此外，它还提供了 SQL 解释功能，该功能在审视历史代码或他人编写的代码时，能够迅速且精确地解析代码逻辑，并给出详尽的解读，显著减轻了开发人员在此类任务上的负担。同时，SQL 注释辅助功能也进一步优化了开发流程，减少了繁琐的细节工作，从而提升了数据开发的整体效率。

在血缘分析模块中，结合大型模型的技术优势，能够显著提高 SQL 语句解析的准确性与系统稳定性。在处理复杂 SQL 语句时，例如涉及自定义函数、特定方言等情况，传统方法往往容易出现解析错误，影响程序正常运行并导致数据血缘信息缺失。通过混元和技术元数据相结合，不仅减少了错误发生的频率，而且增强了对 SQL 语句血缘解析的准确性，确保了整个平台运行的稳定性。

此外，在数据血缘解析的通用能力方面，融合大型模型技术后，不仅能够解析常见的 SQL 语句，还能够对 Python 脚本、Shell 脚本，甚至 Elasticsearch 中的 SQL 语句进行解析，极大地提升了血缘信息的通用解析能力。大型模型还能够辅助修正血缘分析过程中出现的异常或信息缺失问题，例如处理运行失效的节点、自动修复受损数据等，从而进一步提高数据血缘的准确性。

在数据资产管理领域，通过采集与管理元数据，对基础信息、管理元数据以及业务信息等多个维度的完善度进行评估，实现了数据资产的智能化辅助盘点，从而降低了人工标注的依赖，减少了人力资源的投入，显著提升了资产盘点效率。

在此过程中，传统技术方案在处理图片、影视频及文件等非结构化数据方面存在一定的局限性，元数据信息获取不足，准确率较低。借助大模型技术，支持多模态实体提取及元数据自动补齐功能。例如，能够在视频数据中提取到飞机、事件、政治人物等实体信息，识别敏感数据，并补齐元数据信息，从而显著提高了元数据信息的提取能力。最终，将这些信息整合至数据资产中，并提供基于自然语言处理的数据资产建设功能，用户仅需输入自然语言的查询问题，无需编写复杂的 SQL 语句，亦无需具备技术背景知识，即可迅速获取所需数据。

通过大型模型技术构建企业智能化数据资产知识库，不仅提升了检索效率与准确性，还显著降低了组织内部不同角色查询数据的门槛。

在数据安全领域，我们通过向平台输入业务数据样本、接口信息及用户行为数据，并且利用 AI 相关技术训练了安全敏感数据识别模型，以及异常风险预判模型。与传统检测技术相比，基于 AI 的能力能够更有效地降低误报率。例如，如何识别密码的问题，同时还能够解决检测对象难以穷尽的问题，如公司名称存在多种表述方式的情况。此外，通过智能化改造，平台实现了数据驱动的方式，持续地优化与改进，突破了传统限制，不仅减少了人工投入，还实现了分类分级识别的高准确率，达到了 98.57%。

通过图表分析可见，采用预先训练成熟的模型，能够对不同来源的数据实施自动化扫描与识别，同时针对各类数据访问和请求日志进行风险监控。通过敏感数据识别引擎及预先设定的分类分级方案，能够准确获取敏感数据的分布情况、敏感数据资产目录以及安全风险分布结果，从而协助企业明确数据安全的问题所在，为进一步的安全措施提供依据。