翻译技术资讯 | 如何提高我的数据质量？

胡跃国际翻译动态

2024-09-10

如何通过增强数据可靠性、数据清洗和数据建模来提高数据质量，以推进您的数据科学和AI（人工智能）实践？

我们生活在一个数据驱动的世界，我们社会的许多关键决策都基于数据，从政府到工业、商业等等。没有大量的数据，数据科学和AI（人工智能）是不可能的。现在，数据已经成为几乎每个行业的主流，数据的质量变得越来越重要。

高质量的数据经常被谈论和追求，但是数据质量到底意味着什么呢？高质量数据可以定义为捕获、存储继而用于预期目的的任何定性或定量数据。“质量”数据是指数据准确、完整、干净、一致，并且对其预期用例有效。有几种关键方法可以提高数据的整体质量。这包括细化和概述数据可靠性、确保正确的数据来源、数据清洗技术和数据存储方法。

数据采集

给定数据的语境，数据是如何来源的，这些来源可信吗？一旦您的数据来源得到验证，下一步将是评估您的数据是否符合数据输入标准。数据输入的标准通常取决于业务环境。总的来说，这意味着定义一套您的数据需要符合的准则，符合这一准则的数据才能用于商业目的或被存储。这些指导原则可以包括所需的特征、冗余管理、记录删除、格式化和数据隐私标准等内容。通常，公司有自己独特的一套数据输入标准。

数据建模

一旦正确捕获了数据，提高数据质量的另一个措施是数据组织和存储，也称为数据建模。数据建模是一个通过分析支持业务需求所需的数据需求来弥合业务流程和所需数据之间差距的流程。此实践在业务模型中建立数据元素和结构之间的关系。通常，图表或其他可视化表示被用来对组织内的数据流进行建模。随着数据规模和数据量的增加，数据建模对于确保数据一致性变得更加重要。TAUS Data Marketplace是一个很好的例子，它根据包括领域和语言对在内的几个区别，在一个高效的模型中组织和存储了数百个数据源。组织内的数据模型有许多好处，比如改进的软件开发、分析、应用程序性能、风险管理、数据跟踪、文件归档和更快的市场周转。当数据在组织内被组织时，它变得更容易理解，从而也便于在其上应用任何层的分析或建模。继而，这提高了数据的质量，数据建模产生了更少的数据错误，更好的文档编制结果，以及整个组织中更少的错误。

数据可靠性

数据质量与数据可靠性直接相关。数据完整性是指数据在其整个生命周期中的准确性、一致性、完整性和可靠性。数据可靠性是在数据库建模和设计阶段引入的。它是通过使用由各种验证检查和程序组成的标准程序和规则来实施的。因此，具有高可靠性的数据表明数据的质量也很高。每个组织都独立创建这些程序，没有放之四海而皆准的方法。然而，许多企业都有一些常见的程序。许多不同公司使用的通用方法的一个例子是遵循软件开发生命周期（SDLC），这是一组在构建任何应用程序时遵循标准业务实践的指导方针和规则。SDLC方法提高了数据质量，因为它从技术和业务的角度提供了组织的可扩展视图。它是组织跟踪所有数据、应用程序、测试、代码、交易等的一种方式。此外，SDLC向您展示了数据是如何被使用的，同时展现任何漏洞或需要改进的地方。

数据清洗

一旦我们建立了数据可靠性实践和指导方针，我们可以采取的提高数据质量的下一步就是清洗我们的数据。数据清洗是数据可靠性的一部分，也是任何数据科学和人工智能用例的重要组成部分。干净的数据产生更好的算法和结果。包含噪音的杂乱数据肯定会掩盖潜在的有见地的结果，或者在你的结果中引入偏见。因此，数据清洗是确保数据质量的有效措施。清洗数据可以修复数据中的常见错误，如语法、类型转换和重复。有各种各样的数据清洗技术可以利用，但最终这些取决于用例和业务模型。一些常见数据清洗技术有数据规范化、标准化、匿名化、防止重复和数据检查。数据检查实践有助于识别不正确和不一致的数据点。数据规范化将有助于确保大小写、缩写和其他与语法相关的问题。例如，我们可以将数据点（如“U.S。”和“America”）规范化为单个代表性条目（如“United States”）。TAUS Date Services是清理、准备、保护、微调和自定义数据的服务示例。

数据质量对机器学习的影响

人工智能中展示和描绘了数据质量是如何产生深远影响的一个领域是机器学习。机器学习是人工智能的一个子集，它被定义为一组自动化模型构建和决策的方法。机器学习模型通常需要训练数据来建立直觉和执行决策，这通常会随着时间的推移和训练数据的增加而改善。因此很容易可以看出不一致、有噪声或不合格的数据会如何扭曲模型的输出。在某些情况下，这可能会对业务影响产生巨大影响。

我们可以在机器学习模型中建立对数据质量的直觉的一种方法是评估偏差和方差。当模型没有充分捕捉到数据的基本模式，并且模型过于一般化时，就会出现欠拟合。这意味着存在很高的偏差，这表明没有足够的数据用于模型训练。另一方面，当模型从训练集中习得了噪声时，会出现高方差。这会导致过拟合，即模型过度泛化训练数据。在这两种情况下，训练数据的质量在模型训练阶段的结果中起着关键作用。在这种情况下，导致训练数据质量低的因素要么是数据太少，要么是数据有噪声。如上所述，您可以通过增加训练规模和进行适当的数据清洗来消除噪声，从而提高数据的质量。

数据质量审查

数据质量审查是任一组织的重要组成部分。上图概述了数据的生命周期，并显示了数据质量在每个阶段是如何提高的。然而，重要的是要注意，一个组织可能会根据他们的标准和过程以不同的方式构建这些阶段。真实世界数据平台的一个例子是人类语言项目（HLP）。HLP是一个基于微任务的平台，人们可以在其中生成和注释数据，或者评估给定领域和项目中的数据质量。为使数据准确地表示真实世界的结构而采取的步骤越多，结果就越可信和有意义。通过适当的数据采集和捕获、数据可靠性实践和数据建模等方法，可以显著提高数据质量。

(机器翻译，轻度译后编辑，仅供参考)

原文链接：https://www.taus.net/resources/blog/how-to-improve-the-quality-of-my-data