數(shù)據(jù)質量成熟度模型中分析數(shù)據(jù)準備的五個級別:
第1級:數(shù)據(jù)來源。了解數(shù)據(jù)來自哪里、如何收集、如何轉換、為什么以及由誰轉換,是任何可用數(shù)據(jù)集的最基本要求。
第2級:基本衛(wèi)生。在這個級別,團隊關注的是基本數(shù)據(jù)元素的統(tǒng)一表示。
第 3 級:異常值、混亂和不太可能的組合。第 3 級需要更深入的統(tǒng)計知識以及 DataOps 團隊更深入的領域專業(yè)知識。
第 4 級:覆蓋缺口。這尤其涉及識別所提供數(shù)據(jù)中的差距,并找到補充它們的方法。
第 5 級:偏見。在更高的層次上,運行完全集成的項目團隊,團隊結合了數(shù)據(jù)科學、DataOps 和軟件工程師。人們每天都在同一個項目上工作,這樣可以發(fā)現(xiàn)和解決已經“通過”所有先前級別的質量門的數(shù)據(jù)中細微但關鍵的偏差。
了解此類問題的存在并有效解決這些問題需要數(shù)據(jù)科學家和 DataOps 專家之間持續(xù)進行深入合作,這是生成機器學習模型或預測分析的必要條件,這些模型或預測分析不受未公開偏見的影響并經受住現(xiàn)實世界的考驗采用。