必须处理或组织最初获得的数据以进行分析。例如,这些可能在电子表格或统计软件中涉及将数据以表格格式(即结构化数据)放入行和列中以供进一步分析。
在决定如何传达结果时,分析人员可能会考虑数据可视化技术,以帮助清晰有效地向受众传达信息。数据可视化使用信息显示(如表格和图表)来帮助传达数据中包含的关键消息。表格有助于查找特定数字的用户,而图表(例如条形图或折线图)有助于解释数据中包含的定量信息。
作者JonathanKoomey推荐了一系列理解定量数据的最佳实践。其中包括:
对于被检查的变量,分析人员通常会获得它们的描述性统计数据,例如平均值、中位数和标准差。他们还可以分析关键变量的分布,以了解各个值如何围绕平均值聚类。
麦肯锡公司的顾问们将一种技术命名为MECE原理,这种技术可以将一个定量问题分解为它的组成部分。每一层都可以分解成它的组成部分;每个子部分必须相互排斥,并共同加到它们上面的层。这种关系被称为“相互排斥、共同彻底”或MECE。例如,利润按定义可以分为总收入和总成本。反过来,总收入可以按其组成部分进行分析,如A、B和C部门的收入(它们相互排斥),并应加到总收入中(统称为全部收入)。
分析人员可以使用稳健的统计方法来解决某些分析问题。假设检验用于分析人员对真实情况做出特定假设,并收集数据以确定该情况是真还是假。例如,假设可能是“失业对通货膨胀没有影响”,这与一个被称为菲利普斯曲线的经济学概念有关。假设检验包括考虑I型和II型错误的可能性,这与数据支持接受还是拒绝假设有关。
当分析人员试图确定自变量X对因变量Y的影响程度时,可以使用回归分析(例如,“失业率(X)的变化对通货膨胀率(Y)的影响程度如何?”)。这是一种试图对数据建模或拟合方程线或曲线的尝试,使得Y是X的函数。
当分析人员试图确定自变量X允许变量Y的程度时,可以使用必要条件分析(Necessaryconditionanalysis,NCA)(例如,“某一通货膨胀率(Y)所需的某一失业率(X)的范围是多少?")。而(多元)回归分析使用加法逻辑,其中每个X变量可以产生结果并且X可以相互补偿(它们足够但不是必需的),必要条件分析(NCA)使用必要性逻辑,其中一个或多个X变量允许结果存在,但可能不会产生(它们是必要但不充分)。必须存在每个必要条件,并且无法进行补偿。
-哪些喜剧获奖?
-哪些基金表现落后于SP-500?
-所有商店的总收入是多少?
-有多少汽车制造商?
-哪位导演/电影赢得了最多奖项?
-MarvelStudios电影的最新发行日期是什么?
-按卡路里排列谷物。
-汽车马力的范围是多少?
-数据集中有哪些女演员?
-购物者的年龄分布是多少?
-蛋白质中是否有异常值?
-是否有一组典型的胶片长度?
-不同性别的人有首选付款方式吗?
-这些年来是否有增加电影长度的趋势?
进行数据分析的分析人员或受众之间可能存在有效分析的障碍。区分事实和观点、认知偏差和不精确都是对可靠数据分析的挑战。
您有权获得自己的意见,但您无权获得自己的事实。
另一个例子是,上市公司的审计师必须就上市公司的财务报表是否“在所有重要方面都得到公平陈述”达成正式意见。这需要对事实数据和证据进行广泛分析以支持他们的观点。当从事实到意见的飞跃时,总是存在意见错误的可能性。
存在各种各样的认知偏差会对分析产生负面影响。例如,确认偏差是指以确认一个人的先入为主的方式搜索或解释信息的倾向。此外,个人可能会破坏不支持其观点的信息。
分析人员也可以在不同的假设或场景下分析数据。例如,当分析人员进行财务报表分析时,他们通常会在不同的假设下重新编制财务报表,以帮助对未来现金流进行估计,然后根据某个利率将其折现为现值,以确定公司或其股票的估值。同样,CBO分析了各种政策选择对政府收入、支出和赤字的影响,为关键措施创造了替代的未来情景。
这一部分包含了相当技术性的解释,可能对从业者有所帮助。
数据质量
应该尽早检查数据的质量。数据质量可以通过多种方式评估,使用不同类型的分析:频率计数、描述性统计(平均值、标准差、中位数)、正态性(偏度、峰度、频率直方图、n:变量与数据集外部变量的编码方案进行比较,如果编码方案不可比,则可能进行校正。
测量质量
当测量仪器的质量不是研究的重点或研究问题时,只能在初始数据分析阶段进行检查。应检查测量仪器的结构是否与文献中报告的结构一致。
评估测量有两种方法:[注:似乎只有一种方法被列出]
初始转换
研究的实施是否实现了研究设计的意图?
人们应该检查随机化程序的成功,例如通过检查背景和实质变量是否在组内和组间均匀分布。如果研究不需要或不使用随机化程序,应检查非随机抽样的成功与否,例如通过检查样本中是否代表了感兴趣人群的所有子群。应该检查的其他可能的数据失真包括:
数据样本的特征
初始数据分析的最后阶段
在最后阶段,记录初始数据分析的结果,并采取必要、优选和可能的纠正措施。此外,主要数据分析的原始计划可以而且应该更详细地指定或重写。
为了做到这一点,可以并且应该做出关于主要数据分析的几个决定:
分析
非线性分析
探索性和验证性方法
在主要分析阶段,可以采用探索性或验证性方法。通常这种方法是在收集数据之前决定的。在探索性分析中,在分析数据之前没有明确的假设,并且在数据中搜索能够很好地描述数据的模型。在验证性分析中,测试了关于数据的明确假设。
结果的稳定性
值得注意的免费数据分析软件包括:
不同的公司或组织举行数据分析竞赛,鼓励研究人员利用他们的数据或通过数据分析解决特定的问题。以下是一些著名的国际数据分析竞赛的例子。
^Xia,B.S.,&Gong,P.(2015).Reviewofbusinessintelligencethroughdataanalysis.Benchmarking,21(2),300-311.doi:10.1108/BIJ-08-2012-0050.
^ExploringDataAnalysis.
^Judd,Charlesand,McCleland,Gary(1989).DataAnalysis.HarcourtBraceJovanovich.ISBN0-15-516765-0..
^JohnTukey-TheFutureofDataAnalysis-July1961.
^Schutt,Rachel;O'Neil,Cathy(2013).DoingDataScience.O'ReillyMedia.ISBN978-1-449-35865-5..
^CleanDatainCRM:TheKeytoGenerateSales-ReadyLeadsandBoostYourRevenuePoolRetrieved29thJuly,2016.
^"DataCleaning".MicrosoftResearch.Retrieved26October2013..
^PerceptualEdge-JonathanKoomey-Bestpracticesforunderstandingquantitativedata-February14,2006.
^Hellerstein,Joseph(27February2008)."QuantitativeDataCleaningforLargeDatabases"(PDF).EECSComputerScienceDivision:3.Retrieved26October2013..
^StephenFew-PerceptualEdge-SelectingtheRightGraphForYourMessage-September2004.
^Behrens-PrinciplesandProceduresofExploratoryDataAnalysis-AmericanPsychologicalAssociation-1997.
^Grandjean,Martin(2014)."Laconnaissanceestunréseau"(PDF).LesCahiersduNumérique.10(3):37–54.doi:10.3166/lcn.10.3.37-54..
^StephenFew-PerceptualEdge-SelectingtheRightGraphforYourMessage-2004.
^StephenFew-PerceptualEdge-GraphSelectionMatrix.
^RobertAmar,JamesEagan,andJohnStasko(2005)"Low-LevelComponentsofAnalyticActivityinInformationVisualization".
^WilliamNewman(1994)"APreliminaryAnalysisoftheProductsofHCIResearch,UsingProFormaAbstracts".
^MaryShaw(2002)"WhatMakesGoodResearchinSoftwareEngineering".
^"ConTaaS:AnApproachtoInternet-ScaleContextualisationforDevelopingEfficientInternetofThingsApplications".ScholarSpace.HICSS50.RetrievedMay24,2017..
^"CongressionalBudgetOffice-TheBudgetandEconomicOutlook-August2010-Table1.7onPage24"(PDF).Retrieved2011-03-31..
^"Introduction".cia.gov..
^Bloomberg-BarryRitholz-BadMaththatPassesforInsight-October28,2014.
^González-Vidal,Aurora;Moreno-Cano,Victoria(2016)."Towardsenergyefficiencysmartbuildingsmodelsbasedonintelligentdataanalytics".ProcediaComputerScience.83(Elsevier):994–999.doi:10.1016/j.procs.2016.04.213..
^Davenport,Thomasand,Harris,Jeanne(2007).CompetingonAnalytics.O'Reilly.ISBN978-1-4221-0332-6..
^Aarons,D.(2009).Reportfindsstatesoncoursetobuildpupil-datasystems.EducationWeek,29(13),6..
^Rankin,J.(2013,March28).HowdataSystems&reportscaneitherfightorpropagatethedataanalysiserrorepidemic,andhoweducatorleaderscanhelp.PresentationconductedfromTechnologyInformationCenterforAdministrativeLeadership(TICAL)SchoolLeadershipSummit..
^Adèr2008a,p.337..
^Adèr2008a,pp.338-341..
^Adèr2008a,pp.341-342..
^Adèr2008a,p.344..
^Tabachnick&Fidell,2007,p.87-88..
^Adèr2008a,pp.344-345..
^Adèr2008a,p.345..
^Adèr2008a,pp.345-346..
^Adèr2008a,pp.346-347..
^Adèr2008a,pp.349-353..
^BillingsS.A."NonlinearSystemIdentification:NARMAXMethodsintheTime,Frequency,andSpatio-TemporalDomains".Wiley,2013.
^Adèr2008b,p.363..
^Adèr2008b,pp.361-362..
^Adèr2008b,pp.361-371..
^"ThemachinelearningcommunitytakesontheHiggs".SymmetryMagazine.July15,2014.Retrieved14January2015..
^Nehme,Jean(September29,2016)."LTPPInternationalDataAnalysisContest".FederalHighwayAdministration.RetrievedOctober22,2017..
^"Data.Gov:Long-TermPavementPerformance(LTPP)".May26,2016.RetrievedNovember10,2017..