数据分析与筛选
8页1、数据分析与筛选数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行息和形成结论而对数据加以详细研究和概括总结的过程。数据也称观测值,是实验、测量、观察、调查等的结果,常以数量的形式给出。一:分析方法列表法:将实验数据按一定规律用列表方式表达出来是记录和处理实验数据最常用的方法。表格的设计要求对应关系清楚、简单明了、有利于发现相关量之间的物理关系;此外还要求在标题栏中注明物理量名称、符号、数量级和单位等;根据需要还可以列出除原始数据以外的计算栏目和统计栏目等。最后还要求写明表格名称、主要测量仪器的型号、量程和准确度等级、有关环境条件参数如温度、湿度等。作图法:作图法可以最醒目地表达物理量间的变化关系。从图线上还可以简便求出实验需要的某些结果(如直线的斜率和截距值等) ,读出没有进行观测的对应点(内插法) ,或在一定条件下从图线的延伸部分读到测量范围以外的对应点(外推法) 。此外,还可以把某些复杂的函数关系,通过一定的变换用直线图表示出来。例如半导体热敏电阻的电阻与温度关系为,取对数后得到,若用半对数坐标纸,以 lgR 为纵轴,以 1/T 为横轴画图,则为一条直线。二:数学
2、建模中的数据分析2.1.基本概率分布在数学建模中对数据进行分析时通常要考虑数据的概率分布情况,这样可以更好的了解数据总体的分布情况,以及分布是否稳定等一些数据的相关特征,其中常用的概率分布有:正态分布 :密度函数:),(2N2)(1)(xexp分布函数为: dttFx2)(2)(:若随机变量 X1,X2,X3,.Xn 相互独立,都服从标准正态分布)(分 布 n2N(0,1),则随机变量 nYY221.是服从自由度 n 的分布,记 Yt(n)。T/服从自由度为 n 的 t 分布,记为 Tt(n)。F 分布 F(n1,n2)若 X ,且相互独立,则随机变量)(),(212nY21/nYX服从自由度为(n1,n2)的 F 分布,记为 FF(n1,n2)。在对随机现象的观察和研究中,人们发现有许多随机变量,它们是由大量的相互独立的随机因素的综合影响而形成的,而其中每个因素在总的影响中所起的作用又很小,且各因素的作用还是相对均匀的,则这种随机变量往往服从或近似服从正态分布。数据分析在生活中的运用非常广泛,最住要的体现是在销售利益、性能测试等的方面。下面是数学建模中常用的数据分析类型。2.2.异常
3、数据的挖掘和处理1 在预测与决策时,经常需要对所要研究的对象进行分析和收集数据,从大量的统计数据中找规律,而这些数据真实与否直接影响分析结论的科学性。在多数情况下会发现,统计来的数据是按照某一规律且起伏并不是很大,但其中都可能混有“异常数据” ,这些异常数据是由异常因素(例异常时间、干扰或误差等)造成的与大多数观察值不一致。有些异常值可能是在统计时度量或执行错误所得到的,在分析过程中应剔除的,但有些数据非任何统计错误所致不能简单地剔除,否则可能导致重要的隐藏信息丢失2,特别有些异常数据非常有价值,若剔除则可能影响到结论的科学性。因此,对于异常数据的挖掘及处理(利用)是值得研究的问题。 异常数据的挖掘方法 所谓数据挖掘就是按照既定的目标, 对大量的统计数据进行探索, 揭示隐藏其中的规律并进一步将之模型化的一种先进有效的方法。对异常数据的挖掘我们认为实际上就是识别统计数据是否为异常值,挖掘过程实际上是识别过程,可以用以下几种方法进行挖掘: 3 检测法2 一般统计数据若没有明显的上升或下降趋势(若是时间序列一般为平稳的时间序列) ,都分布在其均值周围,标准差 能反映其离散程度。统计数据可以是
4、来自某一总体的样本。如果是一般总体,可以由概率统计中的切贝谢夫不等式知道,对于任意的 0 ,有: 2|)(| XEP特别地有, 即统计数据与其均值的偏差超过913|)(| 2X3 比例不超过 1/9 则由不等式 ,即在正027.)3(|)(| x态分布下统计数据与平均值的离差大于 3 的概率仅为 0.27%,所以 可将那 3 些有均值之差的绝对值超过 3 的统计数据视为异常数据。 根据概率论中的中心极限定理, 因此 3 检测法在实际中比较常用。当然它的局限性是只适用于单维异常数据的挖掘。 2.3 利用聚类分析法对数据处理聚类分析又称群分析,是研究分类问题的一种多元统计方法。在聚类分析的过程中,将样品或变量按相互之间距离的大小或由相似系数反映出的相近性聚成若干类,常用的距离有欧氏距离、马氏距离、兰氏距离等,马氏距离可以排除指标之间相关性的干扰且不受量纲的影响,最为实用。根据聚类的结果,距离较小或相似系数大的可以聚为一类,但最终聚成几类,并没有严格的限制。如果存在几个样品,聚合成哪一类都不合适,或与其它样品的距离都比较远,那么就可断定这些样品数据为异常数据。 1、数据在聚类分析之前要进行数
《数据分析与筛选》由会员mg****85分享,可在线阅读,更多相关《数据分析与筛选》请在金锄头文库上搜索。
高中数学配套课件:第1部分 第二章 2.2 2.2.1 用样本的频率分布估计总体分布
高中数学必修2红对勾答案1-1-2-2
高中数学全程复习方略第二章 圆锥曲线与方程 章末总结 阶段复习课(共57张ppt)
高三文科数学一轮复习数列5--5
高一数学对数函数课件
马克思主义政党是工人阶级的先锋队
青岛版数学六年级上册第八单元百分数的整理和复习1
阿拉伯糖操纵子
逻辑基本规律1
选修4《化学反应速率和化学平衡》 第3节 化学平衡(5) 有关化学平衡常数及转化率的计算
辅修用 辅助费用分配
软件无线电 第3章 多模式调制解调
跳槽员工与辞退员工管理技巧及典型案例解析(ppt 40)
费用组成(工管、辅修、专升本)
财政学公共支出课件
苏教版数学四年级上册《平行和相交(一)》课件
船舶推进第2章 螺旋桨几何特征
自考第3章4调和函数
自动控制课件 第4章
育新小学 魏秀珍
2023-02-26 11页
2023-09-09 17页
2023-12-22 3页
2023-12-28 23页
2023-10-31 6页
2023-04-10 25页
2023-11-14 6页
2022-09-30 8页
2023-03-09 20页
2022-10-28 10页