标题: PHP网页设计用 PHP 使 Web 数据剖析进入更高境地 [打印本页] 作者: 小妖女 时间: 2015-2-4 00:28 标题: PHP网页设计用 PHP 使 Web 数据剖析进入更高境地 讲了这么多,无非是想说:学习PHP不仅要掌握方法,更多的是付出汗水,我不希望看到中途放弃的人,相信自己,相信自己的选择,更要相信自己的能力,如果自己想放弃,暴力一点的话,就自己抽自己一个嘴巴。web|数据 计您的数据剖析,做比复杂原始计数更多的事
对 Web 数据停止无效和多条理的剖析是很多面向 Web 企业可以保存的关头要素,数据剖析查验的设计(和决议计划)凡是是体系办理员和外部使用法式设计人员的任务,而他们能够除可以把原始计数制成表格以外,对统计学没有更多的懂得。在本文中,Paul Meagher 向 Web 开辟人员教授了将推论统计学使用到 Web 数据流所需的妙技和概念。
看成为参数查验基本的某些假定值得嫌疑时,非参数查验也很有效;当不知足参数假定时,非参数查验在检测整体差别时有很大的感化。关于 Web 平易近意检验的示例,我利用了非参数剖析进程,由于 Web 平易近意检验凡是利用定类标准来纪录投票者的偏好。
我并非在建议 Web 平易近意检验和 Web 会见统计信息应当一直利用定类标准权衡尺度,或说非参数统计查验是独一可用于剖析这类数据的办法。不难假想有(比如)如许的平易近意检验和查询拜访,它们请求用户对每一个选项供应数值评分(从 1 到 100),对此,参数性的统计查验就对照适合。
虽然如斯,很多 Web 数据流包含编纂种别计数数据,并且经由过程界说定距标准(比如从 17 到 21)并将每一个数据点分派给一个定距标准(如“年老人”),可以将这些数据(经由过程利用功效更壮大的权衡尺度丈量)酿成定类标准数据。频率数据的广泛存在(已是 Web 开辟人员经历的一局部),使得专注于非参数统计学成为进修若何将推论手艺使用到数据流的优秀出发点。
为了使本文坚持公道的篇幅,我将把对 Web 数据流剖析的会商局限于 Web 平易近意检验。然而请记住,很多 Web 数据流都可以用定类计数数据暗示,而我会商的推论手艺将使您能做比呈报复杂的计数数据更多的工作。
思索这个预期的抽样可变性,您能够嫌疑经由过程随机抽样可变性是不是比反应所研讨整体中的实践差别能更好地申明察看到的品牌偏好。在统计学术语中,这个抽样可变性申明被称为子虚设(null hypothesis)。(子虚设由符号 Ho 暗示)在本例中,用公式将它暗示成如许的语句:在作出回覆的一切种别中,各类回覆的希冀数量不异。
假如盘算啤酒接待度平易近意检验数据的 X 平方散布统计,会失掉值 9.80。要查验子虚设,需求晓得在假定存在随机抽样可变性的情形下取得这么一个极限值的几率。要得出这一几率,需求了解 X 平方散布的抽样散布是甚么样的。
察看 X 平方散布的抽样散布
图 2. X 平方散布图
在每幅图中,横轴暗示所失掉的 X 平方散布值巨细(图中所示局限从 0 到 10)。纵轴显示各 X 平方散布值的几率(或称为呈现的绝对频率)。
当您研讨这些 X 平方散布图时,请注重,当您在实行中改动自在度(即 df)时,几率函数的外形会改动。关于平易近意检验数据的示例,自在度是如许盘算的:记下平易近意检验中的回覆选项(k)的数量,然后用这个值减 1(df = k - 1)。
凡是,当您在实行中增添回覆选项的数量时,取得较大 X 平方散布值的几率会下落。这是由于当增添回覆选项时,就增添了方差值的数量 ― (察看值 - 希冀值)2 ― 您可以求它的总数。因而,当您增添回覆选项时,取得大的 X 平方散布值的统计几率应当增添,而取得较小 X 平方散布值的几率会削减。这就是为何 X 平方散布的抽样散布的外形跟着 df 值的分歧而变更的缘由。
另外,要注重到凡是人们对 X 平方散布了局的小数点局部不感乐趣,而是对位于所取得的值右侧曲线的总计局部感乐趣。该尾数几率告知您获得一个象您察看到的极限值是能够(如一个大的尾数区域)仍是不成能(小的尾数区域)。(实践上,我不利用这些图来盘算尾数几率,由于我可以完成数学函数来前往给定 X 平方散布值的尾数几率。我在本文前面会商的 X 平方散布法式中会采取这类做法。)
$multi = new Multinomial($NExps, $NTrials, $NOptions);
$output = fopen("./data.txt","w") OR die("file won't open");
for ($i=0; $i<$NExps; $i++) {
// For each multinomial experiment, do chi square analysis
$chi = new ChiSquare1D($multi->Outcomes[$i]);
// Load obtained chi square value into sampling distribution array
$distribution[$i] = $chi->ChiSqObt;
// Write obtained chi square value to file
fputs($output, $distribution[$i]."n");
}
fclose ($output);
正如您可以看到的,这些 X 平方散布值的直方图与下面暗示的 df = 2 的一连 X 平方散布的散布近似。
图 3. 与 df=2 的一连散布近似的值
鄙人面几节中,我将偏重于申明这个摹拟实行中所利用的 X 平方散布软件的任务道理。凡是情形下,X 平方散布软件将用于剖析实践的定类标准数据(例如 Web 平易近意检验了局、每周的流量呈报或客户品牌偏好呈报),而不是您利用的摹拟数据。您能够还会对该软件生成的其它输入 ― 例如汇总表和尾数几率 ― 感乐趣。
X 平方散布的实例变量
我开辟的基于 php 的 X 平方散布软件包由用于剖析频率数据的类组成,频率数据是依照一维或两维(ChiSquare1D.php 和 ChiSquare2D.php)停止分类的。我的会商将仅局限于申明 ChiSquare1D.php 类的任务道理,和申明若何将其使用于一维 Web 平易近意检验数据。
// Copyright 2003, Paul Meagher
// Distributed under LGPL
require_once PHP_MATH . "dist/Distribution.php";
class ChiSquare1D {
var $Total;
var $ObsFreq = array(); // Observed frequencies
var $ExpFreq = array(); // Expected frequencies
var $ExpProb = array(); // Expected probabilities
var $NumCells;
var $ChiSqObt;
var $DF;
var $Alpha;
var $ChiSqProb;
var $ChiSqCrit;
这些了局将遭到酿酒厂老板极为具体的反省,他们会对剖析进程和实行办法的合适性提出疑问;出格地,他们会对样本的代表性提出疑问。假如您盘算停止一次 Web 实行,该实行能够具有主要的实践寄义,那末,关于用来搜集数据的实行办法和用来从数据得出推论的剖析手艺,您需求赐与一律的存眷。
因而,本文不但为您奠基了一个优秀的基本,以便于可以增强您对 Web 数据的无效了解,它还供应了一些建议,这些建议是有关若何回护您的统计查验选择的,而且使得从数据取得的结论更具公道性。
使用学到的常识
在本文中,您已懂得了若何将推论统计学使用于广泛存在的用于汇总 Web 数据流的频率数据,偏重于 Web 平易近意检验数据的剖析。然而,所会商的复杂的单向 X 平方散布剖析进程也可以无效地使用于其它类型的数据流(会见日记、查询拜访了局、客户概要信息和客户定单),以便将原始数据转换成有效的常识。
在将推论统计学使用于 Web 数据时,我还引见了但愿将数据流视作 Web 实行的了局,以便于在作推论时进步援用实行设计思索事项的能够性。凡是因为您关于数据收集的进程缺少足够的掌握,因而您不克不及做出推论。然而,假如在将实行的设计准绳使用于 Web 数据搜集进程时您加倍自动(例如,在您的 Web 平易近意检验过程当中随机选择投票者),那末可以改动这类情况。
最初,我演示了若何摹拟分歧自在度的 X 平方散布的抽样散布,而不只是仅申明其来历。在如许做的过程当中,关于丈量种别的希冀频率小于 5(换而言之,即小 N 实行)― 我还演示了一种变通办法(利用小 $NTrials 值摹拟实行的抽样散布)来制止利用 X 平方散布查验。因而,我不只是利用研讨过程当中的 df 来盘算样本了局的几率,关于数目较小的测验考试,能够还需求利用 $NTrials 值作为参数来求得所察看 X 平方散布了局的几率。
思索您能够会若何剖析小 N 实行是值得的,由于您凡是能够但愿在数据收集完成之前剖析您的数据 ― 当每次察看的价值都很昂贵时,当察看需求消费很长工夫才干取得时,或只是由于您很猎奇。在测验考试这一级其余 Web 数据剖析时,最好谨记上面这两个成绩: