essay代写,代写assignment,paper代写,代写留学作业,英国作业

导航切换

QQ:
1017416118

二维码

当前位置:主页 > 代写essay >

Stat 300W - Final Project essay代写

浏览: 日期:2019-10-09

  Stat 300W Final Project代写, 截止上课最后一天,4月8日下午7点在Dropbox上打印。

  用乳胶笔写一篇800-1400字的文章,内容涉及以下统计中有争议的话题之一。

  写一篇有说服力的文章,争论一方的观点,或者写一篇比较和对比的文章,看看双方的不同和相似之处?

  Essay问题包括:

  ·站在一边,或者比较贝叶斯方法和常客方法。

  ·-站在一边,或者比较参数化方法和非参数化方法。

  ·我…或者模拟和真实数据。

  ·吝啬和准确有多重要?

  ·零假设检验有多大价值,它掩盖了什么?

  ·p值应该是金标准吗?

  ·因果关系研究的可行性如何?

  ·多重测试是有效的补救措施吗?

  ·归责是一种有效的补救方法吗?

  ·像神经网络这样的超复杂方法的灵活性是否值得它们不能被合理解释或描述?

  ·为什么我们用平均数而不是中值作为一切的基础?

  ·讨论出版偏倚以及漏斗图等非对称测试如何暴露它。

  ·讨论条形图和饼图的优缺点。

  写作essay.技术报告模板

  完整的技术报告可能如下所示:

  一。执行摘要

  2.介绍/问题陈述

  三。方法

  四。结果

  5个。结论/讨论

  Executive Summary:

  这是你最不应该写的东西。这将是技术报告的tl;dr。“tl;dr”代表“太长;没有阅读”。更正式地说,这被称为“执行摘要”,意思是“如果这份报告是交给一个重要的决策者的,他已经有很多事情需要知道,你希望他们从这份报告中知道什么,可以减少到100字或更少。”

  在这里,你应该尽快写下研究问题,一个主要的结果,以及使用的主要方法的名称。这里不需要讨论/结论部分的任何内容。

  Introduction:

  导言通常遵循一个封闭的公式。

  一。描述研究问题或陈述提出的研究问题。如果可以的话,告诉我为什么这个研究问题很重要。对重要性的解释不必对研究问题过于具体。如果你正在处理一个医学问题的数据,请提及许多人都患有这个医学问题;在一篇研究essay中,这是一个很好的机会,可以引用一篇著名的相关essay,为你找到问题的范围。

  如果你不知道为什么一个问题是重要的,一个快速的文献检索不会告诉你,把这个问题的重要性留给一个合作作者,他的专业知识更适合这个部分。承认自己不知道比说错话要好得多。

  2.用非常简短的细节描述essay或report中的每一部分。(例如,“在方法部分,我们描述了我们使用的数据清理和回归树方法。在结果部分,我们描述了不同曲棍球运动员的进球率。在讨论部分中,我们将这种方法与一个更老、更传统的方法进行比较。

  Methods

  方法:你做了什么来得到这些结果?

  如果这是一门野外科学,你可以列出时间,描述你进入野外并收集信息的条件(例如,“我们在2015年6月10日至9月20日在北奥坎纳根山谷的晴天采集样本”)。在数据科学中,你应该描述你使用的数据集,它的格式和大小,以及关键的变量和特性(例如,“我们使用nhlscrapr包和我们自己的补丁从nhl.com的事件跟踪数据库中收集数据,我们收集的数据包括每个目标、射门、命中、罚球和面对面,记录在每个常规的2012年10月至2017年4月的季赛)

  这是你大部分写作的地方。大约50%的报告是方法部分。您不需要解释整个数据清理过程,但应该提到数据来自何处,以及使用的工具/软件。这也是一个很好的做法,当数据是采取(特别是在新闻报道的情况下,可能会更新,修改,或存档,以便刮擦可能会产生不同的结果以后)。

  如果在数据清理过程中有任何判断调用,例如…

  -对极端和有影响力的案件做了什么,

  -如何使用有问题的变量,

  -如何选择复杂方法的调整参数,以及

  -如何填写或解释缺失的值,

  ……这些也应该包括在内。

  简而言之,你不必放弃一切,但是拥有相同软件和数据访问权限的专家应该能够重新创建你所做的事情。

  方法部分有两个目的:

  第一个目的是让你的结果合法。如果你在展示结果时没有解释你是如何得到这些结果的,读者可能会认为这些结果是捏造出来的。通过methods部分,读者应该能够看到数据和结果之间的逻辑路径。

  第二个目的是帮助未来的读者使用你的发现。毕竟,发布是要公开一些东西,如果可以的话,还包括允许访问整个发现过程。

  说明数据准备后,请描述您选择的模型或用于选择模型的过程。如果你只是做了线性回归,就这么说。如果你使用的是随机森林,套索,或逐步回归,那么就说吧。

  通常,您只需要包含您决定的最终方法。然而,很有可能你使用的方法并不是你尝试过的唯一方法。在一篇研究essay中,你不一定会提到这些“死胡同”,因为essay长度受到期刊的限制。在技术报告(或essay)中,这些其他方法有助于帮助您证明您的选择是正确的,并考虑了其他选择。你可以解释为什么这些被拒绝的方法不起作用,或者他们产生的结果是坏的。不要过分解释这些死胡同。读者更感兴趣的是你做了什么,做了什么,而不是什么没有工作,典型的。

  示例:“经过探索性分析,我们尝试使用随机森林、降维和神经网络对事件进行分类。我们决定进一步研究神经网络,因为与其他方法相比,神经网络产生的模型袋外误差要低得多。”

  结果

  最简单的方法是先写结果,即使它们不是最先出现的。任何你想显示的图表,在分析工作完成后立即制作。谈谈你的成绩。解释任何表格和数字的重要性;它们为什么在那里?

  提及总体趋势(例如,“每场比赛的上场时间与射门得分之间存在负的、非线性的趋势”),以及任何值得注意的观察结果(然而,新泽西魔鬼队打破了这一趋势)

  你不需要在这里写很多东西。图表应该解释清楚。

  讨论/结论:

  在技术报告中,这是你获取结果的地方,并在引言中的研究问题的背景下赋予它们意义。你也可以很快总结一下你所做的。

  在一篇期刊论文或一篇论文中,这一部分还可能包括未来的研究问题,这些问题可以通过更多的数据或不同的分析来回答。技术报告应更加独立,不需要提及进一步的工作。

  在任何情况下,都不应在结论中介绍有关该项目的新信息。如果你有一个有趣的发现,它应该在结果中。如果这个有趣的发现与其他结果不符,可以为它创建一个新的小节,但不要将其放在讨论部分。

  记住,在给出结果的上下文时,不要超出您的专业知识。如果数据是遗传的,而你不是遗传学家或生物学家,不要对基因的重要性下结论。统计出版物通常是与学科专家合著的;让那些专家写下他们的主题,并坚持数据分析。

  Notes:The Skeleton Method

  骷髅方法

  Papers are big and intimidating to write,and imaging everything involving in the writing of one is pretty much impossible,at least for modern papers.Instead,it's much easier to think about and write small parts of a paper at a time,and they do any necessary synthesis at the end.

  那是骷髅方法来的地方

  首先,写你的paper。That is,list the sections you want to include,and a general question for each section:

  例如:A simulator for twenty20板球(Davis,Perera,and Swartz)

  一。介绍

  目前的问题是什么,解决问题的背景和动机是什么?

  2.预备工作

  描述一下你所拥有的数据及其特点?

  三。参数估计

  我们如何评估每个玩家的水平?

  四。扩展模拟器

  我们还可以用这个模拟器做些什么,但是为了简单起见,我们选择了不做?

  5个。模拟器的充分性

  我们怎么知道模拟器在描述我们所说的游戏呢?

  6.讨论

  我们还能用这个模拟器做什么?这意味着什么?

  接下来,写几个简短的句子来回答这些问题。

  一。介绍

  目前的问题是什么,解决问题的背景和动机是什么?

  -板球运动是一项世界性的运动。

  -但与棒球相比,分析不足。

  -让我们将棒球风格的分析应用于板球。

  2.预备工作

  描述一下你所拥有的数据及其特点?

  -数据来自espn cricinfo。

  -我们有每个投球的结果和评论。

  -这些数据以文本形式出现,我们对它们进行格式化。

  三。参数估计

  我们如何评估每个玩家的水平?

  -我们根据结果的分布来分解每个参与者。

  -我们对每一个结果发生的游戏情况进行调整。

  -游戏情况调整在附录中计算。

  四。扩展模拟器

  我们还可以用这个模拟器做些什么,但是为了简单起见,我们选择了不做?

  -想想第二局。

  -说明主队优势

  -多联盟帐户

  5个。模拟器的充分性

  我们怎么知道模拟器在描述我们所说的游戏呢?

  -它是否产生了与实际游戏相似的分数分布?

  -它达到这些分数的方式和实际游戏一样吗?

  -它是否对知名玩家做出合理的预测或估计?

  6.讨论

  我们还能用这个模拟器做什么?这意味着什么?

  -我们做了我们在导言中说的。

  -我们可以做一些事情,比如等级球员。

  -我们可以用这个赌博。

  第三步:每一块肉都要自己开发。

  最后,用一段到两页的内容来回答每个小部分的问题。

  把你在第二步中添加的每一个部分都画成草图。

  从最容易获得动力的部分开始。

  你可能会发现其他部分比预期的要大,而其他部分是不必要的。

  2.预备工作

  描述你拥有的数据及其特点。

  -数据来自espn cricinfo。

  -(你是怎么找到这些页面的?)有一些RCURL代码

  -(你怎么知道它们是正确的页面?)要检测的文本匹配(通过regex)

  -(你想要什么样的页面?)odi和t20i的评论和总结

  -(多少?什么时候?)2009-2015年,约1000场比赛,2015-2016年

  -(您从这些页面中获得了哪些变量?)参赛队伍,比赛号码,球员

  -(有什么挑战吗?)自动导航具有挑战性,需要一些监督。

  -(还有其他挑战吗?)将摘要数据与游戏评论匹配

  -(还有吗?)很多玩家都有昵称,或者有相同的姓氏

  -(有什么显著的特点吗?)评注总是用同样的格式写的。

  示例骨架:引导

  一。介绍

  ·-什么是自举?

  ·-怎么用的?

  ·-为什么要用?

  ·-有时样本太小,不能很好地估计一些东西。

  ·-涉及小自由度、饱和度的示例

  2.预备工作

  ·-它是什么时候开发的?

  ·-现在流行在哪里?

  三。主题1——基本思路

  ·-数学描述

  ·-重新采样(有vs.无替换)

  ·-假设。(实际上很少)……

  ·蒙特卡洛近似

  ·-组合精确描述。

  四。主题2-扩展或相关概念

  ·-手提刀

  ·-非参数化???

  5个。讨论

  ·这种方法的前景如何?

  ·有什么限制?

  ·“带回家的信息”摘要

  示例框架:社交媒体中的偏见

  一。介绍

  -什么是社交媒体抽样?

  -为什么会有问题?(偏差)

  -为什么偏见是个问题?

  2.预备工作

  -“便利抽样”与社交媒体抽样的区别。

  -方便对研究者来说是最方便的。

  -社交媒体有一个随机因素,但不是一个我们通常可以用数学解释的因素。

  -网络抽样/招募抽样。

  -Boaty McBoatFace案例研究

  三。主旨1——社交媒体算法

  -这些对调查有何影响?制造偏见?

  -代表性问题。

  -付费定向广告。它对调查有什么影响?它们是如何影响的?

  四。主旨2——含义,泡沫世界

  5个。讨论

  骨架示例:“参数化与非参数化”

  ·什么使测试参数化与非参数化?(分配的假设)

  ·参数测试更有力的论点。(也就是说,它们产生的p值比对相同数据和零假设的等效非参数检验要小)

  ·一些常见的非参数。

  ·威尔科克斯秩和(与t检验)

  ·斯皮尔曼相关性(与皮尔逊比较)

  ·费舍尔精确检验(vs卡方)

  ·置换试验

  ·自相关的莫兰I

  ·中值检验

  ·诊断一个分布是否合适,如shapiro wilks的正态性,或anderson darling。

  ·最后呼吁采取行动,出版物不应如此依赖参数测试。

  骨架示例:“MCMC简介”

  ·什么是蒙特卡罗“一遍又一遍地运行模拟的基本部分”

  ·什么是马尔可夫链“一组概率,取决于价值序列的最后结果”。(例如:股票价格。明天股票的价格取决于两件事。

  ·一。今天的股价。

  ·2.随机因素(一组概率)

  ·并行化,多台计算机处理同一事物的不同副本。或者…从同一个起点出发的多个复杂情况。

  ·(例如:体育比赛。总是从同一组球员开始,同样的比分0-0和相同的场地条件。接下来是一组随机事件)。

  ·mcmc的优点是,对于没有很好公式的事情,可以得到经验置信区间。

  ·mcmc只需知道一些简单的规则,就可以处理网络探索等非常复杂的系统。

  骨架示例:“简约与精确”

  ·拥有一个简单、易于理解和使用的模型与拥有一个非常适合数据的模型是多么重要。

  ·很容易理解为什么精度是好的(更好的模型拟合更好),但是有一个折衷。

  ·你总是可以做一个饱和模型。(100个响应值,使用100个预测变量),但饱和模型对新值没有任何作用。它可以完美地匹配前100个值,但它将完全无法匹配第101个值。

  ·不那么极端的是过度拟合模型,这个模型使用了比有意义更多的预测因子。它会很好地适应你所拥有的数据,但是对于新的信息来说,它会很糟糕。

  ·与标准回归相比,树的优缺点是什么?过拟合的多项式模型是什么样的?

  ·你怎么知道你是不是太胖了?

  ·交叉验证。(将数据分为两部分:“训练”集和“测试”集。只使用训练集构建模型,然后预测测试集中的值。

  ·K-折叠交叉验证。

  ·评估模型的方式,以平衡节约(简单)和准确性。

  ·准确度:r平方。平方误差之和。

  ·两者:形容词。r平方(r平方,带惩罚)。AIC、BIC/SBC(信息标准)。交叉验证的r平方。

  骨架示例:“回归树,随机林”

  比较熟悉的,线性回归。

  ·与线性回归模型一样,树接受一组预测x值并产生一个响应y。

  ·与线性回归不同,树只能从一组特定的值生成

  树长什么样?

  ·什么是回归树?(示例图表)

  ·一组x变量值的截止值,由一种优化aic等度量的算法确定。

  ·不是每个x变量都需要使用。有些可以用两次。

  ·对于连续的、离散的,甚至是伪/二进制的x变量都很有效。

  ·什么是分类树?

  ·什么是随机森林?

  与标准回归相比,树的优缺点是什么?

  ·答:对打破正态性、恒定方差、无异常值的鲁棒性。

  ·A:利用过饱和数据建立模型的能力(当参数P大于观测值N时)

  ·答:易于适应分类或物流场景。

  ·D:“黑匣子”,提供预测,但不提供推断。

  ·D:依赖于调谐参数。

  ·D:只提供预测,不提供明确的不确定性度量。

  骨架示例:''p-values'

  介绍

  ·空假设统计测试(nhst)是许多领域中最常用的工具,用于确定是否有值得注意的事情。

  ·nhsts的优点是产生一个p值,这个p值可以用相对简单的术语来解释,尽管这种测试的应用场合有很多种。

  ·然而,对于“统计显著性”的概念经常存在混淆或误解,作者将其作为科学或临床意义的代表。

  ·这种便利值得冒过度消费的风险吗?

  定义

  ·什么是无效假设

  ·什么是假设检验

  ·x的p值是什么意思?

  需要考虑的问题

  ·样本量问题。一个非常大的样本会产生一个很小的p值,即使当效应大小很小,也没有实际意义。小样本可能不会给出一个小的p值,无论发生什么(在合理范围内)。

  ·p-hacking,或者选择变量以通过愚蠢的运气找到一个小p值。

  ·多重测试的问题。

  ·0.05作为截止值的任意性质。(这只是一个历史性的意外,0.05没有什么特别之处)

  ·其他相关方法,如置信区间。

  ·研究预注册。

  ·对统计显著性的出版偏见。

  ·其他选择,如基于震级的推断

下一篇:没有了
在线客服