数据分析学习笔记
学习数据分析的学习笔记,Head first系列
.title { text-align: center; margin-bottom: 0.2em }
.subtitle { text-align: center; font-size: medium; font-weight: bold; margin-top: 0 }
.todo { font-family: monospace; color: rgba(255, 0, 0, 1) }
.done { font-family: monospace; color: rgba(0, 128, 0, 1) }
.priority { font-family: monospace; color: rgba(255, 165, 0, 1) }
.tag { background-color: rgba(238, 238, 238, 1); font-family: monospace; padding: 2px; font-size: 80%; font-weight: normal }
.timestamp { color: rgba(190, 190, 190, 1) }
.timestamp-kwd { color: rgba(95, 158, 160, 1) }
.org-right { margin-left: auto; margin-right: 0; text-align: right }
.org-left { margin-left: 0; margin-right: auto; text-align: left }
.org-center { margin-left: auto; margin-right: auto; text-align: center }
.underline { text-decoration: underline }
#postamble p, #preamble p { font-size: 90%; margin: 0.2em }
p.verse { margin-left: 3% }
pre { border: 1px solid rgba(204, 204, 204, 1); box-shadow: 3px 3px 3px rgba(238, 238, 238, 1); padding: 8pt; font-family: monospace; overflow: auto; margin: 1.2em }
pre.src { position: relative; overflow: visible; padding-top: 1.2em }
pre.src:before { display: none; position: absolute; background-color: rgba(255, 255, 255, 1); top: -10px; right: 10px; padding: 3px; border: 1px solid rgba(0, 0, 0, 1) }
pre.src:hover:before { display: inline }
pre.src-asymptote:before { content: “Asymptote” }
pre.src-awk:before { content: “Awk” }
pre.src-C:before { content: “C” }
pre.src-clojure:before { content: “Clojure” }
pre.src-css:before { content: “CSS” }
pre.src-D:before { content: “D” }
pre.src-ditaa:before { content: “ditaa” }
pre.src-dot:before { content: “Graphviz” }
pre.src-calc:before { content: “Emacs Calc” }
pre.src-emacs-lisp:before { content: “Emacs Lisp” }
pre.src-fortran:before { content: “Fortran” }
pre.src-gnuplot:before { content: “gnuplot” }
pre.src-haskell:before { content: “Haskell” }
pre.src-hledger:before { content: “hledger” }
pre.src-java:before { content: “Java” }
pre.src-js:before { content: “Javascript” }
pre.src-latex:before { content: “LaTeX” }
pre.src-ledger:before { content: “Ledger” }
pre.src-lisp:before { content: “Lisp” }
pre.src-lilypond:before { content: “Lilypond” }
pre.src-lua:before { content: “Lua” }
pre.src-matlab:before { content: “MATLAB” }
pre.src-mscgen:before { content: “Mscgen” }
pre.src-ocaml:before { content: “Objective Caml” }
pre.src-octave:before { content: “Octave” }
pre.src-org:before { content: “Org mode” }
pre.src-oz:before { content: “OZ” }
pre.src-plantuml:before { content: “Plantuml” }
pre.src-processing:before { content: “Processing.js” }
pre.src-python:before { content: “Python” }
pre.src-R:before { content: “R” }
pre.src-ruby:before { content: “Ruby” }
pre.src-sass:before { content: “Sass” }
pre.src-scheme:before { content: “Scheme” }
pre.src-screen:before { content: “Gnu Screen” }
pre.src-sed:before { content: “Sed” }
pre.src-sh:before { content: “shell” }
pre.src-sql:before { content: “SQL” }
pre.src-sqlite:before { content: “SQLite” }
pre.src-forth:before { content: “Forth” }
pre.src-io:before { content: “IO” }
pre.src-J:before { content: “J” }
pre.src-makefile:before { content: “Makefile” }
pre.src-maxima:before { content: “Maxima” }
pre.src-perl:before { content: “Perl” }
pre.src-picolisp:before { content: “Pico Lisp” }
pre.src-scala:before { content: “Scala” }
pre.src-shell:before { content: “Shell Script” }
pre.src-ebnf2ps:before { content: “ebfn2ps” }
pre.src-cpp:before { content: “C++” }
pre.src-abc:before { content: “ABC” }
pre.src-coq:before { content: “Coq” }
pre.src-groovy:before { content: “Groovy” }
pre.src-bash:before { content: “bash” }
pre.src-csh:before { content: “csh” }
pre.src-ash:before { content: “ash” }
pre.src-dash:before { content: “dash” }
pre.src-ksh:before { content: “ksh” }
pre.src-mksh:before { content: “mksh” }
pre.src-posh:before { content: “posh” }
pre.src-ada:before { content: “Ada” }
pre.src-asm:before { content: “Assembler” }
pre.src-caml:before { content: “Caml” }
pre.src-delphi:before { content: “Delphi” }
pre.src-html:before { content: “HTML” }
pre.src-idl:before { content: “IDL” }
pre.src-mercury:before { content: “Mercury” }
pre.src-metapost:before { content: “MetaPost” }
pre.src-modula-2:before { content: “Modula-2” }
pre.src-pascal:before { content: “Pascal” }
pre.src-ps:before { content: “PostScript” }
pre.src-prolog:before { content: “Prolog” }
pre.src-simula:before { content: “Simula” }
pre.src-tcl:before { content: “tcl” }
pre.src-tex:before { content: “TeX” }
pre.src-plain-tex:before { content: “Plain TeX” }
pre.src-verilog:before { content: “Verilog” }
pre.src-vhdl:before { content: “VHDL” }
pre.src-xml:before { content: “XML” }
pre.src-nxml:before { content: “XML” }
pre.src-conf:before { content: “Configuration File” }
table { border-collapse: collapse }
caption.t-above { caption-side: top }
caption.t-bottom { caption-side: bottom }
td, th { vertical-align: top }
th.org-right { text-align: center }
th.org-left { text-align: center }
th.org-center { text-align: center }
td.org-right { text-align: right }
td.org-left { text-align: left }
td.org-center { text-align: center }
dt { font-weight: bold }
.footpara { display: inline }
.footdef { margin-bottom: 1em }
.figure { padding: 1em }
.figure p { text-align: center }
.inlinetask { padding: 10px; border: 2px solid rgba(128, 128, 128, 1); margin: 10px; background: rgba(255, 255, 204, 1) }
#org-div-home-and-up { text-align: right; font-size: 70%; white-space: nowrap }
textarea { overflow-x: auto }
.linenr { font-size: smaller }
.code-highlighted { background-color: rgba(255, 255, 0, 1) }
.org-info-js_info-navigation { border-style: none }
#org-info-js_console-label { font-size: 10px; font-weight: bold; white-space: nowrap }
.org-info-js_search-highlight { background-color: rgba(255, 255, 0, 1); color: rgba(0, 0, 0, 1); font-weight: bold }
.org-svg { width: 90% }
pre.src { background-color: rgba(41, 43, 46, 1); color: rgba(178, 178, 178, 1) }
pre.src { background-color: rgba(41, 43, 46, 1); color: rgba(178, 178, 178, 1) }
pre.src { background-color: rgba(41, 43, 46, 1); color: rgba(178, 178, 178, 1) }
pre.src { background-color: rgba(41, 43, 46, 1); color: rgba(178, 178, 178, 1) }
数据分析学习笔记
目录
1 分解数据
数据分析就是仔细推敲证据。目的是做出更好的决策。
了解问题->分解问题和数据->评估->决策
1.1 确定目标
确定问题很重要,不能推卸自己解决问题和建议决策的义务。
尽量从客户那里多了解一些信息,才能确定问题。
仅仅过一眼并不是数据分析,数据分析总的来说就是认清问题,继而解决问题。
有些人把问题视为机会,指出如何发现机会则能赢得竞争优势。
确定量化目标,弄清数据的意义。
1.2 把问题和数据分解为更小的块
将问题划分为可管理、可解决的组块。
找出高效的比较因子。进行有效的比较是数据分析的核心。
1.3 评估
评估分解组块的关键就是比较,通过对这些因子进行比较,你看出了什么?
分析从你介入的那一刻开始,数据分析就是你的一切:你的信念,你的判断,你的信用。
只要你在分析中明白地展现自己,成功就更有希望。
在撰写最终报告的时候,一定要提到你自己,这样客户才知道你的结论出自何处。
1.4 提出建议
你的工作就是让自己和客户仔细研究你对数据的评估,洞察先机,从而有能力作出更好的决策。
你的最终报告要能简单则简单,但不可简单过头!你的工作是确保自己的意见传达到位,让人们根据你的意见做出正确的决策。 提交给客户的报告要以得到客户理解、鼓励客户以数据为基础做出明智的决策为重点。
1.5 心智模型
你对外界的假设和你确信的观点就是你的心智模型。
现实世界非常复杂,心智模型大大影响你对数据的解释。
统计模型取决于心智模型。心智模型决定你的观察结果,是你观察现实的棱镜。
你无法看到一切,因此你的大脑必须做出选择,以便集中注意力,这就是所谓的心智模型大大决定观察结果。
心智模型应当包括你不了解的因素,一定要指出不确定因素。了解自己的知识缺陷非常重要。
你无法无所不知,世界总是在不断变化,这就是严谨地指定问题并管理心智模型不确定因素成为工作重点的原因。
搜集数据很重要,什么时候停止?
错误的假设注定分析会得出错误的答案。一旦得到的数据与你的假设不符,就要立即回头重新详加思考。
回顾问题、提炼模型、基于新模型观察世界,都是分析师工作的基本组成部分。
2 检验你的理论
通过实验进行实证检验。一个好的实验即能解决问题,又能揭示事物的真正运行规律。一个好实验往往能让你摆脱对观察数据的无限依赖,帮你理清因果关系;可靠的实证数据将让你的分析判断更有说服力。
统计与分析最基本的原理之一就是比较法。数据只有通过相互比较才会有意义。(特别是随着时间变化的数据)
比较越多,分析结果越正确。(数据,数据,实验,实验)
使用观察研究的方法时,应当假定其他因素会混杂你的结论,因为你无法像控制实验那样控制这些因素。当你开始怀疑因果关系的走向时,请进行反方向思考。
涉及判定因果关系时,观察研究法并不是那么强大有力.
观察分析法充满混杂因素,它们不是你试图进行比较的因素,最终会导致分析结果的敏感度变差。
要不断考虑混杂因素对分析结果的影响。想象哪些变量可能会影响你的分析结果。无论你的量化技术多么出神入化,真正的重点却永远在于:分析结论要 有意义 。
拆分数据块,管理混杂因素。
要对策略进行实验,以得到数据支持。好的实验要有控制组(对照组),才能用比较法观察。没有控制组就意味着没有比较,没有比较就意味着无法对所发生的情况进行判断。 应当对历史控制法表示怀疑。
混杂因素是所研究的各个组之间的差异。为了 有效地进行比较 ,各个组必须相同。
随机选择相似组
3 最优化
人人都想多多益善,为此我们要调整决策变量,找出解决方案和优化点,使我们最大限度地达到目标。
将所需要的数据分成两类:无法控制的因素,可以控制的因素。
你能控制的变量受到约束条件的限制。决策变量是你能控制的因素,约束条件告诉你无法做到的事。
你的目标应该是尽量创建最有用的模型,让模型的不完美相对分析目标变得无足轻重。
3.1 按照分析目标校正假设
你的假设应该详尽到什么程度?由分析的重要性来决定。
创建模型时,务必要规定假设中各种变量的相互关系。例如,假设下个月的销量仍然保持前几个月的销售趋势。
你的假设立足于不断变化的实际情况。做好修改模型的准备。
4 数据图形化
每当观察一张新图片,一上来就该问“图片中隐含了哪些数据?”你所关心的是数据的质量及其含义,炫目的设计会妨碍你做出分析判断。 数据图形要体现数据,优秀的数据分析自始至终都离不开“用数据思考”。
数据庞杂过多,记住你的分析目标,目光停留在和目标有关的数据上,无视其它。
让数据变美观也不是你要解决的问题。
数据图形化的根本在于正确比较。首先要明确能够实现客户目标的基本比较对象。
优秀图形展示数据,作出高明的比较,展示多个变量。
散点图是探索性数据分析的奇妙工具,使用散点图发现因果关系(相关?)。
通常用X轴代表自变量(假想为原因的变量),Y轴代表应变量(假想为结果的变量)。不必去论证因果,因为我们是在探索数据,原因正是我们的探索目标。
有效的比较是数据分析的基础,尽量让图形多元化最有可能促成最有效的比较。
模型与数据吻合,看起来最合情理。
5 假设并非如此
通过数据分析仔细推理,细致地评估大量备选答案,然后将手头的一切信息整合到各种模型中。证伪法就是一种切实有效的非直觉方法。
变量之间可以正相关,也可以负相关。将变量关系编织成一个模型。
现实世界中的各种原因呈网络关系,而非线性关系。 线性等于直觉。在一个活跃、多变、互有联系的系统中制定决策。要渴望看出因果关系网络。
用手头的资料进行假设检验。
5.1 假设检验的核心是证伪
剔除无法证实的假设,就是证伪。选出看上去最可信的第一个假设的做法称为满意法。证伪法更可靠。
满意法容易形成偏见,坚持选择的假设。证伪法让人们对各种假设感觉更敏锐,防止掉入认知陷阱。
可以克服人们专注于错误答案而无视于其他答案的天然倾向。
Created: 2018-12-12 Wed 22:00