2016年8月9日火曜日

BootCamp総括

7/25(月)~8/5(金)にかけてのBootCampが終了しました。
過去の記事に書いた通り、日本の大学1年生レベルの統計学・線形代数・微積分の復習とRプログラミングの初歩を学びました。
また、最後の2日間は各ベンダーのAnalyticsソリューションの話を聞きました。
後半2日間は、各ベンダーの製品やソリューションの宣伝のような印象でした。

・IBM
iLOG CPLEX(線形計画法で最適解を求めるソフトウェア)やVideo Analytics、Bluemixの紹介

・SAS
SAS Enterprise MinerやSAS Viyaの紹介

・SAP
SAP HANA(SAPのインメモリーDB)の紹介

・Microsoft
Azure Machine Learningの紹介


授業の休憩時間の度に軽食が用意され、同級生とネットワーキングする時間がたくさんありました。
同級生の出身はシンガポール、インド、中国、マレーシア、台湾など多岐に渡るのですが、みんな英語が流暢で会話についていくのがかなり大変です。
授業中に質問しても、自分だけ講師への質問が通じなくて何度も聞き返されたり、悔しい思いをしています。
同級生の就労経験は1~3年ぐらいの人が多く、学部卒で就労経験無く来た人もそれなりにいます。
私は大学院卒業後に日本で8年間働いていますが、私ぐらい就労経験が長い人は稀です。

優秀かつ英語が流暢な年下の同級生達と接していると、「日本は今後も国際競争力を保てるのだろうか」と心配になります。

シンガポール人の同級生からは「その英語力で、よく来たね」みたいなことを遠回しに言われて悔しい思いもしました。
英語ができるかどうかは、英語を使う環境で生まれ育ってきたかが大きなファクターだと思うので、日本で生まれ育ってきた自分には如何ともしがたいところがあります。
しかし、この悔しさをバネに1年間必死で食らいついていきたいと思います。

今のところ辛いことが多い日々ですが、中村拓磨さん(夢を叶えるためにアメリカの大学院に留学している)のメッセージを読んで自分を鼓舞していきたいと思います。
http://takumanakamura.net/?p=642

(勝手ながら、中村さんのブログから抜粋)
-----------------
あなたは何を誇りに思って生きたいだろうか?もし生まれた家が裕福ならば,多くの指標であなたは恵まれているが金持ちの両親を誇りにして生きるのだろうか?もし子供のころから外国語の教育を受け,2,3ヶ国語話せるなら,多くの指標であなたは恵まれているが物心ついたときには既に身についていた能力を自慢してその先も生きるのだろうか?

僕は恵まれた人間である.決して裕福な家庭に生まれた訳ではないが,大学卒業までは両親の援助を受けていて,お金の心配をせずに自分の好きな勉強や部活動に取り組めた.両親の理解にも恵まれた.実家の三重県から遠く離れた仙台に進学することも,そのまた遠く離れたインディアナやアトランタに留学することも,反対されたことは一度もない.そして僕は運もいい.人生の早い段階で,飛行機やロボットといった自分のこれからの人生を賭けてもいいものに出会えた.自分の人生における「これだ!」と思えるものに早く出会うか,遅く出会うかなど,人間の価値を決めるものではないはずだが,世の中そんなにうまくはできていない.進学にしても就職にしても結婚にしても,あるタイミングを逃すととたんにチャンスが少なくなる.早く見つけるだけうまくいく確率は上がる.孔子でさえ「吾十有五にして学を志す」というので,それよりも早くからロボットや飛行機に夢中になれた僕はとても運がいい.

ならば,自分の恵まれた境遇や運の良さを誇りにして生きるのだろうか?

僕はそんな人生は嫌である.もしも僕に子供ができて,いつか「パパはすごいんだぞ,だってな~」と自分の人生を語るとき,才能や履歴書に載っている賞状などを自慢するより,僕は自分が人生の節目節目で行ってきた選択の一つ一つを息子や娘に伝えたい.病弱な子供が自分の足で空を飛ぶことを目指したこと.なまった英語でアメリカの大学院に来たこと.目の前の一流企業よりも,外国人に門戸を開かないアメリカの航空宇宙工学を目指したこと.こういった選択は,鳥人間で日本一になったという結果やアメリカの一流大学の学位そのものよりも誇らしい.僕の人生は惰性じゃない.一つ一つの,苦労と逆境へ進んだ選択の結晶だ.語るのならば,そんな人生の方が美しい.

辛い時間を乗り越えるためにそんなことを考える.苦労多き留学生活である.
-----------------

英単語集(微積分関連)

微積分に関する用語集です。

■微積分
Differential Calculus:微分学
Integral Calculus:積分学
Equation of Motion:運動方程式

Security:証券」(手形・小切手・株券・債券・貨物引換証・船荷証券・倉庫証券・・ など、財産権 を表示する証書のことで、
株はその一部)
Stock, Share:株・株式

Geometric Brownian Motion(GBM):幾何ブラウン運動
annualized:年換算で

Ordinary(Normal) Differential Equation:常微分方程式
Partial Differential Equation:偏微分方程式
Second Order Differential Equation:二階微分方程式

Baboon:ヒヒ

Imaginary Number:虚数
Comlex Number:複素数

least-squares approximation:最小二乗近似
Interpolate:内挿法によって推定する
Extrapolate:外挿法によって推定する
Piecewise-defined function:区分的に定義される関数
domain:定義域
range:値域
Mapping:写像
Dependent Variable(value):
independent variable(argument):

Domain Convention:
natural domain:数式の自然な定義域 (natural domain) とは、その式の値が(典型的には実数として、あるいは整数として、複素数としてなど)定義されるような引数(変数)として取りうる限りの値全体の成す集合をいう。例えば、平方根函数の自然な定義域は(それを実函数として考える限りにおいては)非負実数全体の成す集合である。また特に定義域に言及することなく写像の値域を扱う場合、それは自然な定義域を考えたときの、写像のとりうる値全体の成す集合のことであるのが普通である。

composition:関数の合成
composition of functions関数合成

carbon monoxide:一酸化炭素
x intercepts:x切片(y=0の時の値)
y intercepts:y切片(x=0の時の値)
parabola:放物線
vertex:頂点
Parabolas:All parabolas have a “U shape” and the parabola opens up if A>0 and down if A<0.
The “peak” or “valley” of the parabola is called its vertex, and it always occurs where

anomaly:変則,例外,異例; 変態

Power Functions:べき関数
Polynomial:多項式
Rational Functions:有理関数(つの多項式をそれぞれ分子と分母に持つ分数として書ける関数)
quotient:商、指数、比率
Market Equilibrium:市場均衡
Break-Even Point(BEP):損益分岐点
permissible:許される、差し支えない
Continuity:連続性
Derivative:導関数
Differentiation:微分
The process of computing the derivative is called differentiation. f(x) is differentiable at x=c if f’(x) exists

Higher-Order Function:高階関数
Marginal Analysis:限界分析

instantaneous:瞬間の,即時の,即座の,たちどころの
instantaneous velocity:瞬間速度
tangent:接する
tangent line:接線
secant line:secant《数学》(円の)〔円の中心からある円弧の一方の端を通り、円弧のもう一方の端の接線と交わる点までの直線
※point x and point x+hを結ぶ線がsecant line。h->0の極限をとると、tangent lineになる。

Difference Quotient:差商; 差分係数

※x^nの微分
In words, to find the derivative of x^n, reduce the
exponent n of x by 1 and multiply your new power
of x by original exponent.

First Derivative:一階微分した導関数
Second Derivative:二階微分した導関数
nth Derivative:n階微分した導関数
composite function:合成関数
Differential:差分の
Explicit Form:陽関数形
Implicit Form:陰関数形

Concavity:凹(おう)面
Concave upward:上に凸
Concave downward:下に凸

Inflection:屈曲;屈折
Points of Inflection, Inflection Point:変曲点

Maxima:Maximumの複数形
Minima:Minimumの複数形
absolute(Global) maximum ・・・最大値
ある連続関数y=f(x)の区間[a、b]について、その区間内で関数のとりうる値のうち最も大きいものを表す
Local(Relative) maximum・・・極大値
ある連続関数y=f(x)において、導関数df(x)/dxの値が正から負へと変化するときのxの値をβとしたときの、f(β)の値を表す

Extremum:極値(Local MaximumとLocal Minimumの総称)
Extrema:Extremumの複数形


Local Optima:
Global Optima:

Critical Number(Point):関数f(x)において,df/dx = 0 になるか,あるいは df/dx が定義できない点のこと

Indefinite Integral, Antiderivative:不定積分
Definite Integral:定積分
Integrand:被積分関数
Rationalization:有理化
Initial Value problem:初期値問題
Initial Condition:初期条件
Substitution:代入
lower and upper limit of integration:定積分の積分範囲の下限と上限
Integration by parts, Partial Integration:部分積分
Quadrature by parts:区分求積法

continuous compound interest rate:連続複利

2016年8月3日水曜日

英単語集(線形代数関連)

BootCampで線形代数の授業を受けた際に、数学用語の英語表現をまとめました。

■線形代数
Linear Algebra:線形代数
n-dimensional Euclidean space:n次元ユークリッド空間
m-by-n Matrix:m×n行列

basis:基底

Sneak peek:新着の映画や他の商品などの予告、のぞき見すること

Inner(dot) Product:内積

orthogonal:直交の

Vector Norm:ベクトルのノルム

subscript:下に記した文字[記号,数字]

a.k.a.:also known asの略

Principle of Superposition:重ね合わせの原理

Square Matrix:正方行列
Symmetric Matrix:対称行列
Diagonal Matrix:対角行列
the off diagonal elements:非対角成分
Identity Matrix:単位行列

Transpose:転置

Matrix Multiplication method:Sum over product of respective rows and columns

Heads up:注意喚起、警告

Commutative:可換性の
例)Matrix multiplication is NOT commutative.

Inverse Matrix:逆行列
※Inverse exists only for square matrices that are non-singular

Trivial Solution:自明な解

be consistent:両立、一貫

Determinant:行列式
Singular Matrix:正則行列

Trigonometric Functions:三角関数
Logarithmic Functions:対数関数
Exponential Functions:指数関数

Inconsistent:A system has no solution is said to be inconsistent.
Consistent:if there is at least one solution of the system, it is called consistent.

unknown:未知数

Intersect:線が交差する、交わる

Augmented Matrix:拡大行列

Elementary Row Operations(ERO):行列の基本変形

echelon:階段形の編成にする
row echelon form:行階段形。各行列に何パターンもあり得る
reduced row echelon form:行簡約階段形。各行列において、1つしかあり得ない。

leading variables, pivot:XXX

deduce:〔…から〕〈結論・真理などを〉演繹(えんえき)する; 推論する,推測する

if any:たとえあるとしても

Gaussian elimination:ガウスの消去法
※row reduction:掃き出し法 とも呼ぶ
→row echelon formを作成する方法。

Gaussian-Jordan elimination:ガウス・ジョルダンの消去法
→reduced row echelon formを作成する方法。

Back-Substitution:後退代入

round-off error, rounding error:丸め誤差

Linear Combination:線形結合
Linear Independence:線形独立
rank:To find the rank of matrix A, apply the Gauss-Jordan method to matrix A. 
Let A’ be the final result.  It can be shown that the rank of A’ = rank of A.  The rank of A’ = the number of nonzero rows in A’.  Therefore, the rank A = rank A’ = number of nonzero rows in A’.
adjoining:隣の

GJ法でreduced echelon formを求めると、dependent vectorのrowはnon-zero rowになる。

Eigenvalue:固有値
Eigenvector:固有ベクトル
Eigenpair:固有対(固有値と固有ベクトルの対のことを指す)
Condition Number:条件数
条件数(じょうけんすう、英: condition number)は、問題のコンピュータでの数値解析しやすさの尺度であり、その問題がどれだけ数値解析に適しているかを表す。条件数が小さい問題は「良条件 (well-conditioned)」であり、条件数が大きい問題は「悪条件 (ill-conditioned)」である。

Principal Component Analysis:主成分分析

leftmost:一番左の


■線形計画法
Decision Variable:決定変数
Objective Function:目的関数
Feasible Region:実行可能集合
Unbounded:無限の

wrench:レンチ
plier:ペンチ
mold:型に入れて作る
polyhedron:多面体
emanate:〈光・熱・音・蒸気・香気などが〉〔…から〕発出[発散,放射]する; 〈考え・提案などが〉〔人から〕出る,発する
What if:したらどうなるだろう

The term "Shadow Price" or "Shadow Pricing" is used to refer to monetary values assigned to currently unknowable or difficult to calculate costs.
Shadow prices are also called dual values.
In linear programming, reduced cost, or opportunity cost, is the amount by which an objective function coefficient would have to improve (so increase for maximization problem, decrease for minimization problem) before it would be possible for a corresponding variable to assume a positive value in the optimal solution.

2016年8月1日月曜日

Rの初期セットアップ

BootCampではRプログラミングの基礎を学ぶため、PCにRおよびRstudioをインストールします。
(PCは各自持参するようガイドされました)

MSBAプログラム全体を通してRを使うことが多いとのことで、Rのスキル習得は必須となります。授業の課題をやる際に、他の分析ツール(Pythonなど)を使ってもよいのかもしれませんが、講師の先生曰く、「各授業の講師がR以外のツールに詳しいとは限らない」とのことだったので、まずはRを覚えるのが無難と思います。
また、プログラミング言語と同様に、1つのツールに習熟すれば他のツールの習得も早いと思いますし。

RやRstudioの導入そのものは簡単で、モジュールをダウンロードしてインストーラーに従って導入するだけで済みます。
私のPC(Windows 10)での言語設定は日本語となっているため、Rを英語環境で起動するために以下の設定が必要となります。
※日本語表示だと、他のメンバーと議論するときの妨げになるため、MSBAで使用するソフトウェアは全て英語設定にしようと思います

■R
Rを導入後にWindowsデスクトップに表示されるショートカットを右クリック
→「リンク先」の項を以下の通り変更
(変更前)"C:\Program Files\R\R-3.3.1\bin\x64\Rgui.exe"
(変更後)"C:\Program Files\R\R-3.3.1\bin\x64\Rgui.exe" LANGUAGE=en

■Rstudio

(変更前)
## Language for messages
language =

(変更後)
## Language for messages
language = EN

英単語集(確率論・統計学関連)

数学用語の英語表現など、覚書として残します。随時更新予定です。
※英語は英語として理解すべきと思っていますが、なまじ日本語で数学教育を受けているので、既知の概念については日本語<->英語の対応表があった方が便利と思い作成しました。

※余談ですが、統計学の授業で講師が偶に脈絡なく「Singapore」と言っているように聞こえ、何のことかと思ったら「think about」と仰られていたようでした・・・

population:母集団
sample:サンプル

parameter:a specific characteristics of a "population"(母数)
Values calculated using population data are called parameters

statistic:a specific characteristics of a "sample"(統計量)
Values computed from sample data are called statistics

Descriptive statistics:(記述統計)
Collecting, summarizing, and processing data to transform data into information

Inferential statistics:(推測統計)
Provide the bases for predictions, forecasts, and estimates that are used to transform information into knowledge

Nominal Data:名義データ
Ordinal Data:順序デ-タ
Interval Data:間隔データ(no true zero)
Ratio Data:比例データ(true zero exists)

true zero:
https://answers.yahoo.com/question/index?qid=20130503211838AAymEY3 より抜粋
If a level of measurement has a true zero point, then a value of 0 means you have nothing.
An interval scale (a scale where the difference or interval between the values is important, as opposed to, for example, ordinal or ranked data, where the difference between 1st and 2nd is not necessarily the same as the difference between 4th and 5th), such as temperature in °C, does not have a true zero point. This means that 0 °C is not the coldest temperature, as you can have a negative amount of °C, and as such 20 °C is not twice as cold as 10 °C, since the scale doesn't start at zero.


Structured Data
 ・Categorical
 ・Numerical
   ・Discrete
   ・Continuous

Interval data
→no true zero(temperatureなど)

tabulate:~を表に作る

Frequency Distribution:度数分布

positively skewed distribution:右すそが長い(歪んだ)分布(Right-Skewed)
negatively skewed distribution:左すそが長い(歪んだ)分布(Left-Skewed)

Scatter Plots:散布図

Ogive:累加度数分布曲線(Graphing Cumuative Frequencies)

Quartile:四分位点
※QuartileのQ2=median

Interquartile Range(IQR):四分位数範囲

Coefficient of Variation:変動係数
※unit freeなので、比較をする際に有用。

Covariance(Cov):共分散
Correlation Coefficient:相関係数
Causal Effect:因果関係
※事象AとBの間に相関があっても、因果関係があるとは必ずしも言えないことに注意

Cov(x,x)=Var(x)

Venn diagram:ベン図

sample space:標本空間

venn diagram:ベン図

Intersection:積集合(A∩B など)
Union:和集合(AUB)
Complement:補集合

Mutually Exclusive:相互排他的な(A∩B が空集合)




Intersection of Events:AかつB
Mutually Exclusive Events:AかつB is empty

Union of Events:AまたはB
Collectively Exhaustive:the events completely cover the sample space

Cpmplement:補集合

Mutually Exclusive & Collectively Exclusive:definition of partition

Let X be the Y:XとYと置く
例)Let X be the event “Number rolled is even”

Number of Combinations:場合の数

suit:トランプ、あるいはタロットの小アルカナに書かれているマーク
red suit:トランプのハートまたはダイヤのカード

inclusive:不等号などにおいて、境界値を含む

Factorial:階乗

equally possible, equally likely:同様に確からしい
例)All outcomes in the sample space are equally likely to occur

subjective probability:主観確率

Frequentist vs Bayesians
Frequentist: a probability is a objective number
Bayesians: a probability is a subjective number

deck of cards:52枚のトランプ

Conditional Probability:条件付確率

Numerator:分子
Denominator:分母

Bivariate:2変数の

Joint probability:同時確率、結合確率
Marginal probability:周辺確率

likelihood:可能性、見込み

Prior Probability:事前確率

Discrete Random Variables:離散型確率変数
Continuous Random Variables:連続型確率変数

Head:コインの表
Tail:コインの裏

Binomial distribution:二項分布
Hypergeometric distribution:超幾何分布
Bernoulli distribution: ベルヌーイ分布

the Number of possible outcomes; the number of ways: 場合の数

Cumulative Probability Function:累積確率関数

Expected Value:期待値

Weighted Average:加重平均

Converge:収束する

Trial:試行

Independent trials:独立試行

Positively skewed:
Negatively skewed:

Subinterval:部分区間

e:自然対数の底(the base of the natural logarithm)

Covariance:共分散

Probability Density Function(PDF):確率密度関数
Cumulative Distribution Function(CDF):累積密度関数

Uniform Distribution:一様分布

1/(b-a):1 over b minus a

PI, π, the ratio of the circumference of a circle to its diameter:円周率

Cumulant Generating Function:キュムラント母関数

sampling distribution:標本分布

Q-Q plot:正規性の検定に使用

Exponential Distribution:指数分布

IVLE:Integrated Virtual Learning Environement
授業のビデオをIVLEから参照できるとのこと

Linear Combination:線形結合

Statistical Dispersion, Statistical Variability:統計的ばらつき

the Central Limit Theorem:中心極限定理

diminish:小さくなる、減少する、縮小する、下落する

sampling distribution:標本分布。標本分布母集団を推定するために用いる標本データの分布
mean of a sampleやmeanのmean、varianceのvariance、varianceのmeanなどありconfusing...

variability:変わりやすいこと,変化性

Standard Error of the Mean(SEM):標準誤差
標準誤差(ひょうじゅんごさ)は、母集団からある数の標本を選ぶとき、選ぶ組み合わせに依って統計量がどの程度ばらつくかを、全ての組み合わせについての標準偏差で表したものをいう。Standard errorを略してSEともいう。
統計量を指定せずに単に「標準誤差」と言った場合、標本平均の標準誤差(standard error of the mean、SEM)のことを普通は指す。

sampling with replacement:復元サンプリング
sampling without replacement:非復元サンプリング

Finite Population Correction:有限母集団修正
式の導出は下記URL参照
http://www5d.biglobe.ne.jp/~pomath/study/finitepopulation.pdf


Acceptance Interval:採択域

digest:意味をかみしめる、消化する

sample standard deviation

Chi-square Distribution:カイ二乗分布


Inequality:不等式
Equality:等式
Equation:方程式

Confidence Interval:信頼区間

Estimator:推定量

Point Estimate:点推定
Interval Estimate:区間推定

Estimatorが持っていると好ましい性質
①Unbiasedness:不偏性
Estimatorの期待値が、parameter(母数)と一致すること。
Unbiased Estimator:不偏推定量

②Consistency:一致性
サンプル数を増やすほど、(Estimator-parametor)の期待値が0に近づくこと。
Consistent Estimator:一致推定量

Level of Confidence, Confidence Level:信頼度

Margin of Error(ME):許容誤差
Reliability Factor:信頼度係数

Critial Value, p-value:
How strong your evidences
Strongness of evidence/relationship
統計量(確率変数)がデータから計算した統計量の値より極端な値を取る確率をp値と言う。 p値が小さい→帰無仮説が正しくなさそう。


mean:平均

in this manner:この方法で

Hypothesis Testing:仮説検定
parameter(母数)に対して行う。決して統計量(statistic)に対しては行わない。

Null Hypothesis:帰無仮説
Claim you want to test/reject
refer to the status quo

Alternative Hypothesis:対立仮設
Claim you want to test/accept
challenge the status quo

the Power of Test:検定力
The power of a test is the probability of rejecting a null hypothesis that is false
Power = P(Reject H0 | H1 is true)

status quo:現状

Rejection Region:棄却域

Level of Significance, Significance Level:有意水準

Type I Error:第一種の過誤
Reject a true null hypothesis
The probability of Type I error is α.

Type II Error:第二種の過誤
The probability of Type I error is α.
Fail to reject a false null hypothesis.

Type I Error is worse!

http://shoppingtrolley.blog112.fc2.com/blog-entry-138.html

Test Statistic:検定統計量

i.e.:すなわち,換言すれば(=that is)[ラテン語 id est (=that is) から]

mess up:しくじる、間違う、へまをする

assignment:変数への値を代入する