স্ট্যাটিস্টিক্সকে ডেটা সায়েন্স এর ব্রেইন বলা হয়। স্ট্যাটিস্টিক্স ছাড়া আপনি কোনভাবেই ডেটাকে এনালাইজ করতে পারবেন না, আর ডেটা এনালাইজ না করতে পারলে আপনি কখনই একটা ভালো প্রেডিকশন মডেল ডেভেলাপ করতে পারবেন না।
.
আজকের টপিকঃ ডেটা সায়েন্স এ স্ট্যাটিসটিক্স এর কী কী বিষয় শিখা উচিত
.
স্ট্যাটিসটিক্স শিখার একটা গাইডলাইন দেওয়ার ব্যাপারে আমি পুরো বিষয়কে ৩ ভাগে ভাগ করেছি।
.
Beginner, intermediate and advanced. Let’s dive into it.
.
আসলে স্ট্যাটিসটিক্স একটা বিশাল এরিয়া, একটা কমপ্লিট ডোমেইন। ম্যাথ থেকে আলাদা হওয়া একটা বিশেষ শাখা যার ব্যবহার আমাদের লাইফে প্রায় প্রতিটি সেক্টরে। আমরা কথায় কথায় এভারেজ শব্দটা ব্যবহার করি। অমুক এর এভারেজ, তমুকের এভারেজ। এই এভারেজ টা কিন্তু স্ট্যাটিসটিক্স এর সবচেয়ে ব্যাসিক, ফান্ডামেন্টাল মিজারমেন্ট।
.
ডেটা সায়েন্স এ স্ট্যাটিসটিক্স এর একটা কমপ্লিট গাইডলাইন দেওয়া খুবই কষ্টসাধ্য কাজ, কারন এর ব্যবহার অনেক। তাই আমি ডেটা সায়েন্স এ স্ট্যাটিসটিক্স এর ব্যবহার ভেদে একটা সিকোয়েন্স দাড় করানোর চেষ্টা করেছি।

Beginner Level

আমরা ছোট বেলায় ম্যাথ বইতে পরিসংখ্যান এর অনেক বিষয় পড়েছি। এছাড়া আন্ডারগ্রাড এ প্রায় সব সাবজেক্ট এ কমপক্ষে একটা ৩ ক্রেডিট এ কোর্স করেছি। তবে যা শিখেছি সেটা নিতান্তই অনেক অল্প। এই অল্প নলেজ কে আমি বেগিনার লেভেলে রাখছি।
.
1. Data types, classification, measures of central tendency, measures of dispersion, frequency distribution, contingency table
.
2. Concepts of probability, conditional probability, random variable, probability distributions, joint distributions, Bernoulli, binomial, Poisson, uniform, exponential, normal distributions.
.
3. Population and sample, sampling techniques, probability and non-probability sampling, random sampling, stratified, cluster and systematic sampling.
.
4. Statistical inference, hypothesis testing, interval estimation, significance level, type 1/type 2 error, error estimation, z-value, p-value, f-score
.
উপরের ৪ টা পয়েন্ট এর সবগুলো টপিক একদম বেগিনার লেভেলে শিখতে হবে।

Intermediate Level

এই লেভেলে আমাদের আরো নতুন কিছু শিখতে হবে। উপরের বেগিনার লেভেল শেষ করার পর এই লেভেল এর টপিকগুলো শিখা উচিত। সেগুলা হলোঃ
.
1. Simple linear model, multiple regression model, correlation, OLS estimation, parameter tuning, residual analysis, ROC curve
.
2. Logistic regression, ridge regression, lasso regression, chi square test, fisher’s exact test, contingency table analysis, likelihood test, goodness/fitness test, exploratory data analysis
.
3. Quality control, operation research, chart analysis, effects of normality, OC curve, rectifying inspection, General Linear Programming, game theory
.
4. Analysis of variance, two way – three way classification, randomized block design, latin square design
.
এই ৪ টা পয়েন্ট এর টপিক গুলা শিখতে পারলে আপনি ডেটা সায়েন্টিস্ট হওয়ার পথে ৫০% এগিয়ে গেছেন।

Advance level

এইবার যেসব টপিক নিয়ে আলোচনা করবো সেগুলা খুবই হাই লেভেলের নলেজ। আপনি যদি একজন ভালো ডেটা সায়েন্টিস্ট হতে চান, তাহলে এডভান্স লেভেলের এই কঠিন টপিক গুলো আপনাকে খুব ভালো করে জানতে হবে। এগুলো হলোঃ
.
1. Multivariate analysis, Principal component analysis, factor analysis, factor modelling, discriminant analysis
.
2. Categorical data analysis, association rules, odds ratio, independency test, generalized linear model, logit model, cumulative link models, marginal modelling
.
3. Econometrics, multicollinearity, heteroscedasticity, autocorrelation, lag model, autoregressive models
.
4. Time series analysis, trend, seasonality, ACF, PACF curve, ARMA, ARIMA, SARIMA models, forecasting, Holt-winters algorithm
.
5. Least square method, Gaussian distributions, exponential family distributions, Bayesian inference, Markov models, monte carlo simulation, support vector machine
.
6. Classification, clustering, Bayesian classification, hierarchical algorithms, agglomerative algorithms, KNN, K-means, apriori algorithm, data mining, Network clustering, ANN, text analysis, big data, data mining.

 

আশা করি এই পোস্টটা পুরোটা পড়ে আপনারা একটা জেনারেল গাইডলাইন পেয়ে যাবেন।

Nazmus Sakib
MS (Data Science)
MS (Industrial Engg.)
BS (RUET)