ডেটা সাইন্স কী? কিভাবে শিখবো?

ডেটা সায়েন্স এর দিকে অনেকেই আগ্রহী। আমি এই পোস্টে সব ক্লিয়ার করবো ইনশাআল্লাহ ❤️

প্রশ্নঃ ডেটা সায়েন্স (Data Science) এর ভবিষ্যৎ কি? Python নাকি R, কি দিয়ে শুরু করবো?

Forbes এর একটা জরিপ মতে ২০৩০ সালের মধ্যে প্রায় ১৩টি জব সেক্টর পুরোপুরি স্বয়ংক্রিয় (Automated) হয়ে যাবে এবং World Economic Forum এর জরিপ থেকে ধারণা করা হয় অটোমেশন (Automation) এর কারণে প্রায় ৭৫ মিলিয়ন চাকরী ডিসপ্লেস হয়ে গেলেও মজার বিষয় হলো মোট প্রায় ১৩৩ মিলিয়ন নতুন চাকরী জেনারেট করবে।

তবে অটোমেশন (Automation) এর কারণে কিছু নিম্ন এবং মধ্যম স্কিল এর জব অটোমেটেড(Automated) করা সম্ভব হলেও কখনোই ডাটা সায়েন্স (Data Science) এর চাকরী নস্ট করা সম্ভব নয়।

অটোমেশন কেন ডেটা সায়েন্স এর জবগুলো নস্ট করতে পারবে না সেটা বুঝতে চাইলে ডেটা সায়েন্স কি এবং ডেটা সায়েন্স ইকোসিস্টেম কিভাবে কাজ করে এটা বুঝতে হবে।

তাহলে শুরুতে ডেটা সায়েন্স নিয়ে একটু ধারণা নেয়া উচিত। আমি যদি সবথেকে সহজ ভাষায় বলতে চাই তবে, ডেটা সায়েন্স হলো কয়েকটা বিষয় মিলে হাইব্রিড (Hybrid) একটা বিষয় এবং ডাটা সায়েন্স যেসব বিষয়কে ফোকাস করে গঠিত সেগুলা হলো – পরিসংখ্যান (Statistics), ফলিত গণিত (Applied Mathematics) এবং কম্পিউটার সায়েন্স (Computer Science)।

যেকোন চাকরীকে আমরা তখনি লুক্রেটিভ বলে থাকি যখন এর মার্কেট চাহিদা, জব স্যালারি, এবং ভবিষ্যত চাহিদা সবকিছুই অনেক ভালো থাকে। এবার তাহলে বুঝতে হবে ডেটা সায়েন্স বিষয়ক চাকরী বাজার কেমন?

এটা সত্যি যে বর্তমান যুগের সবথেকে লুক্রেটিভ চাকরী গুলোর বেশিরভাগই ডেটা সায়েন্স এর ওপর ভিত্তি করে প্রতিষ্ঠিত। Glassdoor এর তথ্য অনুযায়ী আমেরিকায় একজন ডাটা সায়েন্টিস্ট তার অভিজ্ঞতা অনুসারে বছরে প্রায় $95k – $200k বেতন নিয়ে থাকেন।

ডাটা সায়েন্স এর ওপর ভিত্তি করে যেসব জব পজিশন তৈরি হয়েছে যথাক্রমে – Machine Learning Engineer, Database Administrator, Data Architect, Data Engineer, Business Analyst, Data Analyst, Data Scientist, etc.
তাহলে বাংলাদেশে চাহিদা কেমন?

হ্যা, এটা সত্য ডেটা সায়েন্স রিলেভ্যান্ট জবের চাহিদা বাংলাদেশেও অনেক। তবে বাংলাদের প্রযুক্তির উন্নয়নের সাথে সাথে এর চাহিদা বেড়েই চলছে এবং ভবিষ্যতে চাহিদা আরও বাড়বে।

ডেটা সায়েন্স এর ব্যাবহার সব সেক্টরেরই রয়েছে যেমনঃ রিকমেন্ডেশন সিস্টেম, ওয়েদার প্রেডিকশন, ট্রেড মার্কেট এনালাইসিস, ডিজেস ডিটেকশন, স্পাম টেক্সট ক্লাসিফিকেশন, মার্কেট বাস্কেট এনালাইসিস ইত্যাদি গুরুত্বপূর্ণ কিছু উদাহরন।

আমাদের অনেকের ধারনা যে ডেটা সায়েন্স এর জবগুলো শুধুমাত্র সফটওয়্যার ডেভেলপমেন্ট কোম্পানিগুলোতে। তবে এই ধারনাটি মোটেও সঠিক ধারনা নয়।

বরং বাংলাদেশের অধিকাংশ প্রাইভেট কোম্পানিই তাদের বিজনেস গ্রোথ রেট ধরে রাখার জন্য বা বৃদ্ধি করার জন্য নতুন নতুন ডাটা সায়েন্স রিলেভ্যান্ট জব যেমন ডেটা এনালিস্ট, বিজনেস এনালিস্ট, ডেটাবেইস এডমিনিস্ট্রেটর, ডেটা সায়েন্টিস্ট নিয়োগ দিচ্ছেন।

আপনার হয়তো মনে প্রশ্ন জাগতে পারে বিজনেস গ্রোথ রেট বৃদ্ধি করার সাথে ডাটা সায়েন্স এর সম্পর্ক কি? হ্যা অবশ্যই আছে। আপনাকে একটা ছোট্ট উদাহরণ এর মাধ্যমে বিষয়টি পরিস্কার করছি, ধরুন আপনি একটি বই বিষয়ক ই-কমার্স ওয়েবসাইট তৈরি করেছেন।

এই ই-কমার্স ওবেবসাইটে আপনার সেল বৃদ্ধি করতে, আপনি চাইলেই ডেটা সায়েন্স এর ব্যাবহার করতে পারেন। যেমন ধরুন কোন কাস্টমার প্রোগ্রামিং এর ওপরে একটা বই সার্চ করলো। তার মানে ওই কাস্টমার প্রোগ্রামিং এ আগ্রহী।

আপনি এমনভাবে সিস্টেমটি ডেভলপ করেছেন যেন কাস্টমারের সার্চের ওপরে ভিত্তি করে সেটি প্রোগ্রামিং রিলেটে নতুন আরও কিছু বই রিকমেন্ড করবে।

আরও সহজ করে বলতে চাইলে ধরুন আপনি ইউটিউবে সার্চ করলেন ‘Python Tutorial’ এটা সার্চ করার পরে হয়তো ইউটিউব আপনার হোমপেজে অনেকগুলো টিউটোরিয়াল সাজেশনে এনে দেবে এবং আপনি যখন একটা ভিডিও ক্লিক করার পরে কিছুক্ষণ দেখে হয়তো কেটে দেবেন।

পরবর্তীতে যখনি আপনি ইউটিউবে যাবেন আশা করা যায় অন্য সব ভিডিওর পাশাপাশি কমপক্ষে ১-৩ টি পাইথন প্রোগ্রামিং এর ভিডিও হোমপেজে এনে দেবেই। তবে এর কারণ কি?

আপনি যখন সার্চ করেছেন তখনি ইউটিউব বুঝতে পেরেছে আপনি Python এ ইন্টারেস্টেড।

তাই পরবর্তীতে আপনার সামনে এই ধরনের ভিডিও সাজেস্ট করেছে। শুধু এটাই নয় সামনে আপনি যত ভিডিও দেখবেন সেখানে ভিডিওর মাঝে পেইড এড হিসেবে ইউটিউব আপনাকে যা দেখাবে সেগুলোও হবে পাইথন রিলেটেড।

এখন মনে প্রশ্ন জাগা টা স্বাভাবিক যে এই কাজগুলো হয় কিভাবে? এটা নিয়ে বিস্তারিত আলোচনা করতে গেলে কথা বলতে হবে মেশিন লার্নিং, এনএলপি এবং ডেটা মাইনিং নিয়ে। ML, NLP, DM সবকিছুই ডেটা সায়েন্স এর সাবসেট বলতে পারেন। প্রতিটি বিষয় নিয়ে স্পেসিফিক ভাবে অন্য আরেকটা আর্টিকেলে কথা বলবো ইনশাআল্লাহ।

ডেটা সায়েন্স শিখতে চাই। তবে কিভাবে শুরু করবো? এই প্রশ্নটা যেন প্রতিটি মানুষের একটা কমন প্রশ্ন। আমি আমার অভিজ্ঞতা থেকে কিছু টিপস শেয়ার করবো আশা করি নতুনদের জন্য অনেক উপকারে আসবে।

প্রথমত, ডেটা সায়েন্স এ মাস্টার্স কোর্স করার মাধ্যমে শিখতে পারেন। সেটা সম্ভব না হলে অনলাইনে অনেক রিসোর্স রয়েছে। ধরুন আপনি আজ ঠিক করেছেন ডেটা সায়েন্স শিখতে চান।

তবে আপনার করণীয় হলো প্রথমেই আপনাকে Python অথবা R Programming Language এর বেসিক ভালোভাবে শিখে নিতে হবে।

এখানে এসে প্রায় ৮০%+ মানুষ কনফিউশানে থাকেন যে কোনটা দিয়ে শুরু করবো? উত্তর হলো আপনার যেটা ভালো লাগে। আমার মতে পাইথন প্রোগ্রামিং দিয়ে শুরু করাটা বেস্ট ডিসিশন। পাইথনের রিসোর্স ইউটিউবে ফ্রীতে পাবেন। Study Mart |

Learn Data Science Smartly চ্যানেলে আপনি বাংলা ভাষায় খুব সুন্দরভাবে বেসিক পাইথন প্রোগ্রামিং শিখে নিতে পারেন অথবা ইংরেজিতে FreeCodeCamp, Krish Naik, Corey schafer, Telusko, Edureka, Coursera সহ আরও অনেক রিসোর্স রয়েছে।

প্রশ্ন জাগা স্বাভাবিক আমি শুরুতেই R প্রোগ্রামিং এর কথা না বলে কেন Python এর কথা বললাম। Python হলো এমন একটি ল্যাংগুয়েজ যেটি ‘অল ইন ওয়ান’। আর সত্যি বলতে পাইথের সিনট্যাক্স মনে রাখা অনেকটা সহজ এবং অনলাইনে R এর থেকে Python এর রিসোর্স অনেক বেশি।

তুলনামূলকভাবে ডেভলপমেন্ট এর কাজ আপনি পাইথন দিয়ে অনেক সহজে করতে পারবেন। আপনি যখন ইমেজ অথবা এনএলপি রিলেটেড কাজ কাজ করতে যাবেন আপনার পাইথনের কোন বিকল্প নেই। পাইথনের ওপর ভিত্তি করে ডিপ লার্নিং ফ্রেমওয়ার্ক যেমন Keras, Tensorflow, Pytorch এর মাধ্যমে খুব সহজেই অনেক কাজ করতে পারবেন।

Python এ রয়েছে Sklearn এর মতো মেশিন লার্নিং লাইব্রেরি। Numpy এর মতো মেট্রিক্স লাইব্রেরি, Pandas, Vaex এর মতো ডাটাফ্রেম লাইব্রেরি, Django এর মতো ওয়েব ডেভেলপমেন্ট ফ্রেমওয়ার্ক, গেমস ডেভলপারদের জন্য রয়েছে PyGame, যা এককথায় অসাধারণ।

তবে R কোন দিক দিয়ে কম নয়। R দিয়েও মোটামুটি সবই করা গেলেও বেশিরভাগ Statistician এর পছন্দের ল্যাংগুয়েজ হলো R । কারণ R এ রয়েছে ২৪০০+ পরিসংখ্যানের লাইব্রেরি এবং যার ৩০০০+ বিল্ড ইন ফাংশন।

যার মাধ্যমে স্টাস্টিক্যাল এনালাইসিস করা খুবই সহজ। আপনি ভালো ডাটা সায়েন্টিস্ট হতে চাইলে Python এবং R দুইটা ভাষায় পারদর্শী হতে হবে।

এবং যদি আপনার টার্গেট হয় ডেটা এনালিস্ট তবে ডেটা এনালাইসিস স্কিল অর্জনের জন্য MS Excel, SQL Database, Stata, SPSS, Tableau অথবা PowerBi কমপক্ষে যেকোন একটা খুবই ভালোভাবে শিখে নিতে হবে।

শুরুটা হওয়া উচিত বেসিক পাইথন দিয়ে যখন আপনার বেসিক পাইথন শেষ তারপরে আপনার করনীয় হলো NumPy, Pandas, Seaborn, Matplotlib সম্পর্কে মোটামুটি ধারণা নেয়া।

কারণ প্রতিটি ডাটা সায়েন্স প্রজেক্টের প্রায় ৭০% সময় ব্যায় হয় ডাটা প্রিপ্রসেসিং এবং স্টাটিসটিক্যাল এনালাইসিসে। আপনাকে EDA ভালো জানতেই হবে। তারপরে আপনার কাজ আপনি আপনার মডেল ডেভেলপমেন্ট করার জন্য এলগরিদম সিলেকশন করা।

যেহেতু আপনি Python দিয়ে শুরু করবেন তাই আপনি প্রয়োজনীয় সকল এলগরিদম পাবেন Scikit Learn (সাইকিট লার্ন) এর মধ্যে। সবকিছু শেখার জন্য আপনার জন্য বেস্ট রিসোর্স হতে পারে STUDY MART এর পাইথন-মেশিন লার্নিং প্লেলিস্ট।

সেখানে বাংলা ভাষায় সবকিছু সুন্দর করে স্টেপ বাই স্টেপ পাইথন, মেশিন লার্নিং, ডিপ লার্নিং দেখানো হয়েছে। আর ইংরেজিতে রিসোর্স হিসেবে Coursera, MIT OpenCourseWare, Krish Naik, Edureka etc. ফলো করতে পারেন।

তবে বলে রাখা ভালো আপনি যদি একজন দক্ষ ডাটা সায়েন্টিস্ট হতে চান Kaggle এর কোন বিকল্প নেই। কারণ এখানে আপনি নোটবুক থেকে অনেক তথ্য পাবেন।

এছাড়াও UCI, Kaggle এ পাবেন প্রাকটিস করার জন্য ফ্রী ডাটাসেট এবং আপনি চাইলে কম্পিটিশনে অংশগ্রহন করে জিতে নিতে পারেন পুরস্কার হিসেবে হাজার হাজার ডলার। মেশিন লার্নিং নিয়ে বাকি কথা হয়তো বলবো অন্য কোন আর্টিকেলে।

Kind Regards,
Rashedul Alam Shakil
M.Sc. in Data Science
Friedrich Alexander University, Germany

লেখাটির পাঠক সংখ্যা: 1,198

ডেটা সাইন্স কী? কিভাবে শিখবো?

Join Admission Groups

Follow Our Pages

Subscribe Us

Title

ডেটা সাইন্স কী? কিভাবে শিখবো?

Invest in Social!

Related Posts

বন্যার জটিল পাঠ, সহজ করে পর্ব-৩

বাঁধের সামনে আরেকটা বাঁধ নির্মাণ কি সত্যিই বাস্তবসম্মত?

মুভি বিশ্লেষণ: টেনেট

Join Admission Groups

Follow Our Pages

Subscribe Us

Title