ডেটা সায়েন্স এর দিকে অনেকেই আগ্রহী। আমি এই পোস্টে সব ক্লিয়ার করবো ইনশাআল্লাহ ❤️
প্রশ্নঃ ডেটা সায়েন্স (Data Science) এর ভবিষ্যৎ কি? Python নাকি R, কি দিয়ে শুরু করবো?
Forbes এর একটা জরিপ মতে ২০৩০ সালের মধ্যে প্রায় ১৩টি জব সেক্টর পুরোপুরি স্বয়ংক্রিয় (Automated) হয়ে যাবে এবং World Economic Forum এর জরিপ থেকে ধারণা করা হয় অটোমেশন (Automation) এর কারণে প্রায় ৭৫ মিলিয়ন চাকরী ডিসপ্লেস হয়ে গেলেও মজার বিষয় হলো মোট প্রায় ১৩৩ মিলিয়ন নতুন চাকরী জেনারেট করবে।
তবে অটোমেশন (Automation) এর কারণে কিছু নিম্ন এবং মধ্যম স্কিল এর জব অটোমেটেড(Automated) করা সম্ভব হলেও কখনোই ডাটা সায়েন্স (Data Science) এর চাকরী নস্ট করা সম্ভব নয়।
অটোমেশন কেন ডেটা সায়েন্স এর জবগুলো নস্ট করতে পারবে না সেটা বুঝতে চাইলে ডেটা সায়েন্স কি এবং ডেটা সায়েন্স ইকোসিস্টেম কিভাবে কাজ করে এটা বুঝতে হবে।
তাহলে শুরুতে ডেটা সায়েন্স নিয়ে একটু ধারণা নেয়া উচিত। আমি যদি সবথেকে সহজ ভাষায় বলতে চাই তবে, ডেটা সায়েন্স হলো কয়েকটা বিষয় মিলে হাইব্রিড (Hybrid) একটা বিষয় এবং ডাটা সায়েন্স যেসব বিষয়কে ফোকাস করে গঠিত সেগুলা হলো – পরিসংখ্যান (Statistics), ফলিত গণিত (Applied Mathematics) এবং কম্পিউটার সায়েন্স (Computer Science)।
যেকোন চাকরীকে আমরা তখনি লুক্রেটিভ বলে থাকি যখন এর মার্কেট চাহিদা, জব স্যালারি, এবং ভবিষ্যত চাহিদা সবকিছুই অনেক ভালো থাকে। এবার তাহলে বুঝতে হবে ডেটা সায়েন্স বিষয়ক চাকরী বাজার কেমন?
এটা সত্যি যে বর্তমান যুগের সবথেকে লুক্রেটিভ চাকরী গুলোর বেশিরভাগই ডেটা সায়েন্স এর ওপর ভিত্তি করে প্রতিষ্ঠিত। Glassdoor এর তথ্য অনুযায়ী আমেরিকায় একজন ডাটা সায়েন্টিস্ট তার অভিজ্ঞতা অনুসারে বছরে প্রায় $95k – $200k বেতন নিয়ে থাকেন।
ডাটা সায়েন্স এর ওপর ভিত্তি করে যেসব জব পজিশন তৈরি হয়েছে যথাক্রমে – Machine Learning Engineer, Database Administrator, Data Architect, Data Engineer, Business Analyst, Data Analyst, Data Scientist, etc.
তাহলে বাংলাদেশে চাহিদা কেমন?
হ্যা, এটা সত্য ডেটা সায়েন্স রিলেভ্যান্ট জবের চাহিদা বাংলাদেশেও অনেক। তবে বাংলাদের প্রযুক্তির উন্নয়নের সাথে সাথে এর চাহিদা বেড়েই চলছে এবং ভবিষ্যতে চাহিদা আরও বাড়বে।
ডেটা সায়েন্স এর ব্যাবহার সব সেক্টরেরই রয়েছে যেমনঃ রিকমেন্ডেশন সিস্টেম, ওয়েদার প্রেডিকশন, ট্রেড মার্কেট এনালাইসিস, ডিজেস ডিটেকশন, স্পাম টেক্সট ক্লাসিফিকেশন, মার্কেট বাস্কেট এনালাইসিস ইত্যাদি গুরুত্বপূর্ণ কিছু উদাহরন।
আমাদের অনেকের ধারনা যে ডেটা সায়েন্স এর জবগুলো শুধুমাত্র সফটওয়্যার ডেভেলপমেন্ট কোম্পানিগুলোতে। তবে এই ধারনাটি মোটেও সঠিক ধারনা নয়।
বরং বাংলাদেশের অধিকাংশ প্রাইভেট কোম্পানিই তাদের বিজনেস গ্রোথ রেট ধরে রাখার জন্য বা বৃদ্ধি করার জন্য নতুন নতুন ডাটা সায়েন্স রিলেভ্যান্ট জব যেমন ডেটা এনালিস্ট, বিজনেস এনালিস্ট, ডেটাবেইস এডমিনিস্ট্রেটর, ডেটা সায়েন্টিস্ট নিয়োগ দিচ্ছেন।
আপনার হয়তো মনে প্রশ্ন জাগতে পারে বিজনেস গ্রোথ রেট বৃদ্ধি করার সাথে ডাটা সায়েন্স এর সম্পর্ক কি? হ্যা অবশ্যই আছে। আপনাকে একটা ছোট্ট উদাহরণ এর মাধ্যমে বিষয়টি পরিস্কার করছি, ধরুন আপনি একটি বই বিষয়ক ই-কমার্স ওয়েবসাইট তৈরি করেছেন।
এই ই-কমার্স ওবেবসাইটে আপনার সেল বৃদ্ধি করতে, আপনি চাইলেই ডেটা সায়েন্স এর ব্যাবহার করতে পারেন। যেমন ধরুন কোন কাস্টমার প্রোগ্রামিং এর ওপরে একটা বই সার্চ করলো। তার মানে ওই কাস্টমার প্রোগ্রামিং এ আগ্রহী।
আপনি এমনভাবে সিস্টেমটি ডেভলপ করেছেন যেন কাস্টমারের সার্চের ওপরে ভিত্তি করে সেটি প্রোগ্রামিং রিলেটে নতুন আরও কিছু বই রিকমেন্ড করবে।
আরও সহজ করে বলতে চাইলে ধরুন আপনি ইউটিউবে সার্চ করলেন ‘Python Tutorial’ এটা সার্চ করার পরে হয়তো ইউটিউব আপনার হোমপেজে অনেকগুলো টিউটোরিয়াল সাজেশনে এনে দেবে এবং আপনি যখন একটা ভিডিও ক্লিক করার পরে কিছুক্ষণ দেখে হয়তো কেটে দেবেন।
পরবর্তীতে যখনি আপনি ইউটিউবে যাবেন আশা করা যায় অন্য সব ভিডিওর পাশাপাশি কমপক্ষে ১-৩ টি পাইথন প্রোগ্রামিং এর ভিডিও হোমপেজে এনে দেবেই। তবে এর কারণ কি?
আপনি যখন সার্চ করেছেন তখনি ইউটিউব বুঝতে পেরেছে আপনি Python এ ইন্টারেস্টেড।
তাই পরবর্তীতে আপনার সামনে এই ধরনের ভিডিও সাজেস্ট করেছে। শুধু এটাই নয় সামনে আপনি যত ভিডিও দেখবেন সেখানে ভিডিওর মাঝে পেইড এড হিসেবে ইউটিউব আপনাকে যা দেখাবে সেগুলোও হবে পাইথন রিলেটেড।
এখন মনে প্রশ্ন জাগা টা স্বাভাবিক যে এই কাজগুলো হয় কিভাবে? এটা নিয়ে বিস্তারিত আলোচনা করতে গেলে কথা বলতে হবে মেশিন লার্নিং, এনএলপি এবং ডেটা মাইনিং নিয়ে। ML, NLP, DM সবকিছুই ডেটা সায়েন্স এর সাবসেট বলতে পারেন। প্রতিটি বিষয় নিয়ে স্পেসিফিক ভাবে অন্য আরেকটা আর্টিকেলে কথা বলবো ইনশাআল্লাহ।
ডেটা সায়েন্স শিখতে চাই। তবে কিভাবে শুরু করবো? এই প্রশ্নটা যেন প্রতিটি মানুষের একটা কমন প্রশ্ন। আমি আমার অভিজ্ঞতা থেকে কিছু টিপস শেয়ার করবো আশা করি নতুনদের জন্য অনেক উপকারে আসবে।
প্রথমত, ডেটা সায়েন্স এ মাস্টার্স কোর্স করার মাধ্যমে শিখতে পারেন। সেটা সম্ভব না হলে অনলাইনে অনেক রিসোর্স রয়েছে। ধরুন আপনি আজ ঠিক করেছেন ডেটা সায়েন্স শিখতে চান।
তবে আপনার করণীয় হলো প্রথমেই আপনাকে Python অথবা R Programming Language এর বেসিক ভালোভাবে শিখে নিতে হবে।
এখানে এসে প্রায় ৮০%+ মানুষ কনফিউশানে থাকেন যে কোনটা দিয়ে শুরু করবো? উত্তর হলো আপনার যেটা ভালো লাগে। আমার মতে পাইথন প্রোগ্রামিং দিয়ে শুরু করাটা বেস্ট ডিসিশন। পাইথনের রিসোর্স ইউটিউবে ফ্রীতে পাবেন। Study Mart |
Learn Data Science Smartly চ্যানেলে আপনি বাংলা ভাষায় খুব সুন্দরভাবে বেসিক পাইথন প্রোগ্রামিং শিখে নিতে পারেন অথবা ইংরেজিতে FreeCodeCamp, Krish Naik, Corey schafer, Telusko, Edureka, Coursera সহ আরও অনেক রিসোর্স রয়েছে।
প্রশ্ন জাগা স্বাভাবিক আমি শুরুতেই R প্রোগ্রামিং এর কথা না বলে কেন Python এর কথা বললাম। Python হলো এমন একটি ল্যাংগুয়েজ যেটি ‘অল ইন ওয়ান’। আর সত্যি বলতে পাইথের সিনট্যাক্স মনে রাখা অনেকটা সহজ এবং অনলাইনে R এর থেকে Python এর রিসোর্স অনেক বেশি।
তুলনামূলকভাবে ডেভলপমেন্ট এর কাজ আপনি পাইথন দিয়ে অনেক সহজে করতে পারবেন। আপনি যখন ইমেজ অথবা এনএলপি রিলেটেড কাজ কাজ করতে যাবেন আপনার পাইথনের কোন বিকল্প নেই। পাইথনের ওপর ভিত্তি করে ডিপ লার্নিং ফ্রেমওয়ার্ক যেমন Keras, Tensorflow, Pytorch এর মাধ্যমে খুব সহজেই অনেক কাজ করতে পারবেন।
Python এ রয়েছে Sklearn এর মতো মেশিন লার্নিং লাইব্রেরি। Numpy এর মতো মেট্রিক্স লাইব্রেরি, Pandas, Vaex এর মতো ডাটাফ্রেম লাইব্রেরি, Django এর মতো ওয়েব ডেভেলপমেন্ট ফ্রেমওয়ার্ক, গেমস ডেভলপারদের জন্য রয়েছে PyGame, যা এককথায় অসাধারণ।
তবে R কোন দিক দিয়ে কম নয়। R দিয়েও মোটামুটি সবই করা গেলেও বেশিরভাগ Statistician এর পছন্দের ল্যাংগুয়েজ হলো R । কারণ R এ রয়েছে ২৪০০+ পরিসংখ্যানের লাইব্রেরি এবং যার ৩০০০+ বিল্ড ইন ফাংশন।
যার মাধ্যমে স্টাস্টিক্যাল এনালাইসিস করা খুবই সহজ। আপনি ভালো ডাটা সায়েন্টিস্ট হতে চাইলে Python এবং R দুইটা ভাষায় পারদর্শী হতে হবে।
এবং যদি আপনার টার্গেট হয় ডেটা এনালিস্ট তবে ডেটা এনালাইসিস স্কিল অর্জনের জন্য MS Excel, SQL Database, Stata, SPSS, Tableau অথবা PowerBi কমপক্ষে যেকোন একটা খুবই ভালোভাবে শিখে নিতে হবে।
শুরুটা হওয়া উচিত বেসিক পাইথন দিয়ে যখন আপনার বেসিক পাইথন শেষ তারপরে আপনার করনীয় হলো NumPy, Pandas, Seaborn, Matplotlib সম্পর্কে মোটামুটি ধারণা নেয়া।
কারণ প্রতিটি ডাটা সায়েন্স প্রজেক্টের প্রায় ৭০% সময় ব্যায় হয় ডাটা প্রিপ্রসেসিং এবং স্টাটিসটিক্যাল এনালাইসিসে। আপনাকে EDA ভালো জানতেই হবে। তারপরে আপনার কাজ আপনি আপনার মডেল ডেভেলপমেন্ট করার জন্য এলগরিদম সিলেকশন করা।
যেহেতু আপনি Python দিয়ে শুরু করবেন তাই আপনি প্রয়োজনীয় সকল এলগরিদম পাবেন Scikit Learn (সাইকিট লার্ন) এর মধ্যে। সবকিছু শেখার জন্য আপনার জন্য বেস্ট রিসোর্স হতে পারে STUDY MART এর পাইথন-মেশিন লার্নিং প্লেলিস্ট।
সেখানে বাংলা ভাষায় সবকিছু সুন্দর করে স্টেপ বাই স্টেপ পাইথন, মেশিন লার্নিং, ডিপ লার্নিং দেখানো হয়েছে। আর ইংরেজিতে রিসোর্স হিসেবে Coursera, MIT OpenCourseWare, Krish Naik, Edureka etc. ফলো করতে পারেন।
তবে বলে রাখা ভালো আপনি যদি একজন দক্ষ ডাটা সায়েন্টিস্ট হতে চান Kaggle এর কোন বিকল্প নেই। কারণ এখানে আপনি নোটবুক থেকে অনেক তথ্য পাবেন।
এছাড়াও UCI, Kaggle এ পাবেন প্রাকটিস করার জন্য ফ্রী ডাটাসেট এবং আপনি চাইলে কম্পিটিশনে অংশগ্রহন করে জিতে নিতে পারেন পুরস্কার হিসেবে হাজার হাজার ডলার। মেশিন লার্নিং নিয়ে বাকি কথা হয়তো বলবো অন্য কোন আর্টিকেলে।
Kind Regards,
Rashedul Alam Shakil
M.Sc. in Data Science
Friedrich Alexander University, Germany