ডেটা সায়েন্স প্রজেক্ট আইডিয়া বাস্তবায়নের ধাপসমূহ

এই পোষ্টে আমি ডেটা সায়েন্স নিয়ে যারা আগ্রহি তাদের জন্য একটি প্রজেক্টের আইডিয়া শুরু করা থেকে এর পূর্ণ বাস্তবায়নের প্রকৃয়া সম্পর্কে ধারণা দেয়ার চেষ্টা করব। এই আর্টিকেল যখন লিখছি তখন বাংলাদেশের মানুষ ভোট দেয়ার জন্য প্রস্ততি নিচ্ছে। ডিসেম্বর ৩০ তারিখ, ২০১৮। বাংলাদেশে অনুষ্ঠিত হবে গণভোট।

আইডিয়া

আমাদের দেশে যে সরকারই ক্ষমতায় থাকুক না কেন বিরোধী দলের উপর সরকার তথা সরকার সমর্থক দলের দমনপীড়ন একটি নিত্য ঘটনা। বিশেষ করে নির্বাচনের আগে এর মাত্রা বেড়ে যায় বহুগুনে। তবে এ নিয়ে সংখ্যাতাত্বিকভাবে কাজ হয়েছে কমই। অধিকার নামের এনজিও মানবাধিকার বিষয়ক পরিসংখ্যান রিপোর্ট আকারে প্রকাশ করে।

এর বাইরে অনেক কিছু করা সম্ভব। বিশেষ করে ইন্টারনেটে বাংলা ভাষায় অনেকগুলো জনপ্রিয় পত্রিকা এখন নিয়মতান্ত্রিকভাবে খবর প্রকাশ করে যাচ্ছে। এই ডেটা ব্যবহার করে ছড়িয়ে থাকা তথ্যগুলোকে আমরা সামারি আকারে প্রকাশ করতে পারি।

কোন পরিকল্পনা বাস্তবায়নের আগে সেটি কীভাবে করা হবে তার একটি পূর্নাঙ্গ থাপনসমূহ লিখিত আকারে সাজাতে হয়। নীচে সেরকম একটি চিত্র দেখান হল।

হাইপোথিসিস

প্রথমেই আসে কী করতে চাই সে প্রশ্ন। প্রশ্নের আসলে কোন অভাব নেই। চারপাশে অনেক প্রশ্ন, ইচ্ছে করলেই একটা বেছে নেয়া যায়। আপনার মন মত একটি প্রশ্ন ঠিক করে এগুতে পারেন।

যেমন ধরুন সরকার দাবি করছে বিরোধী দলের উপর কোন রকম দমনপীড়ন করা হচ্ছে না। অন্যদিকে সরকারি দলের নেতা কর্মীরাও দাবি করছে যে তাদের নেতা কর্মীরাই বরং আক্রমনের স্বীকার হচ্ছে।

আপনি এটিকেই আপনার হাইপোথিসিস ধরে কাজ শুরু করতে পারেন। একটি বিষয় পরিষ্কার করে নেই যে এই হাইপোথিসিসকে পরিসংখ্যানের হাইপোথিসিস টেষ্টের মত করে আমারা টেষ্ট করতে পারি আবার সিম্পলি কিছু পরিসংখ্যান দিয়ে একটা তুলনামূলক চিত্রও তুলে ধরতে পারি। কাজের স্কোপ কী হবে সেটি আপনি আগে থেকে ঠিক করে নিবেন।

সম্ভাব‍্য হাইপোথিসিস

সমস্যা মোটামুটি চিহ্নত হওয়ার পর আপনাকে হাইপোথিসিস-এর স্টেইটমেন্ট আকারে লিখতে হয়। যেমন–

বিরোধীদলের উপর সরকারি দলের সদস‍্যদের দমন পীড়নের মাত্রা সরকারি দলের নেতা কর্মীদের উপর বিরোধী দলের কর্তৃক দমন পীড়নের মাত্রার চেয়ে বেশী।

প্রশ্ন হলো এই দমন পীড়ন কীভাবে পরিমাপ করা হবে। পরিমাপের এই মেট্রিক আমাদের প্রথমেই ঠিক করতে হবে।

একটি উপায় হতে পারে যে কতবার আক্রমন করা হয়েছে সেটি। আবার হতে পারে আক্রমনের পর হতাহতের সংখ‍্যা। কিংবা হতে পারে মোট আক্রমনের শতাংশের দায় কার কতটুকু। এরকম নানা ভাবে এই মেট্রিক ডিফাইন করা যেতে পারে।

রিফাইন্ড হাইপোথিসিস

মেট্রিক নির্ধারন হলে পরে হাইপোথিসিসটিকে আমরা রিফাইন করব।

বিরোধীদলের উপর সরকারি দলের সদস‍্যদের দমন পীড়নের আনুপাতিক হার (প্রপরশন) সরকারি দলের নেতা কর্মীদের উপর বিরোধী দলে কর্তৃক দমন পীড়নের আনুপাতিক হার (প্রপরশন)-এর চেয়ে বেশী।

পরিসংখ্যানের ভাষায় লিখতে গেলে নাল হাইপোথিসিস হবে – দুই গ্রুপের মধ‍্যে মার খাওয়ার অনুপাতের মধ‍্যে পার্থক‍্য নেই। অর্থাৎ এদের অনুপাত সমান। আর অলটারনেটিভ হাইপোথিসিস নানা ভাবে ধরা যেতে পারে। একমুখি হাইপোথিসিস এই ক্ষেত্রে বাস্তবসম্মত; যেটি হবে – বিরোধী দলের কর্মীদের মার খাওয়ার অনুপাত সরকারি দলের কর্মিদের মার খাওয়ার অনুপাতের চেয়ে বেশী।

ডেটা কালেকশন

হাইপোথিসিস অনুযায়ি আমাদের ডেটাতে দরকার হবে কতগুলো সহিংসতার ঘটনা ঘটেছে তার পরিসং‍খ‍্যান এবং কোন দল কতবার আক্রান্ত হয়েছে তার সংখ‍্যা।

কিন্তু ডেটা কোথায় পাব?

ডেটা দুই ভাবে পাওয়া যেতে পারে। প্রথমত কেউ ডেটা সংগ্রহ করেছে তার কাছ থেকে নিতে পারি। এ জন‍্য আপনাকে লিটারেচার রিভিউ করতে হবে। আমাদের দেশে যেহেতু এ ধরনের কাজ খুব একটা হয়না সেজন‍্য লিটারেচার রিভিউ করে বিশেষ কিছু পাওয়া যাবে বলে মনে হয় না। বরং দেশের ভিতরে কোন অর্গানাইজেশন বা সরকারি সংস্থা কর্তৃক প্রকাশিত রিপোর্টকে ভিত্তি ধরে এগুনো যেতে পারে।

এভেইলেবল ডেটা দিয়ে যদি প্রশ্নের উত্তর পাওয়া না যায় তাহলে নিজেদেরই ডেটা সংগ্রহ করতে হবে।

নিজেরা সংগ্রহ করতে হলে হয় আমাদের দৈনিক পত্রিকার ওয়েবসাইটে গিয়ে ম‍্যানুয়ালি খবরগুলো সংগ্রহ করতে হবে। আর ম‍্যানুয়ালি করতে না চাইলে কম্পিউটার প্রোগাম লিখে পুরো ব‍্যাপারটা অটোমেশনের মাধ‍‍্যমে করতে হবে।

ম‍্যানুয়ালি কাজটি করতে গেলে আমাদের অনেক সময় লাগবে এবং কাজটিতে অনেক ভুল ভ্রান্তি হওয়ার সম্ভাবনা থাকবে। যে কারণে অটোমেশনের মাধ‍্যমে করাটা ভালো হবে। কীভাবে সেটি বাস্তবায়ন করা যাবে তার একটি আউটলাইন দিচ্ছি।

ডেটা কালেকশন পদ্ধতি

যে কোন ডেটা কালেকশন অটোমেইট করার আগে আমাদের মনে রাখতে হবে গবেষণ‍ার উদ্দেশ‍্য এবং কী মেট্রিক আমাদের প্রয়োজন সেগুলো। প্রয়োজনীয় ডেটা যেন বাদ না যায় আর অপ্রয়োজনীয় ডেটা সংগ্রহ করার পিছনে যেন সময় নষ্ট না হয়। অর্থাৎ যতটুকু তথ‍্য আমাদের দরকার ঠিক ততটুকুই সংগ্রহ করা।

অনেক সময় ডেটা এমনভাবে সংগ্রহ করা হয় যে একই ডেটা পরবর্তী গবেষষণা‍য় ব‍্যবহৃত হবে। সেক্ষত্রে ডেটা কালেকশনের স্কোপ বাড়ানো যেতে পারে।

ডেটা এলিমেন্ট

ধরা যাক আমরা সিদ্ধান্ত নিলাম যে অটোমশন স্কৃপ্ট দিয়ে পত্রিকার ওয়েবসাইট থেকে ডেটা সংগ্রহ করব। পত্রিকার সাইটে অনেক খবর থাকে যা থেকে প্রজেক্টের জন‍্য দরকারি তথ‍্য আলাদা করে খুঁজে পাওয়া সহজ নয়। ইংরেজী ভাষায় ন‍্যাচারাল ল‍্যাঙ্গুয়েজ প্রসেসিং অনেক অগ্রসর হলেও বাংলা ভাষায় সেরকম কাজ এখনো হয়নি। তাই ন‍্যাচারাল ল‍্যাঙ্গুয়েজ প্রসেসিং এলগরিদগুলো দিয়ে বাংলা ডকুমেন্ট ক্ল‍্যাসিফিকেশন ততটা সহজে করা যায় না। বরং বাস্তব সম্মত লক্ষ‍্য হবে কিছুটা অটোমেশন আর কিছুটা ম‍্যানুয়াল ইনপুটের মাধ‍্যমে ডেটা সংগ্রহ করা।

ফ্লো-চার্টের মাধ‍্যমে ডেটা কালেকশনের সম্ভাব‍্য ধাপসমূহ আমি দেখিয়েছি।

পুরো ব‍্যাপারটকে সিম্পল রাখতে চাইলে আমরা শুধুমাত্র আর্টিকেলের শিরোনামগুলো সংগ্রহ করতে পারি। এটি খুব সহজেই ওয়েব স্ক্রেপিং এর মাধ‍্যমে করা সম্ভব।

প্রথমেই আপনাকে ঠিক করতে হবে কোন পত্রিকা থেকে সংবাদগুলো সংগ্রহ করবেন। একটি সোর্স থেকে সংগ্রহ করলে আপনার কাজ অনেকটাই সহজ হয়ে যাবে কেননা ডুপ্লিকেট খবর নিয়ে চিন্তা করতে হবে না। একাধিক সোর্স থেকে নিলে আপনাকে ম‍্যানুয়ালি ডুপ্লিকেটগুলো বাছাই করে সেগুলো থেকে একটিকে গণনা করতে হবে।

এরপর সেই পত্রিকার আর্কাইভ সেকশন থেকে প্রতি দিনের খবরগুলোর শিরোনাম কম্পিউটার প্রোগ্রামের মাধ‍্যমে স্ক্রেইপ করে একটি সিএসভি বা এক্সেল ফাইলে সংগ্রহ করা যায়। এর পর ম‍্যানুয়ালি শুধুমাত্র নির্বাচন সংশ্লিষ্ট সহিংসতার খবরগুলোকে বিশেষ কোন ট‍্যাগ দেয়া যাতে এদেরকে ফিল্টার করে আলাদা করা যায়।

এরপর মেট্রিক অনুযায়ি যতগুলো ডিসক্রিট ফিল্ড যোগ করা দরকার ততগুলো কলাম সেই ফাইলে যোগ করব। ধরি একটি কলামের নাম victim, যার সম্ভাব‍্য মান হতে পারে A অথবা B। আপনি ইচ্ছে হলে অন‍্য ভাবেও ক‍্যাটেগরাইজ করতে পারেন। আমি একটি উপায় দেখালাম।

তাহলে আপনার ডেটার কলামগুলো এরকম দেখাতে পারে। আমি কাল্পনিক একটি ডেটার প্রথম দুই লাইন দেখাচ্ছি। স্মরণ করা যেতে পারে victim কলামটি খবরের শিরোনাম পড়ে ম‍্যানুয়ালি পূরণ করতে হবে। ডেটা সিমুলেট করা হয়েছে অগাষ্ট থেকে ডিসেম্বর ২৯, ২০১৮ পর্যন্ত।

date title victim
2018-08-01 শিরোনাম B
2018-11-01 আরেকটি শিরোনাম B
2018-11-01 আরেকটি শিরোনাম A
2018-11-01 আরেকটি শিরোনাম A
2018-12-29 B

ডেটা এনালিসিস

ডেটা কালেকশন হয়ে গেলে একে আমাদের প্রসেস করতে হবে। এই প্রসেসিংএর ধাপটি একটি ভিন্ন রকম কেননা আমাদের ডেটা হলো টেক্সট যা পত্রিকার ওয়েবসাইট থেকে প্রোগ্রাম লিখে স্ক্রেইপ করা হয়েছে। ফলে প্রাথমিক ক্লিনিং এর ধাপটি আমাদের পার করে আসতে হবে।

এই প্রজেক্টে আমাদের উদ্দেশ‍্য যদি হয় শুধুমাত্র সহিংসতার ফ্রিকোয়েন্সির তুলনা করা তাহলে সে মোতাবেক ডেটাকে সামারাইজ করে ফেলব। স্ট‍্যাটিসটিকস-এর যে কোন সফটওয়‍্যার দিয়েই ডেটা এনালিসিস এর কাজ করা যাবে। আমি R দিয়ে করছি। কোড ও দিয়ে দিচ্ছি।

প্রথমেই আমরা কাল্পনিক কিছু ডেটা তৈরী করবো। তারপর সেটি গ্রাফের মাধ‍্যমে দেখাব।

কাল্পনিক ডেটা

আসুন প্রথমেই কাল্পনিক ডেটা তৈরি করি। গবেষণার ক্ষেত্রে এরকম কাল্পনিক ডেটা তৈরী করাকে সিমুলেশন (simulation) বলে। আমরা কাল্পনিক ডেটা তৈরী করছি এটাকে বলা হবে ডেটা সিমুলেট করছি।

library(lubridate)

# If you use this seed, your results will be same as mine
# i.e., results are reproducible

set.seed(19)

# Generate sequence of dates between Aug 1 and Dec 29th, 2018

dt = ymd("2018-08-01") + days(0:150)

# Randomly sample (to replicate some dates) from this sequence

dt <- sample(dt, size = 2000, replace = TRUE)

# Generate the victim (A, B) using a given probability
# We generate three sets of data with varrying probability 
# and size

victim1 <- sample(c("A","B"), 100, replace=TRUE, prob = c(0.3,0.7))
victim2 <- sample(c("A","B"), 400, replace=TRUE, prob = c(0.2,0.8))
victim3 <- sample(c("A","B"), 1500, replace=TRUE, prob = c(0.1,0.9))

# Combining the data sets to make a single data set
victim <- c(victim1, victim2, victim3)

# Check the proportion of samples by victim type
prop.table(table(victim))
## victim
##     A     B 
## 0.128 0.872

এরপর তারিখ এবং সেই তারিখের ভিক্টিম এই কলাম দুটিকে একত্র করে আমরা ডেটা সেটটি তৈরী করব এবং ডেটার প্রথম ১০ টি সারি দেখাব।

df = cbind.data.frame(dt, victim)
head(df, 10)
##            dt victim
## 1  2018-08-18      B
## 2  2018-10-13      B
## 3  2018-11-07      B
## 4  2018-08-11      A
## 5  2018-09-25      A
## 6  2018-09-03      A
## 7  2018-09-14      B
## 8  2018-10-26      B
## 9  2018-12-05      B
## 10 2018-11-18      A

এখন আমাদের গণনা করতে হবে প্রতি দিন কয়জন ভিক্টিম A দলের এবং কতজন B দলের। তারপর সেটি চিত্রের মাধ‍্যমে দেখাব।

library(tidyverse)

df_victim <- df %>%
     group_by(dt, victim) %>%
     summarise(
          n = n()
     )

ggplot(df_victim, aes(x = dt, y = n, color = victim)) + 
     geom_line() +
     ggtitle("Number of victims by party affiliation by day") +
     xlab("Date") + ylab("Number of Victims")

উপরের চিত্রে পার্টি ভেদে দৈনিক আক্রান্তের সংখ‍্যা দেখানো হয়েছে। দেখা যাচ্ছে B দলের লোকজন বেশি আক্রান্ত হয়েছে। এটি কাল্পনিক ডেটার তথ‍্য। আসল ডেটাতে এই সংখ‍্যা কী হবে সেটি ডেটা থেকেই জানা যাবে।

অনেক সময় গত কয়েক মাসে মোট কতজন আক্রান্ত হয়েছে সেটির ক্রমযোজিত সংখ‍্যা আমরা জানতে চাইতে পারি। তার জন‍্য ডেটাকে একটুখানি পরিবর্তন করতে হবে যা নিচের কোড দিয়ে দেখানো হল। এখানে প্রতি দিন পার্টি ভেদে যত সংখ‍্যক আক্রান্ত হয়েছে তাদের ক্রমযোজিত ফল বা cumulative total বের করা হয়েছে। সেটি cn ভ‍্যারিয়েবলে স্টোর করা হয়েছে।

df_cumulative <- df_victim %>%
     group_by(victim) %>%
     arrange(dt) %>%
     mutate(
          cn = cumsum(n)
     )

ggplot(data = df_cumulative, aes(x = dt, y = cn, col = victim)) + 
     ylab("Cumulative Number of Victims") +
     xlab("Date") +
     geom_line(aes(y = cn))

ডিসকাশন/আলোচনা

এই ধাপে ফলাফল বিশ্লেষণ করতে হবে এবং পাঠকের উপযোগি করে লিখতে হবে। যথাসম্ভব টেকনিক‍্যাল টার্মগুলো পরিহার করে সহজবোধ‍্য করে লিখতে হবে। অনেক ক্ষেত্রে সংবাদপত্রে প্রকাশের উদ্দেশ‍্য থাকলে তার জন‍্য আলাদা করে একটি প্রেস রিলিজ তৈরী করতে হবে। পরিশেষে ডেটার কোন সীমাবদ্ধতা থাকলে তা প্রকাশ করতে হবে। মূল উদ্দেশ‍্য থাকবে যেন পাঠকের মনে বিভ্রান্তি সৃষ্টি না হয়।

পরিসংখ‍্যানের এবিউজ ও মিসইউজ করা যেন লক্ষ‍্য না হয় সেদিকে খেয়াল রাখতে হবে।

শেষ কথা

এই আর্টিকেলের উদ্দেশ‍্য ছিল ডেটা সায়েন্সের কোন প্রজেক্ট কিভাবে অর্গানাইজ করতে হয়। প্রত‍্যেকটি প্রজেক্ট অন‍্য প্রজেক্ট থেকে যথেষ্ট আলাদা হয় কিন্তু মূল গঠন এরকমই। অনেক ক্ষেত্রে হাইপোথিসিস টেস্টের পার্টটি থাকে না। সেক্ষেত্রে কেবল ডেসক্রিপ্টিভ সামারি দিয়েই কোন রিপোর্ট হতে পারে। স্ট‍্যাটিসটিক‍্যাল টেস্ট করার জন‍্য প্রয়োজনীয় এসাম্পসন ঠিক আছে কিনা সেগুলো আগে যাচাই করে দেখতে হবে।

Categories: blog
Tags:
comments powered by Disqus