කොළඹ ගමයා : දත්ත විද්‍යාවේ Data Science විවිධ පැතිකඩ හඳුනා ගැනීම

කොළඹ ගමයා බ්ලොග් අඩවිය මගේ දේශපාලන හෝ අදේශපාලනික අදහස්, නවකතා හා කෙටිකථා, වෙනත් දර්ශනවාදය හෝ මාක්ස්වාදය, අභ්‍යවකාශ තරණය හා එම විද්‍යාවන් සම්බන්ධ ලිපි කිරීමට උපයෝගී කර ගන්නා ප්‍රධානතම මාධ්‍යයයි . මෙහි පළ කරන ලිපි හා වෙනත් කිසිම වෙබ් අඩවියක් සමග සම්බන්ධතාවයක් නැත. අවසරයකින් තොරව පළ කිරීම සපුරා තහනම්ය. (c) Copyrighted Material - Ajith Dharmakeerthi UK

Saturday, 28 February 2026

දත්ත විද්‍යාවේ Data Science විවිධ පැතිකඩ හඳුනා ගැනීම

දත්ත විද්‍යාවේ විවිධ පැතිකඩ හඳුනා ගැනීම

++++++++++++++++++++++++

මුල් ලිපිය : දත්ත ක්ෂේත්‍රයේ විවිධ භූමිකාවන් හා රැකියා වර්ග හඳුනාගැනීම

දැන් දත්ත විද්‍යාව (Data Science) යනු කුමක්ද සහ අනෙකුත් දත්ත වෘත්තිකයන් අතර දත්ත විද්‍යාඥයෙකුට හිමි තැන කුමක්දැයි පැහැදිලි වන නිසා, දත්ත විද්‍යාවේ ප්‍රධාන "වර්ග" (Flavors) හතර ගැන ලියමි .

ඒවා නම්:

දත්ත විශ්ලේෂණය (Data Analysis),

දත්ත විද්‍යාව (Data Science),

කෘතිම බුද්ධිය (Artificial Intelligence),

සහ ගැඹුරු ඉගෙනීම (Deep Learning) යන්නයි.

මෙම පද හතර නිර්වචනය කර, කෙනෙකු ඉගෙන ගැනීමට යන දේ මෙම ක්ෂේත්‍ර හතර තුළ කොතැනට ගැළපෙන්නේද යන්න පිළිබඳව අවබෝධයක් ලබා දීම ලිපියේ අරමුනයි. මෙහිදී පැහැදිලි කිරීමක් අවශ්‍ය වන්නේ එවැන්නෙකු දැනට සිටින තැන, යා යුතු දිශාව සහ පසුකළ මාවත පිළිබඳව නිවැරදි අවබෝධයක් ලබා දීමටය.

කියවන්නා සතුව දැනටමත් දත්ත විද්‍යාවට සුදුසුකම් ලැබිය හැකි විශිෂ්ට විශ්ලේෂණාත්මක හැකියාවන් රාශියක් තිබෙන්නට පුළුවන. සමහරවිට මේ මොහොතේ ඒ බව නොදන්නවා විය හැකිය.

1. දත්ත විශ්ලේෂණය (Data Analysis)

පළමුව, දත්ත විශ්ලේෂණය ගැන කතා කරමු. දත්ත විශ්ලේෂණය යනු දත්තවලින් අර්ථයක් ලබා ගැනීමේ ක්‍රියාවලියයි. දත්ත පිරිසිදු කිරීම (Data cleaning), ප්‍රතිසංස්කරණය කිරීම (Reformatting) සහ දත්ත ඒකාබද්ධ කිරීම (Recombining) වැනි දේ මෙයට ඇතුළත් වේ. මෙය සිදු කරනු ලබන්නේ සැබෑ ලෝකයේ සංසිද්ධීන් විස්තර කරන දත්තවල ඇති ප්‍රවණතා, රටා සහ සොයාගැනීම් හඳුනා ගැනීම සඳහාය.

බොහෝ විට අයෙකු Excel වැනි මෘදුකාංගවල හෝ GIS (භූගෝලීය තොරතුරු පද්ධති) සමඟ වැඩ කර ඇත්නම් පුළුල් දත්ත විශ්ලේෂණයක් සිදු කර ඇතිවාට සැක නැත. දත්ත විශ්ලේෂණය කිරීමේ හැකියාව මත පදනම් වූ වෘත්තීය මාවත් රාශියක් ඇති අතර, දත්ත විශ්ලේෂණය පිළිබඳ කෙනෙකුට ඇති අත්දැකීම් අවම කොට තැකිය නොහැකිය. එය දත්ත විද්‍යාවේ එක් කොටසකි.

2. නියම දත්ත විද්‍යාව (Proper Data Science)

දත්ත විද්‍යාව යනු දත්තවල ව්‍යුහය සහ හැසිරීම පිළිබඳ ක්‍රමානුකූල අධ්‍යයනයයි. මෙහි අරමුණ වන්නේ අතීත සහ වර්තමාන සිදුවීම් ප්‍රමාණාත්මකව අවබෝධ කර ගැනීම සහ එම දත්තවල අනාගත හැසිරීම් පුරෝකථනය කිරීමයි.

දත්ත විද්‍යාවේදී (Data Science), අපට අවශ්‍ය වෙන්නේ නිකම්ම දත්ත පෙන්වීමට නොවේ. දත්ත මත පදනම්ව තීරණ ගැනීමටය.

දත්ත පදනම්ව තීරණ ගැනීමේ සරල උදාහරණ: බැංකුවක ගනුදෙනුකරුවෙකුගේ දත්ත පරීක්ෂා කර ඔහුට ණයක් (Loan) දිය හැකිද නැද්ද යන්න තීරණය කිරීම, රථ වාහන කිසියම් මංසන්දියක් පසුකර යන වාර ගණන් හා මගීන් පාර හරහා යන වර පිලිබඳ දත්ත එක්රැස් කර, සිග්නල් කණු හා පාර මාරුවීමේ සංඥා ස්ථාපිත කිරීමට අවශ්‍ය දැයි තීරණය කිරීම

දත්ත විද්‍යාවේදී (Data Science) අපි කරන්නේ කුඩා තීරණ දහස් ගණනක් එකවර ගණනය කර විශාල දත්ත ගොනුවකින් අර්ථයක් ලබා ගැනීමය.

දත්ත විද්‍යාඥයෙකු සිදු කරන මූලික කාර්ය:

Data Ingestion: බාහිර ගොනුවකින් දත්ත ලබා ගැනීම.

Data Cleaning: දත්තවල ඇති වැරදි හෝ අඩුපාඩු සකස් කිරීම.

Exploratory Data Analysis (EDA): ප්‍රස්ථාර මගින් දත්තවල ඇති රටාවන් (Patterns) හඳුනා ගැනීම.

උදා: මගේ රැකියාවේදී අපි එක්සෙල් හෝ SQL මගින් ලැබෙන දත්ත ඩේටාබ්‍රික්ස් (databricks ) නමැති දත්ත විශ්ලේෂණ පද්ධතියට ඇතුලත් කර විශ්ලේෂණය කරන්නෙමු . එසේම databricks , පිරිසිදු කරන ලද දත්ත ගබඩාවක් storage ලෙසටද ඇතැම්විට සැලකිය හැකිය .

3. කෘතිම බුද්ධිය (Artificial Intelligence - AI)

ඔබ "කෘතිම බුද්ධිය" යන පදය ඇසෙන විට, එයින් අදහස් කරන්නේ දත්ත ඇසුරෙන් තමන් විසින්ම සිදු කරන පුරෝකථනයන් මත ස්වයංක්‍රීයව ක්‍රියා කිරීමට හැකියාව ඇති යන්ත්‍රයක් හෝ යෙදුමකි (Application).

කෘතිම බුද්ධිය තුළ ප්‍රධාන අංග දෙකක් තිබේ:

පුරෝකථනය (Prediction): දත්ත විද්‍යාව තුළ ඔබ සිදු කරන පුරෝකථන ආකෘති නිර්මාණය.

ක්‍රියාත්මක කිරීම (Execution): ඉංජිනේරුමය පද්ධති මගින් සිදු කරන ස්වයංක්‍රීය ප්‍රතිචාරය.

දත්ත සමඟ වැඩ කිරීමට අප Python භාෂාව වැඩි වශයෙන් භාවිතා කරන්නේ ඇයි:

ස්වයංක්‍රීයකරණය (Automation): Excel වලදී ඔබ සෑම මසකම එකම වාර්තාව සෑදීමට නැවත නැවතත් දත්ත ඇතුළත් කළ යුතුයි. නමුත් Python වලදී ඔබ ලියන එක "Script" එකක් මගින් දත්ත ලබාගැනීමේ සිට අවසන් වාර්තාව දක්වා සියල්ල ක්ෂණයකින් සිදු කළ හැකියි.
විශාල දත්ත හැසිරවීම (Scalability): Excel ගොනුවක පේළි ලක්ෂ කිහිපයක් යන විට එය මන්දගාමී වේ. නමුත් Python වලට පේළි මිලියන ගණනක දත්ත (Big Data) ඉතා පහසුවෙන් හැසිරවිය හැකියි.
පුරෝකථන හැකියාව: Excel මගින් අතීතය දෙස බැලීම පහසු වුවත්, Python සහ එහි ඇති Scikit-learn වැනි මෙවලම් මගින් ඉතා නිවැරදිව අනාගත ප්‍රවණතා පුරෝකථනය කළ හැකියි.

4. ගැඹුරු ඉගෙනීම (Deep Learning)

අවසාන වශයෙන් "ගැඹුරු ඉගෙනීම" නම් විෂය පථයක් තිබේ. ගැඹුරු ඉගෙනීම යනු මොළයේ ස්නායු ජාල ව්‍යුහයන්ගෙන් (Neural network structures) ආකෘතීන් ලබා ගෙන පුරෝකථන ක්‍රමවේද සමූහයකි. වඩා පැහැදිලි කළහොත් මිනිස් මොළය තොරතුරු විශ්ලේෂණය කරන ආකාරය ආදර්ශයට ගනිමින් සකස් කළ ගණිතමය ව්‍යුහයන් මගින් අනාවැකි පල කිරීමේ ක්‍රමවේදයකි . මෙහි මොළයේ ස්නායු ජාල ව්‍යුහයන් (Neural network structures) යනු අපගේ මොළයේ බිලියන ගණනක් වූ ස්නායු සෛල (Neurons) එකිනෙක සම්බන්ධ වී පණිවිඩ හුවමාරු කරගන්නා ආකාරයයි . එය අනුකරණය කරමින් පරිගණක මෘදුකාංගයක් තුළ තනන ලද "කෘතිම ස්නායු ජාල" තිබේ. මෘදුකාංගය විසින් මෙම ස්නායු ජාල පද්ධතිය ආකෘතියක් ලෙස භාවිතා කරමින් දත්ත හඳුනා ගැනීමට උත්සාහ කිරීම යනු මෙයයි . පුරෝකථන ක්‍රමවේදය යනු දත්ත මත පදනම්ව යම් දෙයක් සිදුවීමට ඇති ඉඩකඩ හෝ එය කුමක්දැයි අනුමාන කිරීමය . (උදාහරණයක් ලෙස: ඡායාරූපයක් දැක එය බළලෙකුගේ ද බල්ලෙකුගේ ද යන්න නිවැරදිව පැවසීම).

මෙය විශාල දත්ත (Big Data) ඇසුරෙන් පුරෝකථනයන් සිදු කිරීම සඳහා විශේෂයෙන් ඵලදායී ක්‍රමවේදයකි. තවත් කරුණක් නම්, "Deep Learning AI" නිර්මාණය කිරීම සඳහා මෙය තීරණාත්මක ආකෘතියක් (Decision model) ලෙස භාවිතා කළ හැකි වීමයි.

එසේම ගැඹුරු ඉගෙනුම (Deep learning) යනු යන්ත්‍ර ඉගෙනීමේ (Machine learning) උපකුලකයක් වන අතර, එය කෘතිම බුද්ධියේ (AI) උපකුලකයකි. ගැඹුරු ඉගෙනුම යනු උත්පාදක කෘතිම බුද්ධියේ (GenAI) මූලිකාංගයකි: උත්පාදක කෘතිම බුද්ධියේ එක් ආකාරයක් වන මහා පරිමාණ භාෂා ආකෘති (LLMs -Large Language Models), ට්‍රාන්ස්ෆෝමර් ජාල (Transformer networks) වර්ගයක් වන අතර, ට්‍රාන්ස්ෆෝමර් යනු විශේෂිත ගැඹුරු ඉගෙනුම් ව්‍යුහයකි. LLMS වලට GPT-4 , ජෙමිනි (Gemini) , ක්ලෞඩ (Claude) , ලාමා (llama) වැනි AI පද්ධති උදහරන් ලෙස ගත හැකිය .

සරලව පවසන්නේ නම්, LLMs යනු ගැඹුරු ඉගෙනුම් ක්‍රමවේද භාවිතා කරන ඇල්ගොරිතම වේ. එබැවින්, ගැඹුරු ඉගෙනුම යනු කෘතිම බුද්ධි වර්ගයක් පමණක් නොව, එය උත්පාදක කෘතිම බුද්ධියේ මූලාරම්භය ද වේ.

ට්‍රාන්ස්ෆෝමර් ජාල (Transformer networks) යනු වර්තමාන කෘතිම බුද්ධි (AI) ක්ෂේත්‍රයේ, විශේෂයෙන්ම ChatGPT සහ Gemini වැනි පද්ධති පිටුපස ඇති ප්‍රබලතම තාක්ෂණික ව්‍යුහයයි. මෙය 2017 වසරේදී Google සමාගමේ පර්යේෂකයන් විසින් හඳුන්වා දෙන ලදී.

සරලව කිවහොත්, මෙය දත්තවල (විශේෂයෙන් වාක්‍යයක ඇති වචනවල) ඇති සම්බන්ධතාවය සහ වැදගත්කම තේරුම් ගැනීමට භාවිතා කරන විශේෂිත "ගැඹුරු ඉගෙනුම්" (Deep Learning) ආකෘතියකි.

මෙම ජාලයේ ඇති ප්‍රධාන ලක්ෂණ:

1. අවධානය යොමු කිරීම (Self-Attention Mechanism)

ට්‍රාන්ස්ෆෝමර් ජාලයක ඇති සුවිශේෂීම දේ නම් මෙයයි. වාක්‍යයක් කියවන විට, එහි ඇති එක් එක් වචනය අනෙක් වචන සමඟ සම්බන්ධ වන ආකාරය මෙයට තේරුම් ගත හැකිය. බොහෝ විට අපි ඉංග්‍රීසි පොත් කියවන විට මෙය භාවිතා කරන්නෙමු .

උදාහරණයක්: "බැංකුව" යන වචනය ගනිමු. "මම ගඟ අසල බැංකුවේ වාඩි වුණා" සහ "මම බැංකුවට මුදල් තැන්පත් කළා" යන වාක්‍ය දෙකේදී 'බැංකුව' යන්නෙන් අදහස් කරන්නේ කුමක්ද යන්න තේරුම් ගැනීමට වටපිටාවේ ඇති අනෙක් වචන දෙස බැලීමට මෙම තාක්ෂණය සමත් වේ. අප විසින් අනෙක් වාක්‍ය දෙස බලා ශ්බදකෝෂයක් නොමැතිව වචනයේ තේරුං වටහා ගන්නේද මේ ආකාරයටය .

2. සමාන්තර සැකසුම් (Parallel Processing)

පැරණි AI ක්‍රම (RNN වැනි) වාක්‍යයක වචන එකින් එක පිළිවෙලට කියවූ අතර, එය ඉතා ප්‍රමාද වැඩකි. නමුත් ට්‍රාන්ස්ෆෝමර් ජාලයකට සම්පූර්ණ වාක්‍යයක් හෝ ඡේදයක්ම එකවර (Simultaneously) කියවා තේරුම් ගැනීමේ හැකියාව ඇත. මෙහි ප්‍රතිඵලයක් ලෙස ඉතා වේගයෙන් දත්ත සැකසීමට හැකියාව ලැබේ.

3. සන්දර්භය තේරුම් ගැනීම (Context)

දිගු ඡේදයක ආරම්භයේ ඇති කරුණක් සහ අවසානයේ ඇති කරුණක් අතර ඇති සම්බන්ධය මතක තබා ගැනීමට ට්‍රාන්ස්ෆෝමර් ජාල සමත් වේ. මෙය මහා පරිමාණ භාෂා ආකෘති (LLMs) නිර්මාණය කිරීමට අඩිතාලම විය.

ට්‍රාන්ස්ෆෝමර් ජාලවල භාවිතයන්:

භාෂා පරිවර්තනය: (Google Translate වැනි)

පෙළ නිර්මාණය: (ChatGPT, Gemini වැනි)

පින්තූර හඳුනා ගැනීම: (Vision Transformers)

කෙටියෙන් කිවහොත්, ට්‍රාන්ස්ෆෝමර් ජාලය යනු AI වලට භාෂාව මිනිසෙකුට මෙන් "තේරුම් ගැනීමට" සහ "හැසිරවීමට" ඉඩ සලසන එන්ජිමයි.

මේ නිසා දත්ත විද්‍යාවේ මීළඟ සහ වඩාත් උද්යෝගිමත් පියවර වන්නේ Machine Learning ලෙස හැඳින්විය හැකිය . (යන්ත්‍ර ඉගෙනුම - යන්ත්‍රයන්ට ඉගැන්වීම කීවා නම් වඩා නිවැරදිය) . එනම්, මෙම අතීත විකුණුම් දත්ත භාවිතා කරමින් "ලබන මාසයේ විකුණුම් ප්‍රමාණය කොපමණ වේවිද?" යන්න පුරෝකථනය (Predict) කරන ආකෘතියක් (Model) නිර්මාණය කිරීමයි.

- අජිත් 28/02/2026

25 comments:

D.G.M බස්සා28 February 2026 at 16:56
LLM සහ ට්‍රාන්ස්ෆෝමර් ගැන අහල තියනවා එච්චරයි.
++++++++++++++++++++++++👌
ReplyDelete
Replies
D.G.M බස්සා28 February 2026 at 16:59
Anthropic ගැන අකමැත්තෙන් හිටියෙ ICE තග්ස්ලා ෆේස් රිකොග්නිෂන් වලට පාවිචී කරපු නිසා. දැන් බලාගෙන ගියාම "Open AI" කිව්වට සෑම් ඔල්ට්මන් තමයි නියම සර්පයා.😮😡
ReplyDelete
Replies
නිදිගෙ පංච තන්තරේ1 March 2026 at 00:15
අන්ඩර දෙමළ වගෙ එකවර පෙනුණාට
දිගටම කියවලා කියවල බලනකොට
පුදුමත් හිතුනි, මහතුනි මේ නිදියාට
මෙය වැඩියෙන්ම ගැලපෙයි අද පරපුරට
ReplyDelete
Replies
නිහඬපාල Nihandapala1 March 2026 at 00:25
විශ්වාස කළයුතු දත්ත සහ සත්‍ය මිත්‍යාව වෙන්කරගන්නා කෙනා අනාගතයේ හොඳම දත්ත විද්‍යාඥයා වේවි. දත්ත විශ්ලේෂණය හෝ පුරෝකථනයට වඩා DATA manipulation, Garbage DATA හඳුනාගැනීම අනාගත අභියෝගයක් නේද?
ReplyDelete
Replies
ජෝන් ලෙමන් - (Discourse)1 March 2026 at 13:52
තාක්ශනික පැතිකඩ ගැනනම් ලොකු උනන්දුවක් නෑ
එත් දැන් මම Gemina එකනම් ඕසෙට පාවිචිචි කරනව හැම වැඩකටම
ReplyDelete
Replies
Ajith Dharma.1 March 2026 at 19:52
යාළුවෙක් මේක එව්වා -https://shumer.dev/something-big-is-happening
ReplyDelete
Replies
Pra Jay3 March 2026 at 06:11
https://iwanpaulooshaa.blogspot.com/2026/03/blog-post.html#comment-form
ReplyDelete
Replies
ලියෝනි අමරතුංග - සිතිවිලි මංපෙත3 March 2026 at 14:14
විශේෂ ලිපියක් ඉතා වැදගත් ලිපියක් ... දිගටම කියෙව්වා ඒත් තේරෙන තැනට වඩා නොතේරෙන තැන් වැඩිද මන්ද
ReplyDelete
Replies
Mahesh Rathnayake3 March 2026 at 14:42
මං වගේ කෙනෙක්ට ටිකක් අමාරු කරවන තත්ත්වයේ ලිපියක්. ඇත්තටම කලින් එකට යම්කිසි හරි කමෙන්ට් එකක් දැම්මා උනත් මේකට එහෙම දාන්න තරම් දෙයක් ඇත්තටම නැති තරම්.
ඊළඟ ලිපියෙන් හම්බෙමු
ReplyDelete
Replies
Anonymous7 March 2026 at 12:04

දෙවුන්දර දෙහි බාලේ -
දත්ත හුගයි අජිත්
ReplyDelete
Replies
The story girl - the quiet bookworm3 May 2026 at 14:39
Data Analysisසහ Proper Data Science අතර ඇති සීමා මායිම් වෙන්කර ගැනීම බොහෝ දෙනෙකුට පටලැවෙන තැනක්. AI සහ Deep Learning වැනි සංකීර්ණ මාතෘකා වෙත යාමට පෙර මෙවැනි මූලික පදනමක් සැකසීම ඉතා වැදගත් , වටිනා ලිපියක් .
ReplyDelete
Replies

Add comment

සියලු හිමිකම් අජිත් ධර්මකීර්ති (Ajith Dharmakeerthi) සතුය. කොළඹ ගමයා බ්ලොග් අඩවියේ යොමුව සඳහන් කර හෝ අජිත් ධර්මකීර්ති යන නමින් පමණක් මෙහි ලිපි උපුටා පළ කරන්නට අවසර තිබේ.
මෙහි පලවන ලිපි සහ දේශපාලන අදහස් මගේ පෞද්ගලික අදහස් පමණි.
ඔබේ ඕනෑම ප්‍රතිචාරයක් මෙහි පල කරනු ලැබේ. නමුත් වෙනත් කෙනෙකුට සාධාරණ හේතුවක් නැතුව පහර ගසන අශිලාචාර අන්දමේ ප්‍රතිචාර පමණක් පල නොකෙරේ. බ්ලොගයට ගොඩ වදින ඔබ සියලු දෙනාට ස්තූතියි .