Saturday, 28 February 2026

දත්ත විද්‍යාවේ Data Science විවිධ පැතිකඩ හඳුනා ගැනීම



දත්ත විද්‍යාවේ විවිධ පැතිකඩ හඳුනා ගැනීම
++++++++++++++++++++++++


දැන් දත්ත විද්‍යාව (Data Science) යනු  කුමක්ද සහ අනෙකුත් දත්ත වෘත්තිකයන් අතර දත්ත විද්‍යාඥයෙකුට හිමි තැන කුමක්දැයි පැහැදිලි වන නිසා,  දත්ත විද්‍යාවේ ප්‍රධාන "වර්ග" (Flavors) හතර ගැන ලියමි . 

ඒවා නම්: 

දත්ත විශ්ලේෂණය (Data Analysis), 
දත්ත විද්‍යාව (Data Science), 
කෘතිම බුද්ධිය (Artificial Intelligence), 
සහ ගැඹුරු ඉගෙනීම (Deep Learning) යන්නයි.

මෙම පද හතර නිර්වචනය කර, කෙනෙකු  ඉගෙන ගැනීමට යන දේ මෙම ක්ෂේත්‍ර හතර තුළ කොතැනට ගැළපෙන්නේද යන්න පිළිබඳව අවබෝධයක් ලබා දීම ලිපියේ අරමුනයි.  මෙහිදී පැහැදිලි කිරීමක් අවශ්‍ය වන්නේ එවැන්නෙකු  දැනට සිටින තැන, යා යුතු දිශාව සහ  පසුකළ මාවත පිළිබඳව නිවැරදි අවබෝධයක් ලබා දීමටය. 

කියවන්නා සතුව දැනටමත් දත්ත විද්‍යාවට සුදුසුකම් ලැබිය හැකි විශිෂ්ට විශ්ලේෂණාත්මක හැකියාවන් රාශියක් තිබෙන්නට පුළුවන. සමහරවිට  මේ මොහොතේ ඒ බව නොදන්නවා විය හැකිය. 

1. දත්ත විශ්ලේෂණය (Data Analysis)

පළමුව, දත්ත විශ්ලේෂණය ගැන කතා කරමු. දත්ත විශ්ලේෂණය යනු දත්තවලින් අර්ථයක් ලබා ගැනීමේ ක්‍රියාවලියයි. දත්ත පිරිසිදු කිරීම (Data cleaning), ප්‍රතිසංස්කරණය කිරීම (Reformatting) සහ දත්ත ඒකාබද්ධ කිරීම (Recombining) වැනි දේ මෙයට ඇතුළත් වේ. මෙය සිදු කරනු ලබන්නේ සැබෑ ලෝකයේ සංසිද්ධීන් විස්තර කරන දත්තවල ඇති ප්‍රවණතා, රටා සහ සොයාගැනීම් හඳුනා ගැනීම සඳහාය.

 බොහෝ විට අයෙකු Excel වැනි මෘදුකාංගවල හෝ GIS (භූගෝලීය තොරතුරු පද්ධති) සමඟ වැඩ කර ඇත්නම් පුළුල් දත්ත විශ්ලේෂණයක් සිදු කර ඇතිවාට සැක නැත. දත්ත විශ්ලේෂණය කිරීමේ හැකියාව මත පදනම් වූ වෘත්තීය මාවත් රාශියක් ඇති අතර, දත්ත විශ්ලේෂණය පිළිබඳ කෙනෙකුට ඇති අත්දැකීම් අවම කොට තැකිය නොහැකිය. එය දත්ත විද්‍යාවේ එක් කොටසකි.

2. නියම දත්ත විද්‍යාව (Proper Data Science)

 දත්ත විද්‍යාව යනු දත්තවල ව්‍යුහය සහ හැසිරීම පිළිබඳ ක්‍රමානුකූල අධ්‍යයනයයි. මෙහි අරමුණ වන්නේ අතීත සහ වර්තමාන සිදුවීම් ප්‍රමාණාත්මකව අවබෝධ කර ගැනීම සහ එම දත්තවල අනාගත හැසිරීම් පුරෝකථනය කිරීමයි.
දත්ත විද්‍යාවේදී (Data Science), අපට අවශ්‍ය වෙන්නේ නිකම්ම දත්ත පෙන්වීමට නොවේ. දත්ත මත පදනම්ව තීරණ ගැනීමටය. 

දත්ත පදනම්ව  තීරණ ගැනීමේ සරල උදාහරණ: බැංකුවක ගනුදෙනුකරුවෙකුගේ දත්ත පරීක්ෂා කර ඔහුට ණයක් (Loan) දිය හැකිද නැද්ද යන්න තීරණය කිරීම, රථ වාහන කිසියම් මංසන්දියක් පසුකර යන වාර ගණන් හා මගීන් පාර හරහා යන වර පිලිබඳ දත්ත එක්රැස් කර,  සිග්නල් කණු හා පාර  මාරුවීමේ සංඥා ස්ථාපිත කිරීමට අවශ්‍ය දැයි තීරණය කිරීම 

දත්ත විද්‍යාවේදී (Data Science) අපි කරන්නේ කුඩා තීරණ දහස් ගණනක් එකවර ගණනය කර විශාල දත්ත ගොනුවකින් අර්ථයක් ලබා ගැනීමය.

දත්ත විද්‍යාඥයෙකු සිදු කරන මූලික කාර්ය:

Data Ingestion: බාහිර ගොනුවකින් දත්ත ලබා ගැනීම.

Data Cleaning: දත්තවල ඇති වැරදි හෝ අඩුපාඩු සකස් කිරීම.

Exploratory Data Analysis (EDA): ප්‍රස්ථාර මගින් දත්තවල ඇති රටාවන් (Patterns) හඳුනා ගැනීම.

උදා:  මගේ රැකියාවේදී  අපි එක්සෙල් හෝ SQL මගින් ලැබෙන දත්ත ඩේටාබ්‍රික්ස් (databricks ) නමැති දත්ත විශ්ලේෂණ පද්ධතියට ඇතුලත් කර විශ්ලේෂණය කරන්නෙමු . එසේම  databricks , පිරිසිදු කරන ලද දත්ත ගබඩාවක්  storage ලෙසටද ඇතැම්විට සැලකිය හැකිය . 

3. කෘතිම බුද්ධිය (Artificial Intelligence - AI)

ඔබ "කෘතිම බුද්ධිය" යන පදය ඇසෙන විට, එයින් අදහස් කරන්නේ දත්ත ඇසුරෙන් තමන් විසින්ම සිදු කරන පුරෝකථනයන් මත ස්වයංක්‍රීයව ක්‍රියා කිරීමට හැකියාව ඇති යන්ත්‍රයක් හෝ යෙදුමකි (Application). 

කෘතිම බුද්ධිය තුළ ප්‍රධාන අංග දෙකක් තිබේ:

පුරෝකථනය (Prediction): දත්ත විද්‍යාව තුළ ඔබ සිදු කරන පුරෝකථන ආකෘති නිර්මාණය.

ක්‍රියාත්මක කිරීම (Execution): ඉංජිනේරුමය පද්ධති මගින් සිදු කරන ස්වයංක්‍රීය ප්‍රතිචාරය.


 දත්ත සමඟ වැඩ කිරීමට අප Python භාෂාව වැඩි වශයෙන් භාවිතා කරන්නේ ඇයි:
  1. ස්වයංක්‍රීයකරණය (Automation): Excel වලදී ඔබ සෑම මසකම එකම වාර්තාව සෑදීමට නැවත නැවතත් දත්ත ඇතුළත් කළ යුතුයි. නමුත් Python වලදී ඔබ ලියන එක "Script" එකක් මගින් දත්ත ලබාගැනීමේ සිට අවසන් වාර්තාව දක්වා සියල්ල ක්ෂණයකින් සිදු කළ හැකියි.

  2. විශාල දත්ත හැසිරවීම (Scalability): Excel ගොනුවක පේළි ලක්ෂ කිහිපයක් යන විට එය මන්දගාමී වේ. නමුත් Python වලට පේළි මිලියන ගණනක දත්ත (Big Data) ඉතා පහසුවෙන් හැසිරවිය හැකියි.

  3. පුරෝකථන හැකියාව: Excel මගින් අතීතය දෙස බැලීම පහසු වුවත්, Python සහ එහි ඇති Scikit-learn වැනි මෙවලම් මගින් ඉතා නිවැරදිව අනාගත ප්‍රවණතා පුරෝකථනය කළ හැකියි.


4. ගැඹුරු ඉගෙනීම (Deep Learning)

අවසාන වශයෙන් "ගැඹුරු ඉගෙනීම" නම් විෂය පථයක් තිබේ.  ගැඹුරු ඉගෙනීම යනු මොළයේ ස්නායු ජාල ව්‍යුහයන්ගෙන් (Neural network structures) ආකෘතීන් ලබා ගෙන  පුරෝකථන ක්‍රමවේද සමූහයකි. වඩා  පැහැදිලි කළහොත් මිනිස් මොළය තොරතුරු විශ්ලේෂණය කරන ආකාරය ආදර්ශයට ගනිමින් සකස් කළ ගණිතමය ව්‍යුහයන් මගින් අනාවැකි පල කිරීමේ ක්‍රමවේදයකි . මෙහි මොළයේ ස්නායු ජාල ව්‍යුහයන් (Neural network structures) යනු  අපගේ මොළයේ බිලියන ගණනක් වූ ස්නායු සෛල (Neurons) එකිනෙක සම්බන්ධ වී පණිවිඩ හුවමාරු කරගන්නා ආකාරයයි . එය   අනුකරණය කරමින් පරිගණක මෘදුකාංගයක් තුළ තනන ලද "කෘතිම ස්නායු ජාල" තිබේ. මෘදුකාංගය විසින් මෙම ස්නායු ජාල පද්ධතිය  ආකෘතියක් ලෙස භාවිතා කරමින් දත්ත හඳුනා ගැනීමට උත්සාහ කිරීම යනු මෙයයි .  පුරෝකථන ක්‍රමවේදය යනු දත්ත මත පදනම්ව යම් දෙයක් සිදුවීමට ඇති ඉඩකඩ හෝ එය කුමක්දැයි අනුමාන කිරීමය .   (උදාහරණයක් ලෙස: ඡායාරූපයක් දැක එය බළලෙකුගේ ද බල්ලෙකුගේ ද යන්න නිවැරදිව පැවසීම).

මෙය විශාල දත්ත (Big Data) ඇසුරෙන් පුරෝකථනයන් සිදු කිරීම සඳහා විශේෂයෙන් ඵලදායී ක්‍රමවේදයකි. තවත් කරුණක් නම්, "Deep Learning AI"  නිර්මාණය කිරීම සඳහා මෙය තීරණාත්මක ආකෘතියක් (Decision model) ලෙස භාවිතා කළ හැකි වීමයි.

එසේම ගැඹුරු ඉගෙනුම (Deep learning) යනු යන්ත්‍ර ඉගෙනීමේ (Machine learning) උපකුලකයක් වන අතර, එය කෘතිම බුද්ධියේ (AI) උපකුලකයකි. ගැඹුරු ඉගෙනුම යනු උත්පාදක කෘතිම බුද්ධියේ (GenAI) මූලිකාංගයකි: උත්පාදක කෘතිම බුද්ධියේ එක් ආකාරයක් වන මහා පරිමාණ භාෂා ආකෘති (LLMs -Large Language Models), ට්‍රාන්ස්ෆෝමර් ජාල (Transformer networks) වර්ගයක් වන අතර, ට්‍රාන්ස්ෆෝමර් යනු විශේෂිත ගැඹුරු ඉගෙනුම් ව්‍යුහයකි. LLMS වලට GPT-4 , ජෙමිනි (Gemini) ,  ක්ලෞඩ (Claude) , ලාමා (llama) වැනි AI පද්ධති උදහරන් ලෙස ගත හැකිය . 

සරලව පවසන්නේ නම්, LLMs යනු ගැඹුරු ඉගෙනුම් ක්‍රමවේද භාවිතා කරන ඇල්ගොරිතම වේ. එබැවින්, ගැඹුරු ඉගෙනුම යනු කෘතිම බුද්ධි වර්ගයක් පමණක් නොව, එය උත්පාදක කෘතිම බුද්ධියේ මූලාරම්භය ද වේ.

ට්‍රාන්ස්ෆෝමර් ජාල (Transformer networks) යනු වර්තමාන කෘතිම බුද්ධි (AI) ක්ෂේත්‍රයේ, විශේෂයෙන්ම ChatGPT සහ Gemini වැනි පද්ධති පිටුපස ඇති ප්‍රබලතම තාක්ෂණික ව්‍යුහයයි. මෙය 2017 වසරේදී Google සමාගමේ පර්යේෂකයන් විසින් හඳුන්වා දෙන ලදී.

සරලව කිවහොත්, මෙය දත්තවල (විශේෂයෙන් වාක්‍යයක ඇති වචනවල) ඇති සම්බන්ධතාවය සහ වැදගත්කම තේරුම් ගැනීමට භාවිතා කරන විශේෂිත "ගැඹුරු ඉගෙනුම්" (Deep Learning) ආකෘතියකි.

මෙම ජාලයේ ඇති ප්‍රධාන ලක්ෂණ:

1. අවධානය යොමු කිරීම (Self-Attention Mechanism)

ට්‍රාන්ස්ෆෝමර් ජාලයක ඇති සුවිශේෂීම දේ නම් මෙයයි. වාක්‍යයක් කියවන විට, එහි ඇති එක් එක් වචනය අනෙක් වචන සමඟ සම්බන්ධ වන ආකාරය මෙයට තේරුම් ගත හැකිය. බොහෝ විට අපි ඉංග්‍රීසි පොත් කියවන විට මෙය භාවිතා කරන්නෙමු .  

උදාහරණයක්: "බැංකුව" යන වචනය ගනිමු. "මම ගඟ අසල බැංකුවේ වාඩි වුණා" සහ "මම බැංකුවට මුදල් තැන්පත් කළා" යන වාක්‍ය දෙකේදී 'බැංකුව' යන්නෙන් අදහස් කරන්නේ කුමක්ද යන්න තේරුම් ගැනීමට වටපිටාවේ ඇති අනෙක් වචන දෙස බැලීමට මෙම තාක්ෂණය සමත් වේ. අප විසින් අනෙක් වාක්‍ය දෙස බලා ශ්බදකෝෂයක් නොමැතිව වචනයේ තේරුං වටහා ගන්නේද මේ ආකාරයටය . 

2. සමාන්තර සැකසුම් (Parallel Processing)

පැරණි AI ක්‍රම (RNN වැනි) වාක්‍යයක වචන එකින් එක පිළිවෙලට කියවූ අතර, එය ඉතා ප්‍රමාද වැඩකි. නමුත් ට්‍රාන්ස්ෆෝමර් ජාලයකට සම්පූර්ණ වාක්‍යයක් හෝ ඡේදයක්ම එකවර (Simultaneously) කියවා තේරුම් ගැනීමේ හැකියාව ඇත. මෙහි ප්‍රතිඵලයක් ලෙස ඉතා වේගයෙන් දත්ත සැකසීමට හැකියාව ලැබේ.

3. සන්දර්භය තේරුම් ගැනීම (Context)

දිගු ඡේදයක ආරම්භයේ ඇති කරුණක් සහ අවසානයේ ඇති කරුණක් අතර ඇති සම්බන්ධය මතක තබා ගැනීමට ට්‍රාන්ස්ෆෝමර් ජාල සමත් වේ. මෙය මහා පරිමාණ භාෂා ආකෘති (LLMs) නිර්මාණය කිරීමට අඩිතාලම විය.

ට්‍රාන්ස්ෆෝමර් ජාලවල භාවිතයන්:
භාෂා පරිවර්තනය: (Google Translate වැනි)

පෙළ නිර්මාණය: (ChatGPT, Gemini වැනි)

පින්තූර හඳුනා ගැනීම: (Vision Transformers)

කෙටියෙන් කිවහොත්, ට්‍රාන්ස්ෆෝමර් ජාලය යනු AI වලට භාෂාව මිනිසෙකුට මෙන් "තේරුම් ගැනීමට" සහ "හැසිරවීමට" ඉඩ සලසන එන්ජිමයි.

මේ නිසා දත්ත විද්‍යාවේ මීළඟ සහ වඩාත් උද්යෝගිමත් පියවර වන්නේ Machine Learning ලෙස හැඳින්විය හැකිය .  (යන්ත්‍ර ඉගෙනුම - යන්ත්‍රයන්ට ඉගැන්වීම කීවා නම් වඩා නිවැරදිය) . එනම්, මෙම අතීත විකුණුම් දත්ත භාවිතා කරමින් "ලබන මාසයේ විකුණුම් ප්‍රමාණය කොපමණ වේවිද?" යන්න පුරෝකථනය (Predict) කරන ආකෘතියක් (Model) නිර්මාණය කිරීමයි.  

- අජිත් 28/02/2026

22 comments:

  1. LLM සහ ට්‍රාන්ස්ෆෝමර් ගැන අහල තියනවා එච්චරයි.
    ++++++++++++++++++++++++👌

    ReplyDelete
    Replies
    1. මේක ගැඹුරු වැඩිද දන්නේ නැහැ බ්ලොග් එකට

      Delete
    2. මෙහෙම කියන්නද? අපි මොබයිල් ෆෝන් පාවිච්චි කරනවා. ඒත් ඒක වැඩ කරන විදිහ දැණගන්න උනන්දුද, නෑනෙ? ආන්න ඒ වගේ තමයි.

      හැබැයි මෙන්න මේ වගේ දේ ගැන නම් දැනගන්න කැමතියි:

      Technofeudalism

      Delete
    3. ඒක මරු , සහ ඒක ඇත්ත . පිළිතුර තියෙන්නේ අනාගත සමාජවාදය තුල බසුතුමා . අපිත් සමග එකතු වෙන්න . මිනිසුන් සඳහා වන AI .

      Delete
  2. Anthropic ගැන අකමැත්තෙන් හිටියෙ ICE තග්ස්ලා ෆේස් රිකොග්නිෂන් වලට පාවිචී කරපු නිසා. දැන් බලාගෙන ගියාම "Open AI" කිව්වට සෑම් ඔල්ට්මන් තමයි නියම සර්පයා.😮😡

    ReplyDelete
    Replies
    1. ක්ලෞඩ , චැටා සහ හැම AI එකම රජයන් සහ ඩිෆෙන්ස් ඉන්ඩස්ට්‍රී භාවිතා කරන්න තියෙන අවකාශය වැඩියි . උන්ටනේ වැඩිය සල්ලි තියෙන්නේ

      Delete
    2. චැටා ගේ අවුල මොකද්ද ? මම නම් වැඩි භාවිතයක් නැහැ

      Delete
    3. අවුල මොකද්ද ?😮😵‍💫
      ඇයි මල හත්තිලව්වේ මොන ලෝකෙද ඉන්නෙ? "බ්ලැක් මිරර්" ඇත්ත වේගන එනවා. ඇමරිකන් මිලිටරි, ෆුල් AI කන්ට්‍රෝල් ඉල්ලනවා, AI වෙපන් වලට තමන්ම තීරණ අරගෙන, තමන්ම මිනී මරන්න. කොහොමද මොල පොජ්ජ, ඕන වෝ ක්‍රයිම් එකක් කරලා, මැසිම යවතෑකිනෙ නියුරොන්බර්ග්. Anthropic බෑ කිව්වම කන්ට්‍රැක්ට් කැන්සල් කලා. අර සර්පයා- සෑම් පැනලා බාර ගත්තා. අනේ ඉතිං මුං වගේ එවුන්නෙ, එන්නෙ ලෝකෙ බේර ගන්න.

      https://www.youtube.com/watch?v=gE1BxJbDv-k

      Delete
    4. https://www.reddit.com/r/technology/comments/1rh882s/cancel_chatgpt_movement_goes_big_after_openais/

      Delete
    5. බසු - දැන් ඕකෙ මුල හරියනේ යුකෙන් රුසියන් යුද්දේ වෙන්නේ . සෙනග යවන්නේ නැතිව ඩ්රොන් වලින් මරා ගන්න . චැටා නම් මම මාස තුන හතරකට කලින් අයින් කළා . ඔය කතාව දැන ගන්න කලින් . ඇනෝ ලින්ක් එකට ස්තූතියි .

      Delete
    6. ප්‍රති උතෝපියානු විද්‍යා ප්‍රබන්ධ කතාවක් වගේ 😁

      Delete
  3. අන්ඩර දෙමළ වගෙ එකවර පෙනුණාට
    දිගටම කියවලා කියවල බලනකොට
    පුදුමත් හිතුනි, මහතුනි මේ නිදියාට
    මෙය වැඩියෙන්ම ගැලපෙයි අද පරපුරට

    ReplyDelete
    Replies
    1. වැඩියෙන්ම ගැලපෙන්නේ නව පරපුරට වෙන්න ඇති
      අන්ඩර දෙමල වුව තේරෙන තැන්ද ඇතී
      මේ යන ගමේ හැර යන්නට කෙනෙක් නැතී
      කියවා අදහසක් ගන්නවනම් හොඳයි සකී

      Delete
  4. විශ්වාස කළයුතු දත්ත සහ සත්‍ය මිත්‍යාව වෙන්කරගන්නා කෙනා අනාගතයේ හොඳම දත්ත විද්‍යාඥයා වේවි. දත්ත විශ්ලේෂණය හෝ පුරෝකථනයට වඩා DATA manipulation, Garbage DATA හඳුනාගැනීම අනාගත අභියෝගයක් නේද?

    ReplyDelete
    Replies
    1. ඕක හෙන අමාරු දෙයක් වෙන්නේ AI භාවිතා කරලම ෆේක් නිව්ස් දෙන නිසා . අපේ සමහර දත්ත ඇනලයිස් කරන්න AI දෙන කෝඩ් අපි හැම වෙලේම චෙක් කරලා බලනව හරිද කියල . ප්‍රශ්නේ එයාලට ඒක සම්පුර්නයෙන් භාර දෙන්න නේ අපි දැන් හදන්නේ. අන්න ඒ වෙලාවේදී නිර්ණායක අවශ වෙනවා එයාල දෙන තීරණ සත්‍යට ලඟද බලන්න . අර ඇමෙරිකන් යුද නැවට මිසයිලයක් වදන එක ගොඩක් අය විශ්වාස කරලා තියනව දැක්කා

      Delete
  5. තාක්ශනික පැතිකඩ ගැනනම් ලොකු උනන්දුවක් නෑ
    එත් දැන් මම Gemina එකනම් ඕසෙට පාවිචිචි කරනව හැම වැඩකටම

    ReplyDelete
    Replies
    1. ජෙමිනි එක සෑහෙන්න හොඳයි තමා

      Delete
  6. යාළුවෙක් මේක එව්වා -https://shumer.dev/something-big-is-happening

    ReplyDelete
  7. https://iwanpaulooshaa.blogspot.com/2026/03/blog-post.html#comment-form

    ReplyDelete
  8. විශේෂ ලිපියක් ඉතා වැදගත් ලිපියක් ... දිගටම කියෙව්වා ඒත් තේරෙන තැනට වඩා නොතේරෙන තැන් වැඩිද මන්ද

    ReplyDelete
  9. මං වගේ කෙනෙක්ට ටිකක් අමාරු කරවන තත්ත්වයේ ලිපියක්. ඇත්තටම කලින් එකට යම්කිසි හරි කමෙන්ට් එකක් දැම්මා උනත් මේකට එහෙම දාන්න තරම් දෙයක් ඇත්තටම නැති තරම්.
    ඊළඟ ලිපියෙන් හම්බෙමු

    ReplyDelete

  10. දෙවුන්දර දෙහි බාලේ -
    දත්ත හුගයි අජිත්

    ReplyDelete

සියලු හිමිකම් අජිත් ධර්මකීර්ති (Ajith Dharmakeerthi) සතුය. කොළඹ ගමයා බ්ලොග් අඩවියේ යොමුව සඳහන් කර හෝ අජිත් ධර්මකීර්ති යන නමින් පමණක් මෙහි ලිපි උපුටා පළ කරන්නට අවසර තිබේ.
මෙහි පලවන ලිපි සහ දේශපාලන අදහස් මගේ පෞද්ගලික අදහස් පමණි.
ඔබේ ඕනෑම ප්‍රතිචාරයක් මෙහි පල කරනු ලැබේ. නමුත් වෙනත් කෙනෙකුට සාධාරණ හේතුවක් නැතුව පහර ගසන අශිලාචාර අන්දමේ ප්‍රතිචාර පමණක් පල නොකෙරේ. බ්ලොගයට ගොඩ වදින ඔබ සියලු දෙනාට ස්තූතියි .