දත්ත විද්යාවේ විවිධ පැතිකඩ හඳුනා ගැනීම
දැන් ඔබ දත්ත විද්යාව (Data Science) යනු සැබවින්ම කුමක්ද සහ අනෙකුත් දත්ත වෘත්තිකයන් අතර දත්ත විද්යාඥයෙකුට හිමි තැන කුමක්දැයි දන්නා නිසා, දත්ත විද්යාවේ ප්රධාන "වර්ග" (Flavors) හතර ගැන ලියමි .
ඒවා නම්:
දත්ත විශ්ලේෂණය (Data Analysis),
දත්ත විද්යාව (Data Science),
කෘතිම බුද්ධිය (Artificial Intelligence),
සහ ගැඹුරු ඉගෙනීම (Deep Learning) යන්නයි.
මෙම පද හතර නිර්වචනය කර, ඔබ ඉගෙන ගැනීමට යන දේ මෙම ක්ෂේත්ර හතර තුළ කොතැනට ගැළපෙන්නේද යන්න පිළිබඳව අවබෝධයක් ලබා දීම ලිපියේ අරමුනයි. මෙහිදී පැහැදිලි කිරීමක් අවශ්ය වන්නේ ඔබ දැනට සිටින තැන, ඔබ යා යුතු දිශාව සහ ඔබ පසුකළ මාවත පිළිබඳව නිවැරදි අවබෝධයක් ලබා දීමටය.
ඔබ සතුව දැනටමත් දත්ත විද්යාවට සුදුසුකම් ලැබිය හැකි විශිෂ්ට විශ්ලේෂණාත්මක හැකියාවන් රාශියක් තිබෙන්නට පුළුවන. සමහරවිට ඔබ මේ මොහොතේ ඒ බව නොදන්නවා විය හැකිය.
1. දත්ත විශ්ලේෂණය (Data Analysis)
පළමුව, දත්ත විශ්ලේෂණය ගැන කතා කරමු. දත්ත විශ්ලේෂණය යනු දත්තවලින් අර්ථයක් ලබා ගැනීමේ ක්රියාවලියයි. දත්ත පිරිසිදු කිරීම (Data cleaning), ප්රතිසංස්කරණය කිරීම (Reformatting) සහ දත්ත ඒකාබද්ධ කිරීම (Recombining) වැනි දේ මෙයට ඇතුළත් වේ. මෙය සිදු කරනු ලබන්නේ සැබෑ ලෝකයේ සංසිද්ධීන් විස්තර කරන දත්තවල ඇති ප්රවණතා, රටා සහ සොයාගැනීම් හඳුනා ගැනීම සඳහාය.
ඔබ බොහෝ විට Excel වැනි මෘදුකාංගවල හෝ GIS (භූගෝලීය තොරතුරු පද්ධති) සමඟ වැඩ කර ඇත්නම් පුළුල් දත්ත විශ්ලේෂණයක් සිදු කර ඇතිවාට සැක නැත. දත්ත විශ්ලේෂණය කිරීමේ හැකියාව මත පදනම් වූ වෘත්තීය මාවත් රාශියක් ඇති අතර, දත්ත විශ්ලේෂණය පිළිබඳ ඔබට දැනටමත් ඇති අත්දැකීම් අවම කොට තැකිය නොහැකිය. එය දත්ත විද්යාවේ එක් කොටසකි.
2. නියම දත්ත විද්යාව (Proper Data Science)
දත්ත විද්යාව යනු දත්තවල ව්යුහය සහ හැසිරීම පිළිබඳ ක්රමානුකූල අධ්යයනයයි. මෙහි අරමුණ වන්නේ අතීත සහ වර්තමාන සිදුවීම් ප්රමාණාත්මකව අවබෝධ කර ගැනීම සහ එම දත්තවල අනාගත හැසිරීම් පුරෝකථනය කිරීමයි.
දත්ත විද්යාවේදී (Data Science), අපට අවශ්ය වෙන්නේ නිකම්ම දත්ත පෙන්වීමට නොවේ. දත්ත මත පදනම්ව තීරණ ගැනීමටය.
දත්ත පදනම්ව තීරණ ගැනීමේ උදාහරණ: බැංකුවක ගනුදෙනුකරුවෙකුගේ දත්ත පරීක්ෂා කර ඔහුට ණයක් (Loan) දිය හැකිද නැද්ද යන්න තීරණය කිරීම, රථ වාහන කිසියම් මංසන්දියක් පසුකර යන වාර ගණන් හා මගීන් පාර හරහා යන වර පිලිබඳ දත්ත ඇසුරින් සිග්නල් කණු හා පාර මාරුවීමේ සංඥා ස්ථාපිත කිරීමට අවශ්ය දැයි තීරණය කිරීම
දත්ත විද්යාවේදී (Data Science) අපි කරන්නේ කුඩා තීරණ දහස් ගණනක් එකවර ගණනය කර විශාල දත්ත ගොනුවකින් අර්ථයක් ලබා ගැනීමය.
දත්ත විද්යාඥයෙකු සිදු කරන මූලික කාර්ය:
Data Ingestion: බාහිර ගොනුවකින් දත්ත ලබා ගැනීම.
Data Cleaning: දත්තවල ඇති වැරදි හෝ අඩුපාඩු සකස් කිරීම.
Exploratory Data Analysis (EDA): ප්රස්ථාර මගින් දත්තවල ඇති රටාවන් (Patterns) හඳුනා ගැනීම.
උදා: මගේ රැකියාවේදී අපි එක්සෙල් හෝ SQL මගින් ලැබෙන දත්ත ඩේටාබ්රික්ස් (databricks ) නමැති දත්ත විශ්ලේෂණ පද්ධතියට ඇතුලත් කර විශ්ලේෂණය කරන්නෙමු
3. කෘතිම බුද්ධිය (Artificial Intelligence - AI)
ඔබ "කෘතිම බුද්ධිය" යන පදය ඇසෙන විට, එයින් අදහස් කරන්නේ දත්ත ඇසුරෙන් තමන් විසින්ම සිදු කරන පුරෝකථනයන් මත ස්වයංක්රීයව ක්රියා කිරීමට හැකියාව ඇති යන්ත්රයක් හෝ යෙදුමකි (Application).
කෘතිම බුද්ධිය තුළ ප්රධාන අංග දෙකක් තිබේ:
පුරෝකථනය (Prediction): දත්ත විද්යාව තුළ ඔබ සිදු කරන පුරෝකථන ආකෘති නිර්මාණය.
ක්රියාත්මක කිරීම (Execution): ඉංජිනේරුමය පද්ධති මගින් සිදු කරන ස්වයංක්රීය ප්රතිචාරය.
4. ගැඹුරු ඉගෙනීම (Deep Learning)
අවසාන වශයෙන් "ගැඹුරු ඉගෙනීම" නම් විෂය පථයක් තිබේ. ගැඹුරු ඉගෙනීම යනු මොළයේ ස්නායු ජාල ව්යුහයන්ගෙන් (Neural network structures) ආකෘතීන් ලබා ගන්නා පුරෝකථන ක්රමවේද සමූහයකි. මෙය විශාල දත්ත (Big Data) ඇසුරෙන් පුරෝකථනයන් සිදු කිරීම සඳහා විශේෂයෙන් ඵලදායී ක්රමවේදයකි. මෙය ඇත්ත වශයෙන්ම දත්ත විද්යාව තුළ ඇති උප-ක්ෂේත්රයකි. තවත් කරුණක් නම්, "Deep Learning AI" යෙදුම් නිර්මාණය කිරීම සඳහා මෙය තීරණාත්මක ආකෘතියක් (Decision model) ලෙස භාවිතා කළ හැකි වීමයි.
දත්ත සමඟ වැඩ කිරීමට අප Python භාවිතා කරන්නේ ඇයි:
ස්වයංක්රීයකරණය (Automation): Excel වලදී ඔබ සෑම මසකම එකම වාර්තාව සෑදීමට නැවත නැවතත් දත්ත ඇතුළත් කළ යුතුයි. නමුත් Python වලදී ඔබ ලියන එක "Script" එකක් මගින් දත්ත ලබාගැනීමේ සිට අවසන් වාර්තාව දක්වා සියල්ල ක්ෂණයකින් සිදු කළ හැකියි.
විශාල දත්ත හැසිරවීම (Scalability): Excel ගොනුවක පේළි ලක්ෂ කිහිපයක් යන විට එය මන්දගාමී වේ. නමුත් Python වලට පේළි මිලියන ගණනක දත්ත (Big Data) ඉතා පහසුවෙන් හැසිරවිය හැකියි.
පුරෝකථන හැකියාව: Excel මගින් අතීතය දෙස බැලීම පහසු වුවත්, Python සහ එහි ඇති Scikit-learn වැනි මෙවලම් මගින් ඉතා නිවැරදිව අනාගත ප්රවණතා පුරෝකථනය කළ හැකියි.
| දැනට භාවිතා කරන මෙවලම / ක්රියාව | Python වලදී භාවිතා වන පුස්තකාලය (Library) | විස්තරය |
| Excel Tables / VLOOKUP / Pivot Tables | Pandas | දත්ත පිරිසිදු කිරීමට, හැසිරවීමට සහ වගුගත කිරීමට ඇති ප්රබලම මෙවලමයි. |
| Excel Charts / Graphs | Matplotlib / Seaborn | දත්ත දෘශ්යකරණය (Data Visualization) සඳහා භාවිතා වේ. |
| Manual Formulas / Calculations | NumPy | සංකීර්ණ ගණිතමය සහ සංඛ්යානමය ගණනය කිරීම් වේගවත්ව සිදු කිරීමට. |
| GIS / Mapping | Geopandas / Folium | භූගෝලීය දත්ත (Spatial data) විශ්ලේෂණය සහ සිතියම් නිර්මාණයට. |
| What-if Analysis / Forecasting | Scikit-learn | අනාගතය පුරෝකථනය කරන Machine Learning ආකෘති තැනීමට.
|
දත්ත විද්යාවේ මීළඟ සහ වඩාත් උද්යෝගිමත් පියවර වන්නේ Machine Learning ය (යන්ත්ර ඉගෙනුම - යන්ත්රයන්ට ඉගැන්වීම කීවා නම් වඩා නිවැරදිය) . එනම්, මෙම අතීත විකුණුම් දත්ත භාවිතා කරමින් "ලබන මාසයේ විකුණුම් ප්රමාණය කොපමණ වේවිද?" යන්න පුරෝකථනය (Predict) කරන ආකෘතියක් (Model) නිර්මාණය කිරීමයි. ඒ ගැන ඊලඟට කතා කරමු .
- අජිත් 28/02/2026
No comments:
Post a Comment
සියලු හිමිකම් අජිත් ධර්මකීර්ති (Ajith Dharmakeerthi) සතුය. කොළඹ ගමයා බ්ලොග් අඩවියේ යොමුව සඳහන් කර හෝ අජිත් ධර්මකීර්ති යන නමින් පමණක් මෙහි ලිපි උපුටා පළ කරන්නට අවසර තිබේ.
මෙහි පලවන ලිපි සහ දේශපාලන අදහස් මගේ පෞද්ගලික අදහස් පමණි.
ඔබේ ඕනෑම ප්රතිචාරයක් මෙහි පල කරනු ලැබේ. නමුත් වෙනත් කෙනෙකුට සාධාරණ හේතුවක් නැතුව පහර ගසන අශිලාචාර අන්දමේ ප්රතිචාර පමණක් පල නොකෙරේ. බ්ලොගයට ගොඩ වදින ඔබ සියලු දෙනාට ස්තූතියි .