One Hot Encoding in Machine Learning | Sinhala

Machine learning භාවිතා කරලා ගැටලුවක් විසඳන්න යනකොට අපි කරන ප්‍රධානම කාර්යය වන්නේ දත්ත එකතු කර ගන්න එක. ඒ දත්ත process කරන්න අවශ්‍යයි. Machine learning model එකක් හදාගන්න පුළුවන් විදියට ගැටලුවට ගැලපෙන විදියට ඒ දත්ත preprocess කරන්න ඕනි.

සමහර dataset වල category data වගේම Numerical data වගේ මිශ්‍ර දත්ත තියෙන්න පුලුවන්. නමුත් විවිධ machine Learning model, category දත්ත සමඟ ක්‍රියානොකරන නිසා මෙම දත්ත machine learning model එකට ගැලපීම සඳහා සංඛ්‍යාත්මක දත්ත බවට පරිවර්තනය කළ යුතුයි.

උදාහරණ ලෙස පහත දැක්වෙන dataset එක බලමු


ඉහත dataset එකේ Team තීරුවේ Teams  A, B සහ C ලෙස වර්ග කර ඇත. මෙම ලේබලවලට නිශ්චිත මනාප අනුපිළිවෙලක් නොමැති අතර දත්ත තන්තු(string) ලේබල් බැවින්, යන්ත්‍ර ඉගෙනුම් ආකෘති ඒවායේ යම් ආකාරයක ධුරාවලියක් ඇති බවට වැරදි ලෙස අර්ථකථනය කර ඇත.

මෙම ගැටලුව විසඳිම සඳහා, එකම ඵලදායි තාක්ෂණය වන්නේ One Hot Encoding. OHE category දත්ත සංඛ්‍යාත්මක ආකෘතියක් බවට පරිවර්තනය කරයි.

එය OHE කළ පසු අර category දත්ත පෙන්නුම් කරන්නේ පහත ආකාරයට වේ.


ඉහත ආකාරයට ලබාගන්න කොහොමද  program එක ලියන්නේ කියලා අපි බලමු.