የ AI ቅድመ-ዝግጅት ምንድን ነው?

የ AI ቅድመ-ዝግጅት ምንድን ነው?

አጭር መልስ ፡ የAI ቅድመ-ዝግጅት ጥሬ፣ ከፍተኛ ልዩነት ያላቸውን መረጃዎች ወደ ወጥ የሞዴል ግብዓቶች የሚቀይሩ ተደጋጋሚ ደረጃዎች ስብስብ ሲሆን ይህም ጽዳት፣ ኢንኮዲንግ፣ ልኬት፣ ቶኬኒዚንግ እና የምስል ለውጦችን ያካትታል። አስፈላጊ ነው ምክንያቱም የሥልጠና ግብዓቶች እና የምርት ግብዓቶች የተለያዩ ከሆኑ ሞዴሎች በጸጥታ ሊወድቁ ይችላሉ። አንድ እርምጃ መለኪያዎችን "ካወቀ"፣ መፍሰስን ለማስወገድ በስልጠና ውሂብ ላይ ብቻ ያያይዙት።

የAI ቅድመ-ሂደት ማለት አንድ ሞዴል ከስልጠና ወይም ከማጠቃለያ በፊት (እና አንዳንድ ጊዜም) ጥሬ መረጃን ሲያደርጉ የሚያደርጉት ነገር ሁሉ ሲሆን ይህም ሞዴል ከእሱ መማር ይችላል። "ማጽዳት" ብቻ አይደለም። ውሂብን ማጽዳት፣ መቅረጽ፣ ማስፋፋት፣ ኢንኮዲንግ ማድረግ፣ ማሳደግ እና ሞዴልዎን በኋላ ላይ በጸጥታ የማያደናቅፍ ወጥ የሆነ ውክልና ማድረግ ነው። [1]

ቁልፍ ነጥቦች፡

ፍቺ ፡ ቅድመ-ሂደት ጥሬ ሰንጠረዦችን፣ ጽሑፎችን፣ ምስሎችን እና ምዝግብ ማስታወሻዎችን ወደ ሞዴል-ዝግጁ ባህሪያት ይለውጣል።

ወጥነት፡- አለመጣጣም አለመጣጣምን ለመከላከል በስልጠና እና በማጠቃለያ ጊዜ ተመሳሳይ ለውጦችን ይተግብሩ።

መፍሰስ ፡- የመለኪያ መሣሪያዎችን፣ ኢንኮደሮችን እና ቶኬይዘሮችን በስልጠና መረጃ ላይ ብቻ ማስማማት።

የመራባት አቅም ፡- ሊመረመሩ በሚችሉ ስታቲስቲክስ የቧንቧ መስመሮችን መገንባት፣ በአድ-ሆክ የማስታወሻ ደብተር ሕዋስ ቅደም ተከተሎች አይደለም።

የምርት ክትትል ፡ ግብዓቶች ቀስ በቀስ አፈጻጸማቸውን እንዳያበላሹ የተዛባ እና የተንሸራተቱ ውጤቶችን ይከታተሉ።

ከዚህ ጽሑፍ በኋላ ሊያነቧቸው የሚችሏቸው ጽሑፎች፡

🔗 ለእውነተኛ ዓለም አፈፃፀም የ AI ሞዴሎችን እንዴት መሞከር እንደሚቻል
ትክክለኛነትን፣ ጥንካሬን እና አድልዎ በፍጥነት ለመገምገም ተግባራዊ ዘዴዎች።.

🔗 የጽሑፍ-ወደ-ንግግር AI ነው እና እንዴት ይሰራል?
የቲቲኤስ መሰረታዊ ነገሮችን፣ ቁልፍ አጠቃቀሞችን እና ዛሬ ያሉትን የተለመዱ ገደቦች ያብራራል።.

🔗 ዛሬ AI የእጅ ጽሑፍን በትክክል ማንበብ ይችላል?
የማወቂያ ፈተናዎችን፣ ምርጥ መሳሪያዎችን እና የትክክለኛነት ምክሮችን ይሸፍናል።.

🔗 በተለመዱ ተግባራት ውስጥ የ AI ምን ያህል ትክክለኛ ነው
የትክክለኛነት ሁኔታዎችን፣ መለኪያዎችን እና የእውነተኛ ዓለም አስተማማኝነትን ይከፋፍላል።.


የAI ቅድመ-ሂደት በቀላል ቋንቋ (እና ያልሆነው) 🤝

የAI ቅድመ-ሂደት ጥሬ ግብዓቶችን (ሰንጠረዦች፣ ጽሑፎች፣ ምስሎች፣ ምዝግብ ማስታወሻዎች) ወደ ሞዴል ዝግጁ ባህሪያት መለወጥ ነው። ጥሬ መረጃ የተዝረከረከ ጋራዥ ከሆነ፣ ቅድመ-ሂደት ሳጥኖቹን መሰየም፣ የተሰበሩ ቆሻሻዎችን መጣል እና ነገሮችን መደርደር ነው፣ በዚህም ያለ ጉዳት ማለፍ ይችላሉ።

ሞዴሉ ራሱ አይደለም። ሞዴሉን እውን የሚያደርገው ነገር ነው፡

  • ምድቦችን ወደ ቁጥሮች መለወጥ (አንድ-ትኩስ፣ ተራ፣ ወዘተ) [1]

  • ትላልቅ የቁጥር ክልሎችን ወደ ጤናማ ክልሎች (ስታንዳርዴሽን፣ ሚኒ-ከፍተኛ፣ ወዘተ) መለካት [1]

  • ጽሑፍን ወደ ግብዓት መታወቂያዎች (እና አብዛኛውን ጊዜ የትኩረት ጭንብል) ማስመሰል [3]

  • ምስሎችን መጠን መቀየር/መከርከም እና ዴተሪስቲክ እና የዘፈቀደ ለውጦችን በአግባቡ መተግበር [4]

  • ስልጠና እና “እውነተኛ ህይወት” ግብዓቶች በድብቅ መንገዶች እንዳይለያዩ ተደጋጋሚ የቧንቧ መስመሮችን መገንባት [2]

አንድ ትንሽ ተግባራዊ ማስታወሻ፡- “ቅድመ-ሂደት” ሞዴሉ ግብዓቱን ከማየቱ በፊት በተከታታይ የሚሆነውን ሁሉ ። አንዳንድ ቡድኖች ይህንን “የባህሪ ምህንድስና” እና “የውሂብ ጽዳት” በማለት ይከፍሏቸዋል፣ ነገር ግን በእውነተኛ ህይወት እነዚያ መስመሮች ይደበዝዛሉ።

 

የAI ቅድመ-ሂደት

የ AI ቅድመ-ሂደት ሰዎች ከሚያምኑት በላይ ለምን አስፈላጊ ነው 😬

ሞዴል የንድፍ ማዛመጃ ነው፣ የአዕምሮ አንባቢ አይደለም። ግብዓቶችዎ ወጥነት ከሌላቸው፣ ሞዴሉ ወጥነት የሌላቸውን ህጎች ይማራል። ይህ ፍልስፍናዊ አይደለም፣ በሚያሳዝን ሁኔታ ቃል በቃል ነው።.

ቅድመ-ዝግጅት የሚከተሉትን ይረዳዎታል፦

  • ግምቶች (በተለይም ልኬት/ኢንኮዲንግ) በአስተማማኝ ሁኔታ ሊጠቀሙባቸው በሚችሏቸው ውክልናዎች ውስጥ ባህሪያትን በማስቀመጥ የመማር መረጋጋትን ያሻሽሉ

  • አንድ ሞዴል ሊያጠቃልለው ከሚችለው ነገር (እንግዳ ቅርሶችን ከማስታወስ ይልቅ) የተዝረከረከ እውነታ እንዲመስል በማድረግ ጫጫታን ይቀንሱ

  • ጸጥ ያሉ የውድቀት ሁነታዎችን ይከላከሉ (ይህ በማረጋገጫ ጊዜ "አስደናቂ" የሚመስል እና ከዚያም በምርት ላይ የፊት ገጽታ የሚተከል)። [2]

  • ድግግሞሽን ያፋጥኑ ምክንያቱም ተደጋጋሚ ለውጦች የማስታወሻ ደብተር ስፓጌቲን በሳምንቱ ውስጥ በየቀኑ ስለሚመቱ።

እንዲሁም፣ ብዙ “የሞዴል አፈጻጸም” የሚመነጨው እዚህ ላይ ነው። እንደ… በሚያስገርም ሁኔታ ብዙ። አንዳንድ ጊዜ ኢ-ፍትሃዊ ሆኖ ይሰማል፣ ግን እውነታው ያ ነው 🙃


ጥሩ የ AI ቅድመ-ሂደት ቧንቧ ምን ያደርጋል ✅

"ጥሩ የቅድመ-ሂደት ስሪት" ብዙውን ጊዜ የሚከተሉትን ባህሪያት አሉት፡

  • ሊባዛ የሚችል ፡ ተመሳሳይ ግብዓት → ተመሳሳይ ውጤት (ሆን ተብሎ የሚደረግ ጭማሪ ካልሆነ በስተቀር ሚስጥራዊ የዘፈቀደነት አለመኖር)።

  • የባቡር አገልግሎት ወጥነት ፡ በስልጠና ጊዜ የሚያደርጉት ማንኛውም ነገር በማጠቃለያ ጊዜ በተመሳሳይ መንገድ ይተገበራል (ተመሳሳይ የተገጠሙ መለኪያዎች፣ ተመሳሳይ የምድብ ካርታዎች፣ ተመሳሳይ የቶኬይዘር ውቅር፣ ወዘተ.)። [2]

  • መፍሰስን የማያስችል ፡ በግምገማ/ሙከራ ውስጥ ምንም ነገር በማንኛውም ተስማሚ ደረጃ ላይ ተጽዕኖ አይኖረውም። (ስለዚህ ወጥመድ ትንሽ ተጨማሪ።) [2]

  • የሚታይ ፦ ምን እንደተለወጠ (የባህሪ ስታቲስቲክስ፣ የጎደለው ሁኔታ፣ የምድብ ቆጠራዎች) መመርመር ይችላሉ፣ ስለዚህ ማረም በስሜት ላይ የተመሠረተ ምህንድስና አይደለም።

final_v7_really_final_ok የሚባል የማስታወሻ ደብተር ሴሎች ክምር ከሆነ … እንዴት እንደሆነ ያውቃሉ። እስኪሰራ ድረስ ይሰራል 😬


የ AI ቅድመ-ሂደት ዋና የግንባታ ብሎኮች 🧱

ቅድመ-ሂደትን እንደ አንድ የቧንቧ መስመር የሚያዋህዱ የግንባታ ብሎኮች ስብስብ አድርገው ያስቡት።.

1) ጽዳት እና ማረጋገጫ 🧼

የተለመዱ ተግባራት፡

  • የተባዙትን አስወግድ

  • የጎደሉ እሴቶችን ማስተናገድ (ጉድለቱን በግልጽ መጣል፣ መቃወም ወይም መወከል)

  • ዓይነቶችን፣ አሃዶችን እና ክልሎችን ያስገድዱ

  • የተበላሹ ግብዓቶችን ለይ

  • የጽሑፍ ቅርጸቶችን መደበኛ ማድረግ (ነጭ ቦታ፣ የካሴት ደንቦች፣ የዩኒኮድ ኳርኮች)

ይህ ክፍል ማራኪ ባይሆንም እጅግ በጣም ሞኝነት የሚንጸባረቅባቸውን ስህተቶች ይከላከላል። በፍቅር ነው የምለው።.

2) የምድብ ውሂብን ኢንኮዲንግ ማድረግ 🔤

"red" ወይም "premium_user" ያሉ ጥሬ ሕብረቁምፊዎችን በቀጥታ መጠቀም አይችሉም ።

የተለመዱ አቀራረቦች፡

  • አንድ-ትኩስ ኢንኮዲንግ (ምድብ → ሁለትዮሽ አምዶች) [1]

  • ተራ ኮድ (ምድብ → የኢንቲጀር መታወቂያ) [1]

ዋናው ነገር የትኛውን ኢንኮደር እንደመረጡ አይደለም - ካርታው ወጥነት ያለው ሆኖ መቆየቱ እና በስልጠና እና በማጠቃለያ መካከል "ቅርጹን የማይቀይር" መሆኑ ነው። በዚህ መንገድ ከመስመር ውጭ ጥሩ የሚመስል እና በመስመር ላይ የሚታለል ሞዴል ያገኛሉ። [2]

3) የባህሪ ልኬት እና መደበኛነት 📏

ባህሪያት በጣም የተለያዩ ክልሎች ላይ ሲኖሩ መጠንን ማስፋት አስፈላጊ ነው።.

ሁለት ክላሲኮች፡

  • መደበኛነት ፡ አማካይን እና ልኬትን ወደ አሃድ ልዩነት ያስወግዱ [1]

  • ዝቅተኛ-ከፍተኛ ልኬት ፡ እያንዳንዱን ባህሪ ወደተወሰነ ክልል መለካት [1]

"በአብዛኛው የሚቋቋሙ" ሞዴሎችን ሲጠቀሙም እንኳ፣ መለጠፍ ብዙውን ጊዜ የቧንቧ መስመሮችን ለማመዛዘን ቀላል ያደርገዋል - እና በድንገት ለመስበር አስቸጋሪ ያደርገዋል።.

4) የባህሪ ምህንድስና (እንደ ጠቃሚ ማጭበርበር) 🧪

የተሻሉ ምልክቶችን በመፍጠር የሞዴሉን ስራ ቀላል የሚያደርጉት እዚህ ነው፡

  • ሬሾዎች (ጠቅታዎች / ግንዛቤዎች)

  • የሚሽከረከሩ መስኮቶች (ባለፉት N ቀናት)

  • ቆጠራዎች (በተጠቃሚ የሚደረጉ ክስተቶች)

  • ለከባድ ጭራ ስርጭቶች የሎግ ለውጦች

እዚህ ላይ አንድ ጥበብ አለ። አንዳንድ ጊዜ አንድ ገጽታ ትፈጥራለህ፣ ትኮራለህ… እና ምንም አያደርግም። ወይም ደግሞ የከፋው ደግሞ ያማል። ያ የተለመደ ነው። ከባህሪያቱ ጋር በስሜታዊነት አትጣበቅ - እነሱ መልሰው አይወዱህም 😅

5) ውሂብን በትክክለኛው መንገድ መከፋፈል ✂️

ይህ ግልጽ እስኪሆን ድረስ ግልጽ ይመስላል፡

  • ለ iid ውሂብ የዘፈቀደ መከፋፈያዎች

  • በጊዜ ላይ የተመሰረቱ ክፋዮች ለጊዜ ተከታታይ

  • አካላት ሲደጋገሙ በቡድን የተከፋፈሉ ክፍሎች (ተጠቃሚዎች፣ መሳሪያዎች፣ ታካሚዎች)

እና በጣም አስፈላጊው ነገር ፡ ከውሂብ የሚማር ቅድመ-ሂደትን ከማስገባትዎ በፊት ይከፋፍሉት ። የቅድመ-ሂደት ደረጃዎ መለኪያዎችን (እንደ ዘዴ፣ የቃላት ዝርዝር፣ የምድብ ካርታዎች) "የሚማር" ከሆነ፣ ከስልጠና ብቻ መማር አለበት። [2]


የAI ቅድመ-ሂደት በውሂብ አይነት፡ ታብላር፣ ጽሑፍ፣ ምስሎች 🎛️

ቅድመ-ሂደት ሞዴሉን በሚመግቡት ላይ በመመስረት ቅርፁን ይለውጣል።.

የሰንጠረዥ ውሂብ (የተመን ሉሆች፣ ምዝግብ ማስታወሻዎች፣ የውሂብ ጎታዎች) 📊

የተለመዱ ደረጃዎች፡

  • የጎደለ እሴት ስትራቴጂ

  • የምድብ ኮድ [1]

  • የቁጥር አምዶችን መጠን ማስተካከል [1]

  • የውጭ አያያዝ (የዶሜይን ህጎች አብዛኛውን ጊዜ "በዘፈቀደ መቁረጥ" ይበልጣሉ)

  • የተገኙ ባህሪያት (ውህደቶች፣ መዘግየት፣ የማሽከርከር ስታቲስቲክስ)

ተግባራዊ ምክር፡ የአምድ ቡድኖችን በግልጽ ይግለጹ (ቁጥራዊ እና ምድብ እና መለያ)። የወደፊት ራስዎ ያመሰግንዎታል።.

የጽሑፍ ውሂብ (NLP) 📝

የጽሑፍ ቅድመ-ማቀናበሪያ ብዙውን ጊዜ የሚከተሉትን ያካትታል፦

  • ወደ ቶከኖች/ንዑስ ቃላት ማስመሰል

  • የግቤት መታወቂያዎች መለወጥ

  • ንጣፍ/መቁረጥ

  • ለቡድን ስራ የትኩረት ጭምብሎችን መገንባት

ህመምን የሚያድን ትንሽ ህግ፡- በትራንስፎርመር ላይ ለተመሰረቱ ቅንብሮች፣ የሞዴሉን የሚጠበቀውን የቶኬኒዘር ቅንብሮች ይከተሉ እና ምክንያት ከሌለዎት በስተቀር ፍሪስታይል አይጠቀሙ። ፍሪስታይሊንግ "ይሠለጥናል ግን እንግዳ ነው" የሚልበት መንገድ ነው።

ምስሎች (የኮምፒውተር እይታ) 🖼️

የተለመደው ቅድመ-ሂደት፦

  • ወደ ወጥ ቅርጾች መጠን መቀየር / መከርከም

  • ለግምገማ ወሳኝ ለውጦች

  • ለስልጠና ጭማሪ የዘፈቀደ ለውጦች (ለምሳሌ፣ የዘፈቀደ መከርከም) [4]

ሰዎች የሚያመልጧቸው አንድ ዝርዝር ነገር፡- “የዘፈቀደ ትራንስፎርሞች” ስሜት ብቻ አይደሉም፤ በተጠሩ ቁጥር መለኪያዎችን በቃል ይወስናሉ። ለስልጠና ልዩነት በጣም ጥሩ፣ የዘፈቀደነትን ማጥፋት ከረሱ ለግምገማ በጣም መጥፎ ነው። [4]


ሁሉም ሰው የሚወድቅበት ወጥመድ፡ የውሂብ መፍሰስ 🕳️🐍

መፍሰስ ማለት ከግምገማ መረጃ የሚገኝ መረጃ ወደ ስልጠና ሲገባ ነው - ብዙውን ጊዜ በቅድመ-ሂደት በኩል። ሞዴልዎን በማረጋገጥ ጊዜ አስማታዊ እንዲመስል ሊያደርግ ይችላል፣ ከዚያም በእውነተኛው ዓለም ውስጥ ሊያሳዝነዎት ይችላል።.

የተለመዱ የፈሳሽ ማስወገጃ ዘዴዎች:

  • ሙሉ የውሂብ ስብስብ ስታቲስቲክስን በመጠቀም ማመጣጠን (ከስልጠና ይልቅ) [2]

  • ባቡር+ሙከራን በጋራ በመጠቀም የምድብ ካርታዎችን መገንባት [2]

  • የሙከራ ስብስቡን “ያያል” ማንኛውም የfit() ወይም fit_transform()

የአውራ ጣት ደንብ (ቀላል፣ ጨካኝ፣ ውጤታማ)፦

  • የአካል ብቃት እንቅስቃሴ ያለው ማንኛውም ነገር በስልጠና ላይ ብቻ መሆን አለበት።

  • ከዚያም የተገጠመውን ትራንስፎርመር በመጠቀም ማረጋገጫ/ሙከራ ትለውጣለህ

እና "ምን ያህል መጥፎ ሊሆን ይችላል?" የሚለውን ጥያቄ መጠየቅ ከፈለጉ፡ የscikit-learn የራሱ ሰነዶች የተሳሳተ የቅድመ-ሂደት ትዕዛዝ 0.76 0.5 ይመለሳል ። የተሳሳተ መፍሰስ በዚህ መንገድ አሳማኝ በሆነ መንገድ ሊታይ ይችላል። [2]


ያለምንም ትርምስ ቅድመ-ዝግጅት ወደ ምርት መግባት 🏗️

ብዙ ሞዴሎች በምርት ላይ የሚወድቁት ሞዴሉ "መጥፎ" ስለሆነ ሳይሆን የግብዓት እውነታው ስለሚለወጥ ወይም የቧንቧ መስመርዎ ስለሚቀየር ነው።

የምርት አስተሳሰብ ቅድመ-ዝግጅት ብዙውን ጊዜ የሚከተሉትን ያካትታል፦

  • የተቀማጭ ቅርሶች (የኢንኮደር ካርታዎች፣ የስኬለር ፓራሞች፣ የቶኬኒዘር ውቅር) ስለዚህ መደምደሚያው ተመሳሳይ የተማሩ ለውጦችን ይጠቀማል [2]

  • ጥብቅ የግቤት ኮንትራቶች (የሚጠበቁ አምዶች/አይነቶች/ክልሎች)

  • የምርት መረጃ ስለሚንከራተትና ስለሚንሸራተት ክትትል ማድረግ [ 5]

ተጨባጭ ትርጓሜዎችን ከፈለጉ፡ የጉግል Vertex AI ሞዴል ሞኒተሪንግ የሥልጠና አገልግሎት አሰጣጥ ስዌቭን (የምርት ስርጭት ከስልጠና የተለየ ነው) እና የግምታዊ ተንሸራታች (የምርት ስርጭት በጊዜ ሂደት ይለወጣል) ይለያል፣ እና ለምድባዊ እና ለቁጥር ባህሪያት ክትትልን ይደግፋል። [5]

ምክንያቱም አስገራሚ ነገሮች ውድ ናቸው። እና አዝናኝ አይነት አይደሉም።.


የንጽጽር ሰንጠረዥ፡ የተለመዱ የቅድመ-ሂደት መሳሪያዎች + የክትትል መሳሪያዎች (እና ለማን እንደሆኑ) 🧰

መሣሪያ / ቤተ-መጽሐፍት ለ ምርጥ ዋጋ ለምን እንደሚሰራ (እና ትንሽ ቅንነት)
scikit-learn preprocessing ታቡላር ኤምኤል ቧንቧዎች ፍርይ ጠንካራ ኢንኮደሮች + ስካለሮች (OneHotEncoder፣ StandardScaler፣ ወዘተ) እና ሊገመት የሚችል ባህሪ [1]
የሚተቃቀፉ የፊት ማስመሰያዎች የNLP ግብዓት ዝግጅት ፍርይ በሩጫዎች/ሞዴሎች ላይ በተከታታይ የግቤት መታወቂያዎችን + የትኩረት ጭምብሎችን ያመነጫል [3]
የቶርክቪዥን ለውጦች የእይታ ለውጦች + ጭማሪ ፍርይ በአንድ የቧንቧ መስመር ውስጥ ወሳኝ እና የዘፈቀደ ለውጦችን ለማዋሃድ ንጹህ መንገድ [4]
የቨርቴክስ AI ሞዴል ክትትል በምርት ውስጥ የመንዳት/የመንሸራተት መለየት የተከፈለ (ደመና) ሞኒተሮች ገደቦች ሲያልፍ የተዛባ/የተንሸራተተ እና ማንቂያዎችን ያሳያሉ [5]

(አዎ፣ ጠረጴዛው አሁንም አስተያየቶች አሉት። ግን ቢያንስ ታማኝ አስተያየቶች ናቸው 😅)


በትክክል ሊጠቀሙበት የሚችሉት ተግባራዊ የቅድመ-ሂደት ዝርዝር 📌

ከስልጠና በፊት

  • የግቤት ንድፍ (አይነቶች፣ አሃዶች፣ የሚፈቀዱ ክልሎች) ይግለጹ

  • የጎደሉ እሴቶችን እና የተባዙትን ኦዲት ያድርጉ

  • ውሂብን በትክክለኛው መንገድ ይከፋፍሉ (በዘፈቀደ / በጊዜ ላይ የተመሠረተ / በቡድን የተከፋፈሉ)

  • የአካል ብቃት እንቅስቃሴ ቅድመ-ሂደት በስልጠና ላይ ብቻ ( ተስማሚ / የተስተካከለ_ለውጥ በባቡር ላይ ይቆያል) [2]

  • ቅድመ-ሂደት ያላቸውን ቅርሶች ያስቀምጡ ስለዚህ ግምቱ እንደገና ጥቅም ላይ እንዲውሉ ያድርጉ [2]

በስልጠና ወቅት

  • የዘፈቀደ ጭማሪን ተገቢ በሚሆንበት ጊዜ ብቻ ይተግብሩ (ብዙውን ጊዜ በስልጠና የተከፈለ ብቻ) [4]

  • ግምገማውን አስቀድሞ በማቀናበር ላይ ተወስኖ እንዲቆይ ያድርጉ [4]

  • እንደ የሞዴል ለውጦች ያሉ የቅድመ-ሂደት ለውጦችን ይከታተሉ (ምክንያቱም እነሱ ናቸው)

ከማሰማራት በፊት

  • ግምቱ ተመሳሳይ የቅድመ-ሂደት መንገድ እና ቅርሶችን እንደሚጠቀም ያረጋግጡ [2]

  • የdrift/skew ክትትልን ያዋቅሩ (መሰረታዊ የባህሪ ስርጭት ፍተሻዎች እንኳን ረጅም መንገድ ይሄዳሉ) [5]


ጥልቅ ዳይቭ፡ የተለመዱ የቅድመ-ሂደት ስህተቶች (እና እንዴት ማስወገድ እንደሚቻል) 🧯

ስህተት 1፡ “ሁሉንም ነገር በፍጥነት መደበኛ አደርጋለሁ” 😵

በሙሉ የውሂብ ስብስብ ላይ የመለኪያ መለኪያዎችን (scaling params) ካሰሉ፣ የግምገማ መረጃ እያወጡ ነው። በባቡር ላይ ይግጠሙ፣ የቀረውን ይቀይሩ። [2]

ስህተት 2፡ ወደ ትርምስ የሚንሸራተቱ ምድቦች 🧩

የምድብ ካርታዎ በስልጠና እና በማጠቃለያ መካከል የሚቀያየር ከሆነ፣ ሞዴልዎ ዓለምን በጸጥታ በተሳሳተ መንገድ ሊያነብ ይችላል። ካርታዎችን በተቀመጡ ቅርሶች አማካኝነት ያስተካክሉ። [2]

ስህተት 3፡ በዘፈቀደ የሚደረግ ጭማሪ ወደ ግምገማ ሾልኮ መግባት 🎲

የዘፈቀደ ለውጦች በስልጠና ውስጥ አስደናቂ ናቸው፣ ነገር ግን አፈጻጸምን ለመለካት ሲሞክሩ "በድብቅ" መሆን የለባቸውም። (ዘፈቀደ ማለት የዘፈቀደ ማለት ነው።) [4]


የመጨረሻ አስተያየቶች 🧠✨

የAI ቅድመ-ሂደት የተዝረከረከ እውነታን ወደ ወጥነት ያለው የሞዴል ግብዓቶች የመቀየር ተግሣጽ ያለው ጥበብ ነው። ጽዳትን፣ ኢንኮዲንግን፣ ልኬትን፣ ቶኬኒዜሽንን፣ የምስል ለውጦችን እና ከሁሉም በላይ ደግሞ ተደጋጋሚ የቧንቧ መስመሮችን እና ቅርሶችን ያካትታል።

  • ቅድመ-ሂደትን ሆን ተብሎ ያድርጉት፣ በአጋጣሚ አይደለም። [2]

  • መጀመሪያ ይክፈሉት፣ የአካል ብቃት እንቅስቃሴውን በስልጠና ብቻ ይለውጡ፣ መፍሰስን ያስወግዱ። [2]

  • ሞዳሊቲ-ተስማሚ ቅድመ-ሂደትን ይጠቀሙ (ለጽሑፍ ቶከነሮች፣ ለምስሎች ትራንስፎርሞች)። [3][4]

  • ሞዴልዎ ቀስ በቀስ ወደ ትርጉም የለሽ እንዳይሸጋገር የምርት መዛባት/መንቀጥቀጥን ይከታተሉ። [5]

እና ችግር ውስጥ ከገባህ፣ ራስህን ጠይቅ፦
“ነገ በአዲስ ዳታ ብጠቀምበት ይህ የቅድመ-ሂደት እርምጃ አሁንም ትርጉም ይኖረዋል?”
መልሱ “ኧረ… ምናልባት?” ከሆነ፣ ፍንጭህ ይህ ነው 😬


ተደጋጋሚ ጥያቄዎች

በቀላል አነጋገር የ AI ቅድመ-ሂደት ምንድን ነው?

የAI ቅድመ-ሂደት ጫጫታ ያለው፣ ከፍተኛ ልዩነት ያለው ጥሬ መረጃን ወደ አንድ ሞዴል መማር ወደሚችል ወጥ ግብዓቶች የሚቀይር ተደጋጋሚ የደረጃዎች ስብስብ ነው። ይህም ጽዳትን፣ ማረጋገጫን፣ የኮድ ምድቦችን፣ የቁጥር እሴቶችን መጠን መጨመርን፣ ጽሑፍን ማስመሰልን እና የምስል ለውጦችን መተግበርን ሊያካትት ይችላል። ግቡ ስልጠና እና የምርት መደምደሚያ “ተመሳሳይ ዓይነት” ግብዓት እንዲታዩ ማረጋገጥ ነው፣ ስለዚህ ሞዴሉ በኋላ ላይ ወደማይታወቅ ባህሪ እንዳይሸጋገር።.

የ AI ቅድመ-ሂደት በምርት ውስጥ ለምን በጣም አስፈላጊ ነው?

ቅድመ-ሂደት አስፈላጊ የሆነው ሞዴሎች ለግብዓት ውክልና ስሜታዊ ስለሆኑ ነው። የስልጠና መረጃ ከምርት ውሂብ በተለየ መልኩ ከተለካ፣ ከተቀየረ፣ ከተለጠፈ ወይም ከተቀየረ፣ ከመስመር ውጭ ጥሩ የሚመስሉ ነገር ግን በመስመር ላይ በጸጥታ የሚወድቁ የባቡር/የአገልግሎት አለመዛመድ ውድቀቶችን ማግኘት ይችላሉ። ጠንካራ የቅድመ-ሂደት ቧንቧዎች ድምጽን ይቀንሳሉ፣ የመማር መረጋጋትን ያሻሽላሉ እና የማስታወሻ ደብተር ስፓጌቲን ስለማያፈናቅሉ ድግግሞሽን ያፋጥናሉ።.

ቅድመ-ሂደት ሲደረግ የውሂብ መፍሰስን እንዴት ማስወገድ እችላለሁ?

ቀላል ደንብ ይሰራል፡- ተስማሚ ደረጃ ያለው ማንኛውም ነገር በስልጠና መረጃ ላይ ብቻ የሚስማማ መሆን አለበት። ይህም እንደ ዘዴ፣ የምድብ ካርታዎች ወይም የቃላት ዝርዝር ያሉ መለኪያዎችን የሚማሩ መለኪያዎችን የሚማሩ መለኪያዎችን፣ መቀየሪያዎችን እና ቶከናይዘሮችን ያካትታል። መጀመሪያ ይከፍላሉ፣ በስልጠናው ክፍፍል ላይ ይጣጣማሉ፣ ከዚያም በተገጠመው ትራንስፎርመር በመጠቀም ማረጋገጫ/ሙከራን ይቀይሩ። መፍሰስ ማረጋገጫውን “አስማታዊ” እንዲመስል ሊያደርግ እና ከዚያም በምርት አጠቃቀም ላይ ሊወድቅ ይችላል።

ለሠንጠረዥ ውሂብ በጣም የተለመዱ የቅድመ-ሂደት ደረጃዎች ምንድናቸው?

ለሠንጠረዥ ዳታ፣ የተለመደው የቧንቧ መስመር ጽዳት እና ማረጋገጫ (አይነቶች፣ ክልሎች፣ የጎደሉ እሴቶች)፣ የምድብ ኢንኮዲንግ (አንድ-ትኩስ ወይም ተራ) እና የቁጥር ልኬት (መደበኛነት ወይም ዝቅተኛ-ከፍተኛ) ያካትታል። ብዙ የቧንቧ መስመሮች እንደ ጥምርታዎች፣ የሚሽከረከሩ መስኮቶች ወይም ቆጠራዎች ያሉ በጎራ ላይ የተመሰረቱ የባህሪ ምህንድስናን ይጨምራሉ። ተግባራዊ ልማድ የአምድ ቡድኖችን በግልጽ መግለጽ ነው (ቁጥር vs ምድብ vs መለያዎች) ስለዚህ ለውጦችዎ ወጥነት እንዲኖራቸው።.

ለጽሑፍ ሞዴሎች ቅድመ-ማቀነባበሪያ እንዴት ይሰራል?

የጽሑፍ ቅድመ-ሂደት በተለምዶ ቶኬኒዜሽን ወደ ቶከኖች/ንዑስ ቃላት፣ ወደ ግብዓት መታወቂያዎች በመቀየር እና ለባችንግ ፓዲንግ/መቁረጥን በማስተናገድ ማለት ነው። ብዙ የትራንስፎርመር የስራ ፍሰቶች ከመታወቂያዎች ጎን ለጎን የትኩረት ጭንብል ይፈጥራሉ። የተለመደው አካሄድ የሞዴሉን የሚጠበቀውን የቶኬኒዘር ውቅር ከማሻሻል ይልቅ መጠቀም ነው፣ ምክንያቱም በቶኬኒዘር ቅንብሮች ውስጥ ያሉ ትናንሽ ልዩነቶች "እየሰለጠነ ነው ግን ሊገመት የማይችል ውጤት ያስገኛል" ወደ ውጤቶች ሊያመሩ ይችላሉ።.

ለማሽን ትምህርት የሚሆኑ ምስሎችን አስቀድሞ በማስኬድ ረገድ ምን ልዩነት አለ?

የምስል ቅድመ-ሂደት ብዙውን ጊዜ ወጥ የሆኑ ቅርጾችን እና የፒክሰል አያያዝን ያረጋግጣል፡ መጠንን መቀየር/መከርከም፣ መደበኛ ማድረግ እና በውሳኔ ሰጪ እና በዘፈቀደ ለውጦች መካከል ግልጽ የሆነ ክፍፍል። ለግምገማ፣ ትራንስፎርሞች ቆራጥ መሆን አለባቸው ስለዚህ መለኪያዎች ተመሳሳይ ናቸው። ለስልጠና፣ የዘፈቀደ ጭማሪ (እንደ የዘፈቀደ ሰብሎች) ጠንካራነትን ሊያሻሽል ይችላል፣ ነገር ግን የዘፈቀደነት ሆን ተብሎ ወደ ስልጠናው ክፍፍል መሸጋገር አለበት፣ በግምገማ ወቅት በአጋጣሚ መተው የለበትም።.

የቅድመ-ሂደት ቧንቧን ደካማ ከመሆን ይልቅ "ጥሩ" የሚያደርገው ምንድን ነው?

ጥሩ የAI ቅድመ-ሂደት ቧንቧ እንደገና ሊሰራ የሚችል፣ ሊፈስ የሚችል እና ሊታይ የሚችል ነው። ሊባዛ የሚችል ማለት ተመሳሳይ ግብዓት ተመሳሳይ ውጤት ያስገኛል ማለት ነው፣ የዘፈቀደ ጭማሪ ካልሆነ በስተቀር። ሊባዛ የሚችል ማለት የመገጣጠሚያ ደረጃዎች በጭራሽ አይነኩም ማለት ነው። ሊታዘዝ የሚችል ማለት እንደ የጎደለው ነገር፣ የምድብ ብዛት እና የባህሪ ስርጭቶች ያሉ ስታቲስቲክሶችን መመርመር ይችላሉ፣ ስለዚህ ማረም በንዴት ስሜት ላይ የተመሰረተ አይደለም። የቧንቧ መስመሮች ሁልጊዜ ከአዲስ የማስታወሻ ደብተር ቅደም ተከተሎች ይበልጣሉ።.

ስልጠናውን እና ቅድመ-ሂደቱን ወጥነት ባለው መንገድ እንዴት ማቆየት እችላለሁ?

ቁልፉ ተመሳሳይ የተማሩትን ቅርሶች በማጣቀሻ ጊዜ እንደገና መጠቀም ነው፡ የስኬለር መለኪያዎች፣ የኢንኮደር ካርታ ስራዎች እና የቶኬኒዘር ውቅሮች። እንዲሁም የግብዓት ውል (የሚጠበቁ አምዶች፣ አይነቶች እና ክልሎች) ይፈልጋሉ ስለዚህ የምርት ውሂብ በጸጥታ ወደ ልክ ያልሆኑ ቅርጾች እንዳይንሸራተት። ወጥነት ማለት "ተመሳሳይ ደረጃዎችን ማድረግ" ብቻ አይደለም - "ተመሳሳይ ደረጃዎችን በተመሳሳይ የተገጠሙ መለኪያዎች እና ካርታዎች ማድረግ" ነው።

እንደ መንሸራተት እና በጊዜ ሂደት መዛባት ያሉ የቅድመ-ሂደት ችግሮችን እንዴት መከታተል እችላለሁ?

ጠንካራ የቧንቧ መስመር ቢኖርም የምርት መረጃ ይለወጣል። የተለመደው አካሄድ የባህሪ ስርጭት ለውጦችን መከታተል እና የሥልጠና አገልግሎት አሰጣጥ መዛባት (ምርት ከስልጠና የሚለይ) እና የማጠቃለያ ለውጥ (በጊዜ ሂደት የምርት ለውጦች) ላይ ማሳወቅ ነው። ክትትል ቀላል (መሰረታዊ የስርጭት ፍተሻዎች) ወይም የሚተዳደር (እንደ Vertex AI ሞዴል ክትትል) ሊሆን ይችላል። ግቡ የግብዓት ፈረቃዎችን ቀደም ብሎ መያዝ ነው - የሞዴል አፈጻጸምን ቀስ በቀስ ከማበላሸታቸው በፊት።.

ማጣቀሻዎች

[1] scikit-learn API:
sklearn.preprocessing (encoders, scalers, normalization) [2] scikit-learn: የተለመዱ ወጥመዶች - የውሂብ መፍሰስ እና እንዴት ማስወገድ እንደሚቻል
[3] የፊት ትራንስፎርመሮች ማቀፍ ሰነዶች፡ ቶከነዘርስ (የግቤት መታወቂያዎች፣ የትኩረት ጭምብሎች)
[4] PyTorch Torchvision ሰነዶች፡ ትራንስፎርሞች (መጠንን ቀይር/መደበኛ + የዘፈቀደ ለውጦች)
[5] የጉግል ክላውድ ቨርቴክስ AI ሰነዶች፡ የሞዴል ክትትል አጠቃላይ እይታ (የባህሪ ተንሸራታች እና መንሸራተት)

የቅርብ ጊዜውን የ AI ኦፊሴላዊ የ AI ረዳት መደብር ያግኙ

ስለ እኛ

ወደ ጦማር ተመለስ