የAI ሞዴሎችን እንዴት መሞከር እንደሚቻል

የAI ሞዴሎችን እንዴት መሞከር እንደሚቻል

አጭር መልስ ፡ የAI ሞዴሎችን በጥሩ ሁኔታ ለመገምገም፣ ለእውነተኛው ተጠቃሚ እና ለተሰጠው ውሳኔ "ጥሩ" ምን እንደሚመስል በመግለጽ ይጀምሩ። ከዚያም የሚወክሉ መረጃዎችን፣ ጥብቅ የፍሳሽ ማስወገጃ መቆጣጠሪያዎችን እና በርካታ መለኪያዎችን በመጠቀም ተደጋጋሚ ግምገማዎችን ይገንቡ። ጭንቀትን፣ አድልዎ እና የደህንነት ፍተሻዎችን ያክሉ፣ እና ማንኛውም ነገር በሚለዋወጥበት ጊዜ (ውሂብ፣ ጥያቄ፣ ፖሊሲ)፣ ማሰሪያውን እንደገና ያሂዱ እና ከተጀመረ በኋላ ክትትልዎን ይቀጥሉ።

ቁልፍ ነጥቦች፡

የስኬት መስፈርቶች ፡- መለኪያዎችን ከመምረጥዎ በፊት ተጠቃሚዎችን፣ ውሳኔዎችን፣ ገደቦችን እና በጣም የከፋ ውድቀትን ይግለጹ።

ተደጋጋሚነት ፡- ከእያንዳንዱ ለውጥ ጋር ተመሳሳይ የሆኑ ሙከራዎችን እንደገና የሚያሄድ የግምገማ ማሰሪያ ይገንቡ።

የውሂብ ንፅህና ፡- የተረጋጉ ክፍተቶችን ያስቀምጡ፣ የተባዙ ነገሮችን ይከላከሉ እና የባህሪ መፍሰስን ቀደም ብለው ያግዱ።

የእምነት ፍተሻዎች ፡- የጭንቀት-ፍተሻ ጥንካሬ፣ የፍትሃዊነት ቁርጥራጮች እና የLLM የደህንነት ባህሪያት ግልጽ በሆኑ ደንቦች።

የህይወት ዑደት ዲሲፕሊን ፡- በደረጃዎች ይንሸራተቱ፣ መንሸራተትን እና ክስተቶችን ይከታተሉ፣ እና የሚታወቁ ክፍተቶችን ይመዝግቡ።

ከዚህ ጽሑፍ በኋላ ሊያነቧቸው የሚችሏቸው ጽሑፎች፡

🔗 የ AI ስነምግባር ምንድነው?
ኃላፊነት የሚሰማው የ AI ዲዛይን፣ አጠቃቀም እና አስተዳደርን የሚመሩ መርሆችን ያስሱ።.

🔗 የ AI አድልዎ ምንድን ነው?
የተዛባ መረጃ የ AI ውሳኔዎችን እና ውጤቶችን እንዴት እንደሚያዛባ ይወቁ።.

🔗 AI scalability ምንድን ነው?
ለአፈጻጸም፣ ለዋጋ እና ለአስተማማኝነት የ AI ስኬሊንግ ሲስተሞችን ይረዱ።.

🔗 AI ምንድን ነው?
ስለ አርቲፊሻል ኢንተለጀንስ፣ አይነቶች እና የእውነተኛው ዓለም አጠቃቀሞች ግልጽ የሆነ አጠቃላይ እይታ።.


1) “ጥሩ” በሚለው አስጸያፊ ትርጉም ይጀምሩ 

ከመለኪያዎች በፊት፣ ከዳሽቦርዶች በፊት፣ ከማንኛውም መለኪያ ተጣጣፊነት በፊት - ስኬት ምን እንደሚመስል ይወስኑ።.

ግልጽ አድርግ፦

  • ተጠቃሚው ፡ የውስጥ ተንታኝ፣ ደንበኛ፣ ክሊኒክ፣ ሹፌር፣ በ4 ሰዓት የደከመ የድጋፍ ወኪል…

  • ውሳኔው ፡ ብድር ማጽደቅ፣ ማጭበርበርን መጠቆም፣ ይዘትን መጠቆም፣ ማስታወሻዎችን ማጠቃለል

  • በጣም አስፈላጊ የሆኑት ውድቀቶች፡-

    • የውሸት አዎንታዊ (የሚያስቆጣ) እና የውሸት አሉታዊ (አደገኛ)

  • ገደቦች ፡ መዘግየት፣ በአንድ ጥያቄ የሚከፈል ዋጋ፣ የግላዊነት ደንቦች፣ የማብራሪያ መስፈርቶች፣ ተደራሽነት

ይህ ቡድኖች “ትርጉም ያለው ውጤት” ከማምጣት ይልቅ “ቆንጆ መለኪያ” ለማግኘት የሚጥሩበት ክፍል ነው። ብዙ ጊዜ ይከሰታል። እንደ… ብዙ።.

ይህንን አደጋን የመረዳት (እና በስሜት ላይ የተመሠረተ ሳይሆን) ጠንካራ መንገድ NIST በ AI Risk Management Framework (AI RMF 1.0) [1]።

 

የAI ሞዴሎችን መሞከር

2) “የAI ሞዴሎችን እንዴት መፈተሽ እንደሚቻል” ጥሩ ስሪት የሚያደርገው ምንድን ነው ✅

ጠንካራ የሙከራ አቀራረብ ጥቂት የማይስማሙ ነገሮች አሉት፡

  • የተወካይ መረጃ (ንፁህ የላብራቶሪ መረጃ ብቻ አይደለም)

  • ግልጽ የሆኑ ክፍተቶችን ከማፍሰሻ መከላከያ ጋር (በአንድ ሰከንድ ውስጥ ስለዚያ የበለጠ)

  • መሰረታዊ ነገሮች ( የሚገባቸው - ሞኝ ግምቶች በአንድ ምክንያት አሉ [4])

  • በርካታ መለኪያዎች (ምክንያቱም አንድ ቁጥር በትህትና ፊትዎ ላይ ስለሚወድቅ)

  • የጭንቀት ፈተናዎች (የጠርዝ ጉዳዮች፣ ያልተለመዱ ግብዓቶች፣ ተቃራኒ ሁኔታዎች)

  • የሰው ግምገማ ዑደቶች (በተለይ ለጄኔሬተር ሞዴሎች)

  • ከተጀመረ በኋላ ክትትል (ምክንያቱም ዓለም ስለሚለወጥ፣ የቧንቧ መስመሮች ስለሚሰበሩ እና ተጠቃሚዎች… ፈጣሪዎች ስለሆኑ [1])

እንዲሁም፡ ጥሩ አካሄድ የሞከሩትን፣ ያላደረጉትን እና የሚያስጨንቁዎትን ነገሮች መመዝገብን ያካትታል። “ስለምጨነቅበት” የሚለው ክፍል አስቸጋሪ ሆኖ ይሰማኛል - እናም መተማመን መከማቸት የሚጀምርበት ቦታ ነው።.

ቡድኖችን በግልጽነት እንዲቀጥሉ የሚያግዙ ሁለት የሰነድ ቅጦች፡

  • የሞዴል ካርዶች (ሞዴሉ ለምን ዓላማ እንደሆነ፣ እንዴት እንደተገመገመ፣ የት እንደሚወድቅ) [2]

  • የውሂብ ስብስቦች የውሂብ ሉሆች (መረጃው ምን እንደሆነ፣ እንዴት እንደተሰበሰበ፣ ለምን ጥቅም ላይ መዋል እንደሌለበት/ማዋል እንደሌለበት) [3]


3) የመሳሪያው እውነታ፡ ሰዎች በተግባር የሚጠቀሙበት ነገር 🧰

መሳሪያዎች አማራጭ ናቸው። ጥሩ የግምገማ ልማዶች ግን አማራጭ አይደሉም።.

ተግባራዊ የሆነ ዝግጅት ከፈለጉ፣ አብዛኛዎቹ ቡድኖች ሶስት ባልዲዎችን ያገኛሉ፡

  1. የሙከራ ክትትል (ሂደቶች፣ ውቅሮች፣ ቅርሶች)

  2. የግምገማ ማሰሪያ (ተደጋጋሚ የመስመር ውጪ ሙከራዎች + የሪግሬሽን ስብስቦች)

  3. ክትትል (የመንዳት ምልክቶች፣ የአፈጻጸም ተኪዎች፣ የአደጋ ማንቂያዎች)

በዱር ውስጥ ብዙ የሚያዩዋቸው ምሳሌዎች (ድጋፎችን ሳይሆን፣ እና አዎ - የባህሪያት/የዋጋ ለውጥ)፡ MLflow፣ Weights & Biases፣ Great Expectations፣ Overly፣ Deepchecks፣ OpenAI Evals፣ TruLens፣ LangSmith።.

ከዚህ ክፍል ሀሳብ ብቻ ከመረጡ የሚደገም የግምገማ ማሰሪያ ይገንቡ ። “ተመሳሳይ ውጤቶችን ለማግኘት አዝራሩን ይጫኑ →” የሚለውን ይጫኑ እንጂ “ማስታወሻ ደብተርዎን እንደገና ያሂዱ እና ይጸልዩ” ማለት አይደለም።


4) ትክክለኛውን የሙከራ ስብስብ ይገንቡ (እና የውሂብ መፍሰስን ያቁሙ) 🚧

አስደንጋጭ ቁጥር ያላቸው "አስደናቂ" ሞዴሎች በአጋጣሚ እያጭበረበሩ ነው።.

ለመደበኛ ኤምኤል

ሙያዎችን የሚያድኑ ጥቂት ያልተለመዱ ህጎች:

  • የባቡር/ማረጋገጫ/የሙከራ አድርገው ያስቀምጡ (እና የተከፈለበትን አመክንዮ ይፃፉ)

  • በተከፋፈሉ (ተመሳሳይ ተጠቃሚ፣ ተመሳሳይ ሰነድ፣ ተመሳሳይ ምርት፣ የተባዙ ቅርበት ያላቸው) ይከላከሉ

  • የባህሪ መፍሰስን (ወደ "አሁን" ባህሪያት ሾልኮ የሚገባ የወደፊት መረጃ) ይጠብቁ

  • ድብደባን እንዳያከብሩ መሰረታዊ ነገሮችን (አስቂኝ ግምቶች) ይጠቀሙ… ምንም የለም [4]

የማፍሰስ ፍቺ (ፈጣን ስሪት): በስልጠና/ግምገማ ውስጥ ያለ ማንኛውም ነገር በውሳኔ ጊዜ ውስጥ የማይኖረውን መረጃ እንዲያገኝ ያስችለዋል። ግልጽ (“የወደፊት መለያ”) ወይም ስውር (“ከክስተት በኋላ የጊዜ ማህተም ባልዲ”) ሊሆን ይችላል።

ለኤልኤልኤምዎች እና ለጄኔሬቲቭ ሞዴሎች

"ሞዴል" ብቻ ሳይሆን ፈጣንና የፖሊሲ ስርዓት እየገነባህ ነው

  • የጥያቄዎች ስብስብ ይፍጠሩ

  • የቅርብ ጊዜ እውነተኛ ናሙናዎችን ያክሉ (ስም-አልባ + የግላዊነት-ደህንነት)

  • የጠርዝ መያዣ ጥቅል ያስቀምጡ ፡ የፊደል አጻጻፍ፣ የቋንቋ አጻጻፍ፣ መደበኛ ያልሆነ ቅርጸት፣ ባዶ ግብዓቶች፣ ባለብዙ ቋንቋ አስገራሚ ነገሮች 🌍

ከአንድ ጊዜ በላይ ሲከሰት የተመለከትኩት ተግባራዊ ነገር፡ አንድ ቡድን “ጠንካራ” ከመስመር ውጭ ውጤት ይዞ ይመጣል፣ ከዚያም የደንበኛ ድጋፍ “ጥሩ። አስፈላጊ የሆነውን አንድ ዓረፍተ ነገር በልበ ሙሉነት እያጣ ነው።” ማስተካከያው “ትልቅ ሞዴል” አልነበረም። የተሻሉ የሙከራ ጥያቄዎች ፣ ግልጽ የሆኑ ረቂቆች እና ያንን የውድቀት ሁነታ የሚቀጣ የሪግሬሽን ስብስብ ነበር። ቀላል። ውጤታማ።


5) ከመስመር ውጭ ግምገማ፡- የሆነ ነገርን የሚያመለክቱ መለኪያዎች 📏

ሜትሪክስ ጥሩ ነው። ሜትሪክ ሞኖካልቸር አይደለም።.

ምደባ (አይፈለጌ መልእክት፣ ማጭበርበር፣ ዓላማ፣ ልዩነት)

ከትክክለኛነት በላይ ይጠቀሙ።.

  • ትክክለኛነት፣ ማስታወስ፣ F1

  • የደረጃ ማስተካከያ (የእርስዎ ነባሪ ገደብ ለወጪዎችዎ "ትክክል" አይደለም) [4]

  • በክፍል የግራ መጋባት ማትሪክስ (ክልል፣ የመሣሪያ አይነት፣ የተጠቃሚ ስብስብ)

ተደጋጋሚ ቅነሳ (ትንበያ፣ ዋጋ አሰጣጥ፣ ውጤት ማስመዝገብ)

  • MAE / RMSE (ስህተቶችን እንዴት መቅጣት እንደሚፈልጉ ላይ በመመስረት ይምረጡ)

  • የውጤቶች መለኪያ እንደ “ውጤቶች” ጥቅም ላይ ሲውሉ የሚፈትሽ ነው (ውጤቶች ከእውነታው ጋር ይጣጣማሉ?)

የደረጃ አሰጣጥ / የምክር ስርዓቶች

  • ኤንዲሲጂ፣ ማፕ፣ ኤምአርአር

  • በጥያቄ አይነት (ራስ እና ጅራት) ይቁረጡ

የኮምፒውተር ራዕይ

  • mAP፣ IoU

  • በክፍል የሚፈጸም አፈጻጸም (ሞዴሎች የሚያሸማቅቁዎት ብርቅዬ ክፍሎች ናቸው)

ጀነሬቲቭ ሞዴሎች (LLMs)

ሰዎች የሚያገኙት እዚህ ነው… ፍልስፍናዊ 😵💫

በእውነተኛ ቡድኖች ውስጥ የሚሰሩ ተግባራዊ አማራጮች፡

  • የሰው ግምገማ (ምርጥ ምልክት፣ በጣም ቀርፋፋ ዑደት)

  • ጥንድ ምርጫ / የማሸነፍ መጠን (ከፍጹም ውጤት ይልቅ A እና B ቀላል ናቸው)

  • ራስ-ሰር የጽሑፍ መለኪያዎች (ለአንዳንድ ተግባራት ምቹ፣ ለሌሎች አሳሳች)

  • በተግባር ላይ የተመሰረቱ ቼኮች፡- “ትክክለኛዎቹን መስኮች አውጥቷል?” “ፖሊሲውን ተከትሏል?” “አስፈላጊ በሚሆንበት ጊዜ ምንጮችን ጠቅሷል?”

የተዋቀረ "ባለብዙ ሜትሪክ፣ ብዙ ሁኔታዎች" የማጣቀሻ ነጥብ ከፈለጉ፣ HELM ጥሩ መልህቅ ነው፡- እንደ መለኪያ፣ ጥንካሬ፣ አድልዎ/መርዛማነት እና የቅልጥፍና ልውውጥ ባሉ ነገሮች ላይ ግምገማን በግልጽ ይገፋል [5]።.

ትንሽ መዘናጋት፡- ለጽሑፍ ጥራት አውቶማቲክ መለኪያዎች አንዳንድ ጊዜ ሳንድዊች በመመዘን እንደ መፍረድ ይሰማቸዋል። ምንም አይደለም፣ ግን… ና 🥪


6) የጥንካሬ ሙከራ፡ ትንሽ ላብ ያድርጉት 🥵🧪

ሞዴልዎ በንፁህ ግብዓቶች ላይ ብቻ የሚሰራ ከሆነ፣ በመሠረቱ የመስታወት የአበባ ማስቀመጫ ነው። ቆንጆ፣ ተሰባሪ፣ ውድ።.

ሙከራ፡

  • ጫጫታ፡ የፊደል አጻጻፍ ስህተቶች፣ የጎደሉ እሴቶች፣ መደበኛ ያልሆነ ዩኒኮድ፣ የቅርጸት ችግሮች

  • የስርጭት ለውጥ፡- አዳዲስ የምርት ምድቦች፣ አዲስ የቋንቋ ዘይቤ፣ አዳዲስ ዳሳሾች

  • እጅግ በጣም ከፍተኛ እሴቶች፡ ከክልል ውጪ የሆኑ ቁጥሮች፣ ግዙፍ የክፍያ ጭነቶች፣ ባዶ ሕብረቁምፊዎች

  • የስልጠና ስብስብዎን የማይመስሉ ነገር ግን ተጠቃሚዎችን የሚመስሉ

ለኤልኤልኤምዎች፣ የሚከተሉትን ያካትቱ፦

  • ፈጣን የመርፌ ሙከራዎች (መመሪያዎች በተጠቃሚ ይዘት ውስጥ ተደብቀዋል)

  • «ቀዳሚ መመሪያዎችን ችላ በል» ቅጦች

  • የመሳሪያ አጠቃቀም ጠርዝ መያዣዎች (መጥፎ ዩአርኤሎች፣ የጊዜ ማብቂያዎች፣ ከፊል ውጤቶች)

ጥንካሬ አንድ ነገር እስኪያጋጥምዎት ድረስ ረቂቅ የሚመስል አስተማማኝነት ከሚመስሉ ባህሪያት አንዱ ነው። ከዚያም… በጣም ተጨባጭ ይሆናል [1]።.


7) አድልዎ፣ ፍትሃዊነት እና ለማን እንደሚሰራ ⚖️

አንድ ሞዴል በአጠቃላይ “ትክክለኛ” ሊሆን ይችላል፣ ለተወሰኑ ቡድኖች ደግሞ በተከታታይ የከፋ ሊሆን ይችላል። ይህ ትንሽ ስህተት አይደለም። ይህ የምርት እና የመተማመን ችግር ነው።.

ተግባራዊ እርምጃዎች፡

  • አፈፃፀምን ትርጉም ባላቸው ክፍሎች (ለመለካት በህግ/በሥነ ምግባር ተገቢ)

  • የስህተት መጠኖችን እና በቡድኖች መካከል ያለውን መለኪያ ያወዳድሩ

  • ሚስጥራዊ ባህሪያትን ሊገልጹ የሚችሉ የተኪ ባህሪያትን (የዚፕ ኮድ፣ የመሣሪያ አይነት፣ ቋንቋ) ይሞክሩ

ይህንን የሆነ ቦታ ላይ እየመዘገብክ ካልሆነ፣ በመሠረቱ የወደፊት - ያለ ካርታ የእምነት ቀውስን እንድታስተካክል እየጠየቅክ ነው። የሞዴል ካርዶች ለማስቀመጥ ጠንካራ ቦታ ናቸው [2]፣ እና የNIST አስተማማኝነት ማዕቀፍ "ጥሩ" ምን ማካተት እንዳለበት ጠንካራ የፍተሻ ዝርዝር ይሰጥዎታል [1]።.


8) የደህንነት እና የደህንነት ሙከራ (በተለይ ለኤልኤልኤምዎች) 🛡️

ሞዴልዎ ይዘት ማመንጨት ከቻለ፣ ከትክክለኛነት በላይ እየሞከሩ ነው። ባህሪን እየሞከሩ ነው።.

የሚከተሉትን ፈተናዎች ያካትቱ፦

  • የይዘት ማመንጨት የተከለከለ ነው (የፖሊሲ ጥሰቶች)

  • የግላዊነት መፍሰስ (ምስጢሮችን ያስተጋባል?)

  • በከፍተኛ ደረጃ በሚከሰቱ አካባቢዎች ውስጥ ቅዠቶች

  • ከልክ በላይ ውድቅ ማድረግ (ሞዴሉ መደበኛ ጥያቄዎችን ውድቅ ማድረግ)

  • መርዛማነት እና የትንኮሳ ውጤቶች

  • በአፋጣኝ መርፌ የውሂብን የማጣራት ሙከራዎች

መሰረታዊ አካሄድ፡ የፖሊሲ ደንቦችን ይግለጹ → የግንባታ ሙከራ ጥያቄዎች → የውጤት ውጤቶችን በሰው + አውቶማቲክ ቼኮች → ማንኛውም ነገር በተቀየረ ቁጥር ያሂዱት። ያ “በእያንዳንዱ ጊዜ” ክፍል ኪራይ ነው።.

ይህ ከህይወት ዑደት የአደጋ አስተሳሰብ ጋር በትክክል ይጣጣማል፡ ማስተዳደር፣ አውድ ካርታ ማውጣት፣ መለካት፣ ማስተዳደር፣ መድገም [1]።.


9) የመስመር ላይ ሙከራ፡ የታቀዱ ልቀቶች (እውነት የሚኖርበት) 🚀

ከመስመር ውጭ ሙከራዎች አስፈላጊ ናቸው። የመስመር ላይ መጋለጥ ጭቃማ ጫማ ሲለብሱ እውነታው የሚታይበት ቦታ ነው።.

ጨዋ መሆን አይጠበቅብህም። ዲሲፕሊን ብቻ ነው የሚያስፈልግህ፡

  • በጥላ ሁነታ አሂድ (ሞዴል ይሰራል፣ ተጠቃሚዎችን አይጎዳም)

  • ቀስ በቀስ መልቀቅ (መጀመሪያ አነስተኛ ትራፊክ፣ ጤናማ ከሆነ መስፋፋት)

  • እና ይከታተሉ (ቅሬታዎች፣ ጭማሪዎች፣ የፖሊሲ ውድቀቶች)

ወዲያውኑ መለያዎችን ማግኘት ባይችሉም፣ የተኪ ምልክቶችን እና የአሠራር ጤናን (ዘግይቶ የመሄድ፣ የውድቀት መጠኖች፣ ዋጋ) መከታተል ይችላሉ። ዋናው ነጥብ፡- የተጠቃሚዎ አጠቃላይ መሰረት ከመሆኑ በፊት


10) ከተሰማራ በኋላ ክትትል፡ መንሸራተት፣ መበስበስ እና ጸጥ ያለ ውድቀት 📉👀

የሞከርከው ሞዴል በመጨረሻ የምትኖረው ሞዴል አይደለም። የውሂብ ለውጥ። ተጠቃሚዎች ይለወጣሉ። ዓለም ይለወጣል። የቧንቧ መስመር በ2 ሰዓት ይቋረጣል። እንዴት እንደሆነ ታውቃለህ…

ተቆጣጠር፥

  • የግብዓት የውሂብ ዝውውር (የእቅድ ለውጦች፣ የጎደለው ሁኔታ፣ የስርጭት ለውጦች)

  • የውጤት ተንሸራታች (የክፍል ሚዛን ለውጦች፣ የውጤት ፈረቃዎች)

  • የአፈጻጸም ፕሮክሲዎች (ምክንያቱም የመለያ መዘግየቶች እውነተኛ ስለሆኑ)

  • የግብረመልስ ምልክቶች (አውራ ጣት ወደ ታች፣ እንደገና ማስተካከያዎች፣ ጭማሪዎች)

  • የክፍል ደረጃ ተመላሾች (ዝምተኛ ገዳዮች)

እና በጣም የማይወዛወዙ የማንቂያ ገደቦችን ያዘጋጁ። ያለማቋረጥ የሚጮህ ሞኒተር ችላ ይባላል - ልክ በከተማ ውስጥ እንዳለ የመኪና ማንቂያ።.

ይህ "የማሳያ + ከጊዜ በኋላ መሻሻል" ዑደት ስለ እምነት የሚጣልበት ሰው የሚያስቡ ከሆነ አማራጭ አይደለም [1]።.


11) ሊገለብጡት የሚችሉት ተግባራዊ የስራ ፍሰት 🧩

የሚለካ ቀላል ዑደት እነሆ፡-

  1. የስኬት እና የውድቀት ሁነታዎችን ይግለጹ (ወጪ/ዘገየት/ደህንነትን ያካትቱ) [1]

  2. የውሂብ ስብስቦችን ይፍጠሩ፦

    • ወርቃማ ስብስብ

    • የጠርዝ መያዣ ጥቅል

    • የቅርብ ጊዜ እውነተኛ ናሙናዎች (የግላዊነት ደህንነት)

  3. መለኪያዎችን ይምረጡ፦

    • የተግባር መለኪያዎች (F1፣ MAE፣ የማሸነፍ መጠን) [4][5]

    • የደህንነት መለኪያዎች (የፖሊሲ ማለፊያ መጠን) [1][5]

    • የአሠራር መለኪያዎች (ዘግይቶ መኖር፣ ወጪ)

  4. የግምገማ ማሰሪያ ይገንቡ (በእያንዳንዱ የሞዴል/ፈጣን ለውጥ ላይ ይሰራል) [4][5]

  5. የጭንቀት ፈተናዎችን + የተቃዋሚ-ኢ ..

  6. የሰው ግምገማ ለአንድ ናሙና (በተለይም ለLLM ውጤቶች) [5]

  7. በጥላ + የታቀደ ልቀት በኩል ይላኩ [1]

  8. ክትትል + ማንቂያ + በዲሲፕሊን እንደገና ማሰልጠን [1]

  9. የሰነድ ውጤቶች የሞዴል-ካርድ አይነት አጻጻፍ [2][3]

ስልጠናው አስደናቂ ነው። ፈተናው ኪራይ የሚከፍል ነው።.


12) የመዝጊያ ማስታወሻዎች + ፈጣን ማጠቃለያ 🧠✨

የAI ሞዴሎችን እንዴት መፈተሽ እንደሚቻል ጥቂት ነገሮችን ብቻ የሚያስታውሱ ከሆነ

  • የተወካይ የሙከራ ውሂብን ይጠቀሙ እና መፍሰስን ያስወግዱ [4]

  • በርካታ መለኪያዎችን ይምረጡ [4][5]

  • ለኤልኤልኤምዎች፣ በሰው ግምገማ + የማሸነፍ ደረጃ ስታይል ንጽጽሮችን [5]

  • የፈተና ጥንካሬ - ያልተለመዱ ግብዓቶች በድብቅ የተደበቁ መደበኛ ግብዓቶች ናቸው [1]

  • ሞዴሎቹ ስለሚንሸራተቱ እና የቧንቧ መስመሮች ስለሚሰበሩ ደህንነቱ በተጠበቀ ሁኔታ ይንከባለሉ እና ይቆጣጠሩ [1]

  • ምን እንዳደረጉ እና ምን እንዳልሞከሩ ይመዝግቡ (ምቾት የማይሰጥ ግን ኃይለኛ) [2][3]

ሙከራ ማድረግ "እሱ እንደሚሰራ ማረጋገጥ" ብቻ አይደለም። "ተጠቃሚዎችዎ ከመጀመራቸው በፊት እንዴት እንደማይሳካ ይወቁ" ነው። እና አዎ፣ ያ ብዙም ወሲባዊ አይደለም - ነገር ግን ነገሮች ሲወዛወዙ ስርዓትዎ እንዲቆም የሚያደርገው ክፍል ነው… 🧱🙂


ተደጋጋሚ ጥያቄዎች

የ AI ሞዴሎችን ለመፈተሽ በጣም ጥሩው መንገድ ከእውነተኛ የተጠቃሚ ፍላጎቶች ጋር እንዲጣጣም

"ጥሩ" የሚለውን በእውነተኛ ተጠቃሚ እና ሞዴሉ በሚደግፈው ውሳኔ መሰረት በመግለጽ ይጀምሩ፣ የመሪ ሰሌዳ መለኪያ ብቻ አይደለም። ከፍተኛ የወጪ ውድቀት ሁነታዎችን (የውሸት አወንታዊዎች ከውሸት አሉታዊዎች) ይለዩ እና እንደ መዘግየት፣ ወጪ፣ ግላዊነት እና ማብራሪያ ያሉ ከባድ ገደቦችን ይግለጹ። ከዚያም እነዚያን ውጤቶች የሚያንፀባርቁ መለኪያዎችን እና የሙከራ ጉዳዮችን ይምረጡ። ይህ ወደ የተሻለ ምርት የማይተረጎም "ቆንጆ መለኪያ" ከማመቻቸት ይጠብቅዎታል።.

የግምገማ መለኪያዎችን ከመምረጥዎ በፊት የስኬት መስፈርቶችን መግለፅ

ተጠቃሚው ማን እንደሆነ፣ ሞዴሉ ምን ዓይነት ውሳኔ እንደሚደግፍ እና በምርት ውስጥ “በጣም የከፋ ውድቀት” ምን እንደሚመስል ይፃፉ። እንደ ተቀባይነት ያለው መዘግየት እና በአንድ ጥያቄ የሚወጣውን ወጪ ያሉ የአሠራር ገደቦችን እንዲሁም የግላዊነት ደንቦችን እና የደህንነት ፖሊሲዎችን የመሳሰሉ የአስተዳደር ፍላጎቶችን ያክሉ። እነዚህ አንዴ ግልጽ ከሆኑ መለኪያዎች ትክክለኛውን ነገር ለመለካት መንገድ ይሆናሉ። ያለዚህ ማዕቀፍ፣ ቡድኖች ለመለካት በጣም ቀላል የሆነውን ነገር ወደ ማመቻቸት ይንቀሳቀሳሉ።.

በሞዴል ግምገማ ውስጥ የውሂብ መፍሰስን እና ድንገተኛ ማጭበርበርን መከላከል

የባቡር/ማረጋገጫ/የሙከራ ክፍተቶችን የተረጋጋ አድርገው ያስቀምጡ እና ውጤቶቹ እንደገና ሊባዙ የሚችሉ ሆነው እንዲቆዩ የተከፋፈለ አመክንዮውን ይመዘግቡ። በተከፋፈለው (ተመሳሳይ ተጠቃሚ፣ ሰነድ፣ ምርት ወይም ተደጋጋሚ ቅጦች) ላይ የተባዙ እና የተባዙ ነገሮችን በንቃት ያግዱ። “የወደፊቱ” መረጃ በጊዜ ማህተሞች ወይም ከክስተት በኋላ ባሉ መስኮች ውስጥ ወደ ግብዓቶች የሚንሸራተትበትን የባህሪ መፍሰስን ይጠብቁ። ​​ጠንካራ የመነሻ መስመር (አስቂኝ ግምቶች እንኳን) ጫጫታ ሲያከብሩ እንዲያስተውሉ ይረዳዎታል።.

ፈተናዎች በለውጦች ላይ ተደጋጋሚ ሆነው እንዲቆዩ የግምገማ ማሰሪያ ምን ማካተት አለበት

ተግባራዊ የሆነ ማሰሪያ ተመሳሳይ የውሂብ ስብስቦችን እና የውጤት ደንቦችን በመጠቀም በእያንዳንዱ ሞዴል፣ ፕሮምፕል ወይም የፖሊሲ ለውጥ ላይ ተመሳሳይ ሙከራዎችን እንደገና ያካሂዳል። በተለምዶ የሪግሬሽን ስብስብ፣ ግልጽ የሆኑ የመለኪያ ዳሽቦርዶችን እና ለመከታተል የተከማቹ ውቅሮችን እና ቅርሶችን ያካትታል። ለኤልኤልኤም ስርዓቶች፣ የተረጋጋ “ወርቃማ ስብስብ” እና የጠርዝ መያዣ ጥቅል ይፈልጋል። ግቡ “አዝራርን → ተመሳሳይ ውጤቶችን ይጫኑ” እንጂ “ማስታወሻ ደብተርን እንደገና ያሂዱ እና ይጸልዩ” አይደለም።

ከትክክለኛነት በላይ የሆኑ የAI ሞዴሎችን ለመሞከር መለኪያዎች

በርካታ መለኪያዎችን ይጠቀሙ፣ ምክንያቱም አንድ ቁጥር አስፈላጊ የሆኑ ልውውጦችን ሊደብቅ ይችላል። ለምደባ፣ ትክክለኛነትን/ሪካክ/F1ን ከገደብ ማስተካከያ እና ግራ መጋባት ማትሪክስ ጋር በክፍል ያጣምሩ። ለሪግሬሽን፣ ስህተቶችን እንዴት መቅጣት እንደሚፈልጉ ላይ በመመስረት MAE ወይም RMSE ይምረጡ፣ እና ውጤቶች እንደ ውጤቶች ሲሰሩ የመለኪያ አይነት ፍተሻዎችን ያክሉ። ደረጃ ለመስጠት፣ ያልተመጣጠነ አፈፃፀምን ለማግኘት NDCG/MAP/MRR ይጠቀሙ እና በጭንቅላት እና በጅራት ጥያቄዎችን ይቁረጡ።.

አውቶማቲክ መለኪያዎች ሲሳኩ የLLM ውጤቶችን መገምገም

እንደ ፈጣን እና የፖሊሲ ስርዓት እና የውጤት ባህሪ አድርገው ይመለከቱት፣ የጽሑፍ ተመሳሳይነት ብቻ አይደለም። ብዙ ቡድኖች የሰውን ግምገማ ከጥንዶች ምርጫ (A/B የማሸነፍ መጠን) ጋር እንዲሁም “ትክክለኛዎቹን መስኮች አውጥቷል?” ወይም “ፖሊሲውን ተከትሏል?” ያሉ ተግባራትን መሰረት ያደረጉ ቼኮችን ያጣምራሉ። አውቶማቲክ የጽሑፍ መለኪያዎች በጠባብ ጉዳዮች ላይ ሊረዱ ይችላሉ፣ ነገር ግን ብዙውን ጊዜ ተጠቃሚዎች የሚያስቡትን ነገር ያጣሉ። ግልጽ የሆኑ የሪግሬሽን ስብስቦች እና የሪግሬሽን ስብስቦች ብዙውን ጊዜ ከአንድ ነጥብ በላይ አስፈላጊ ናቸው።.

ሞዴሉ ጫጫታ ባላቸው ግብዓቶች ላይ እንዳይሰበር የጥንካሬ ሙከራዎችን ለማሄድ

ሞዴሉን በፊደል አጻጻፍ፣ የጎደሉ እሴቶች፣ እንግዳ ቅርጸት እና መደበኛ ያልሆነ ዩኒኮድ ይሞክሩ፣ ምክንያቱም እውነተኛ ተጠቃሚዎች እምብዛም ንፁህ አይደሉም። እንደ አዲስ ምድቦች፣ ስላንግ፣ ዳሳሾች ወይም የቋንቋ ቅጦች ያሉ የስርጭት ፈረቃ ጉዳዮችን ያክሉ። ለገጽታ ብልሽት ባህሪ ከፍተኛ እሴቶችን (ባዶ ሕብረቁምፊዎች፣ ከፍተኛ የክፍያ ጭነቶች፣ ከክልል ውጪ ያሉ ቁጥሮች) ያካትቱ። ለኤልኤልኤምዎች፣ እንደ የጊዜ ማብቂያ ወይም ከፊል ውፅዓት ያሉ የፈጣን መርፌ ቅጦችን እና የመሳሪያ አጠቃቀም ውድቀቶችን ይሞክሩ።.

በንድፈ ሀሳብ ውስጥ ሳይጠፉ የአድልዎ እና የፍትሃዊነት ጉዳዮችን መፈተሽ

ትርጉም ባላቸው ቁርጥራጮች ላይ አፈጻጸምን ገምግም እና በሕጋዊ እና በሥነ ምግባር ተገቢ በሆነባቸው ቡድኖች መካከል የስህተት መጠኖችን እና የመለኪያ መጠኖችን ያወዳድሩ። ሚስጥራዊ ባህሪያትን በተዘዋዋሪ ሊገልጹ የሚችሉ የተኪ ባህሪያትን (እንደ ዚፕ ኮድ፣ የመሣሪያ አይነት ወይም ቋንቋ ያሉ) ይፈልጉ። አንድ ሞዴል ለተወሰኑ ቡድኖች በተከታታይ ሲወድቅ "በአጠቃላይ ትክክለኛ" ሊመስል ይችላል። የለኩትን እና ያላደረጉትን ይመዝግቡ፣ ስለዚህ የወደፊት ለውጦች በጸጥታ ወደ ኋላ ተመልሰው እንዳይገቡ።.

ለጄኔሬቲቭ AI እና LLM ስርዓቶች የደህንነት እና የደህንነት ሙከራዎችን ማካተት

ያልተፈቀዱ የይዘት ማመንጨት፣ የግላዊነት መፍሰስ፣ በከፍተኛ ደረጃ በሚከሰቱ ጎራዎች ውስጥ ቅዠቶች እና ሞዴሉ መደበኛ ጥያቄዎችን የሚያግድባቸው ከመጠን በላይ እምቢታዎችን ይፈትሹ። በተለይም ስርዓቱ መሳሪያዎችን የሚጠቀም ወይም ይዘትን የሚያወጣ ከሆነ ፈጣን መርፌ እና የውሂብ ማጣሪያ ሙከራዎችን ያካትቱ። የተመሰረተ የስራ ፍሰት የሚከተሉትን ያካትታል፡ የፖሊሲ ደንቦችን ይግለጹ፣ የሙከራ ጥያቄ ስብስብ ይገንቡ፣ በሰው ፕላስ አውቶማቲክ ቼኮች ያስመዝግቡ፣ እና ጥያቄዎች፣ መረጃዎች ወይም ፖሊሲዎች በሚቀየሩበት ጊዜ ሁሉ እንደገና ያስኬዱት። ወጥነት የሚከፍሉት ኪራይ ነው።.

ከተጀመረ በኋላ የ AI ሞዴሎችን መዘርጋት እና መከታተል ተንሸራታቾችን እና ክስተቶችን ለመያዝ

ሙሉ የተጠቃሚ መሰረትዎ ከመድረሱ በፊት ውድቀቶችን ለማግኘት እንደ የጥላ ሁነታ እና ቀስ በቀስ የትራፊክ መወጣጫዎች ያሉ የተደረደሩ የልቀት ቅጦችን ይጠቀሙ። የግብዓት መንሸራተትን (የእቅድ ለውጦች፣ የጎደለነት፣ የስርጭት ፈረቃዎች) እና የውጤት መንሸራተትን (የውጤት ፈረቃዎች፣ የክፍል ሚዛን ፈረቃዎች) እንዲሁም እንደ መዘግየት እና ወጪ ያሉ የአሠራር ጤናን ይከታተሉ። እንደ አርትዖቶች፣ ጭማሪዎች እና ቅሬታዎች ያሉ የግብረመልስ ምልክቶችን ይከታተሉ እና የክፍል ደረጃ ተደጋጋሚ ምላሾችን ይመልከቱ። ማንኛውም ነገር ሲለወጥ፣ ተመሳሳይ ማሰሪያውን እንደገና ያሂዱ እና ያለማቋረጥ ክትትል ያድርጉ።.

ማጣቀሻዎች

[1] NIST - አርቲፊሻል ኢንተለጀንስ ሪሰርች ማዕቀፍ (AI RMF 1.0) (PDF)
[2] ሚቸል እና ሌሎች - “ለሞዴል ሪፖርት የሚሆኑ የሞዴል ካርዶች” (arXiv:1810.03993)
[3] ገብሩ እና ሌሎች - “ለመረጃ ስብስቦች የውሂብ ሉሆች” (arXiv:1803.09010)
[4] scikit-learn - “የሞዴል ምርጫ እና ግምገማ” ሰነድ
[5] ሊያንግ እና ሌሎች - “የቋንቋ ሞዴሎች አጠቃላይ ግምገማ” (arXiv:2211.09110)

የቅርብ ጊዜውን የ AI ኦፊሴላዊ የ AI ረዳት መደብር ያግኙ

ስለ እኛ

ወደ ጦማር ተመለስ