በማስታወሻ ደብተር ውስጥ የደነዘዘ ነገር ግን በምርት ላይ የተደናቀፈ ሞዴል ከጫኑ፡ ሚስጥሩን አስቀድመው ያውቁታል ፡ የ AI አፈጻጸም እንዴት እንደሚለካ አንድ አስማት መለኪያ አይደለም። ከገሃዱ አለም ግቦች ጋር የተሳሰረ የፍተሻ ስርዓት ነው። ትክክለኛነት ቆንጆ ነው። አስተማማኝነት፣ ደህንነት እና የንግድ ተፅእኖ የተሻሉ ናቸው።
ከዚህ ጽሑፍ በኋላ ሊያነቧቸው የሚችሏቸው ጽሑፎች፡
🔗 እንዴት ከ AI ጋር መነጋገር እንደሚቻል
በተከታታይ ለተሻለ ውጤት ከ AI ጋር በብቃት የመግባቢያ መመሪያ።
🔗 AI የሚያነሳሳው ምንድን ነው?
የ AI ምላሾችን እና የውጤት ጥራትን እንዴት እንደሚቀርጹ ያብራራል።
🔗 የ AI ውሂብ መለያ ምንድ ነው?
ለስልጠና ሞዴሎች ትክክለኛ መለያዎችን በውሂብ የመመደብ አጠቃላይ እይታ።
🔗 የ AI ስነምግባር ምንድነው?
ኃላፊነት የሚሰማው AI ልማት እና ማሰማራትን የሚመሩ የስነምግባር መርሆዎች መግቢያ።
ጥሩ የ AI አፈፃፀም ምን ያደርጋል? ✅
አጭር ስሪት፡ ጥሩ የ AI አፈጻጸም ማለት ስርዓትዎ ጠቃሚ፣ እምነት የሚጣልበት እና በተዘበራረቀ ሁኔታ ሊደገም የሚችል፣ ሁኔታዎችን የሚቀይር ነው። በትክክል፡-
-
የተግባር ጥራት - ለትክክለኛ ምክንያቶች ትክክለኛ መልሶችን ያገኛል.
-
ልኬት - በራስ መተማመን ውጤቶች ከእውነታው ጋር ይሰለፋሉ፣ ስለዚህ ብልህ እርምጃ መውሰድ ይችላሉ።
-
ጥንካሬ - በተንሸራታች ፣ በጠርዝ ጉዳዮች እና በተቃዋሚ ፉዝ ስር ይይዛል።
-
ደህንነት እና ፍትሃዊነት - ጎጂ፣ አድሏዊ ወይም የማይታዘዝ ባህሪን ያስወግዳል።
-
ቅልጥፍና - በቂ ፈጣን፣ በቂ ርካሽ እና በመጠኑ ለመሮጥ የተረጋጋ ነው።
-
የንግድ ተጽዕኖ - በእርግጥ እርስዎ ግድ ያለውን KPI ያንቀሳቅሳል.
መለኪያዎችን እና ስጋቶችን ለማስተካከል መደበኛ የማመሳከሪያ ነጥብ ከፈለጉ፣ የ NIST AI ስጋት አስተዳደር ማዕቀፍ ለታማኝ የስርዓት ግምገማ ጠንካራ የሰሜን ኮከብ ነው። [1]

የ AI አፈፃፀምን ለመለካት ከፍተኛ ደረጃ የምግብ አዘገጃጀት መመሪያ 🍳
እርከኖች አስቡ :
-
የተግባር መለኪያዎች - ለተግባር አይነት ትክክለኛነት: ምደባ, መመለሻ, ደረጃ, ማመንጨት, ቁጥጥር, ወዘተ.
-
የሥርዓት መለኪያዎች - የቆይታ ጊዜ፣ የመተላለፊያ ጊዜ፣ በጥሪ ወጪ፣ የውድቀት ተመኖች፣ ተንሳፋፊ ማንቂያዎች፣ የሰአት ጊዜ SLAዎች።
-
የውጤት መለኪያዎች - የሚፈልጉት የንግድ እና የተጠቃሚ ውጤቶች፡ ልወጣ፣ ማቆየት፣ የደህንነት አደጋዎች፣ በእጅ የሚገመገም ጭነት፣ የቲኬት መጠን።
ታላቅ የመለኪያ እቅድ ሆን ብሎ ሦስቱንም ያቀላቅላል። ያለበለዚያ ከማስጀመሪያ ሰሌዳው የማይወጣ ሮኬት ያገኛሉ።
ዋና መለኪያዎች በችግር አይነት - እና መቼ የትኛውን 🎯 መጠቀም እንዳለባቸው
1) ምደባ
-
ትክክለኛነት ፣ አስታውስ ፣ F1 - ቀን-አንድ ሶስት። F1 የትክክለኛነት እና የማስታወስ ሃርሞኒክ ነው; ክፍሎቹ ሚዛናዊ ካልሆኑ ወይም ወጪዎች ተመጣጣኝ ሲሆኑ ጠቃሚ ነው። [2]
-
ROC-AUC - የክላሲፋፋዮች ደፍ-አግኖስቲክ ደረጃ; አወንታዊዎች እምብዛም በማይሆኑበት ጊዜ, እንዲሁም PR-AUCን . [2]
-
የተመጣጠነ ትክክለኛነት - በክፍል ውስጥ የማስታወስ አማካይ; ለተዛባ መለያዎች ምቹ። [2]
Pitfall watch ፡ ትክክለኛነት ብቻውን ሚዛናዊ ባልሆነ ሚዛን አሳሳች ሊሆን ይችላል። 99% ተጠቃሚዎች ህጋዊ ከሆኑ፣ ዲዳ ሁሌም ህጋዊ ሞዴል 99% ያስመዘገበ ሲሆን ከምሳ በፊት የማጭበርበር ቡድንዎን ይወድቃል።
2) መመለሻ
-
MAE ለሰው ሊነበብ የሚችል ስህተት; ትልቅ ኪሳራዎችን ለመቅጣት ሲፈልጉ RMSE R² ለልዩነት ተብራርቷል። ከዚያም የንጽህና-ቼክ ስርጭቶችን እና ቀሪ ቦታዎችን. [2]
(ባለድርሻ አካላት ስህተቱ እንዲሰማቸው ለጎራ ተስማሚ ክፍሎችን ይጠቀሙ።)
3) ደረጃ መስጠት, መልሶ ማግኘት, ምክሮች
-
nDCG - ስለ አቀማመጥ እና ደረጃ የተሰጠው ተገቢነት ያስባል; ለፍለጋ ጥራት መደበኛ.
-
MRR - የመጀመሪያው ተዛማጅ ንጥል በምን ያህል ፍጥነት እንደሚታይ ላይ ያተኩራል (ለ "አንድ ጥሩ መልስ ለማግኘት" ተግባራት ጥሩ ነው)።
(የአተገባበር ማጣቀሻዎች እና የተሰሩ ምሳሌዎች በዋና ሜትሪክ ቤተ-መጽሐፍት ውስጥ ይገኛሉ።) [2]
4) የጽሑፍ ማመንጨት እና ማጠቃለያ
-
BLEU እና ROUGE - ክላሲክ መደራረብ መለኪያዎች; እንደ መነሻዎች ጠቃሚ.
-
በመክተት ላይ የተመሰረቱ መለኪያዎች (ለምሳሌ፣ BERTScore ) ብዙውን ጊዜ ከሰው ፍርድ ጋር ይዛመዳሉ። ሁልጊዜ ለቅጥ፣ ለታማኝነት እና ለደህንነት ሲባል ከሰዎች ደረጃዎች ጋር ያጣምሩ። [4]
5) የጥያቄ መልስ
-
ትክክለኛ ተዛማጅ እና ማስመሰያ ደረጃ F1 Extract QA የተለመደ ነው; ምላሾች ምንጮችን መጥቀስ ካለባቸው፣ እንዲሁም መሬቶችን (የመልስ ድጋፍ ማረጋገጫዎችን) ይለኩ።
ልኬት፣ በራስ መተማመን እና የብራይየር ሌንሶች 🎚️
የመተማመን ውጤቶች ብዙ ስርዓቶች በጸጥታ የሚዋሹበት ነው። ops ገደቦችን፣ የሰዎችን መንገድ ወይም የዋጋ ስጋትን እንዲያዘጋጁ እውነታውን የሚያንፀባርቁ ዕድሎችን ይፈልጋሉ።
-
የመለኪያ ኩርባዎች - የተገመተውን ዕድል ከተጨባጭ ድግግሞሽ ጋር በዓይነ ሕሊናህ ተመልከት።
-
Brier ነጥብ - ለፕሮባቢሊቲ ትክክለኛነት ትክክለኛ የውጤት አሰጣጥ ህግ; ዝቅተኛ ይሻላል. ደረጃው ብቻ ሳይሆን ለችሎታው ጥራት ሲጨነቁ በጣም ጠቃሚ ነው [3]
የመስክ ማስታወሻ ፡ ትንሽ “የከፋ” F1 ነገር ግን በጣም የተሻለው ማስተካከያ በእጅጉ ያሻሽላል - ምክንያቱም ሰዎች በመጨረሻ ውጤቶቹን ማመን ይችላሉ።
ደህንነት፣ አድልዎ እና ፍትሃዊነት - አስፈላጊ የሆነውን ይለኩ 🛡️⚖️
ስርዓቱ በአጠቃላይ ትክክለኛ ሊሆን ይችላል እና አሁንም የተወሰኑ ቡድኖችን ይጎዳል። የቡድን መለኪያዎችን እና የፍትሃዊነት መስፈርቶችን ይከታተሉ
-
የስነሕዝብ እኩልነት - በቡድኖች ውስጥ እኩል አዎንታዊ ተመኖች።
-
እኩል ዕድሎች / እኩል ዕድል - እኩል የስህተት ተመኖች ወይም በቡድኖች ውስጥ እውነተኛ-አዎንታዊ ተመኖች; ግብይቶችን ለማግኘት እና ለማስተዳደር እነዚህን ይጠቀሙ እንጂ እንደ አንድ-ምት ማለፊያ–ውድቀት ማህተሞች። [5]
ተግባራዊ ጠቃሚ ምክር፡ ዋና መለኪያዎችን በቁልፍ ባሕሪያት በሚቆርጡ ዳሽቦርዶች ይጀምሩ፣ ከዚያም ፖሊሲዎችዎ እንደሚፈልጉ የተወሰኑ የፍትሃዊነት መለኪያዎችን ያክሉ። ጫጫታ ቢመስልም ከአጋጣሚ ይልቅ ርካሽ ነው።
LLMs እና RAG - በትክክል የሚሰራ 📚🔍 የመለኪያ መጫወቻ መጽሐፍ
አመንጪ ሲስተሞችን መለካት... ስኩዊር ነው። ይህን አድርግ፡-
-
ውጤቶችን ይግለጹ ፡ ትክክለኛነት፣ አጋዥነት፣ ጉዳት አልባነት፣ የአጻጻፍ ዘይቤን መከተል፣ በብራንድ ቃና ላይ፣ የጥቅስ መሰረት ማድረግ፣ የእምቢታ ጥራት።
-
የመነሻ መስመር ግምገማዎችን በጠንካራ ማዕቀፎች (ለምሳሌ፣ በእርስዎ ቁልል ውስጥ ያሉ የግምገማ መሳሪያዎች) እና በመረጃ ስብስቦችዎ እንዲዘጋጁ ያድርጓቸው።
-
ለጤናማነት የትርጉም መለኪያዎችን (በመክተት ላይ የተመሰረተ) እና የተደራረቡ መለኪያዎችን (BLEU/ROUGE) ያክሉ [4]
-
የመሳሪያ መሬት መጣል ፡ የመልሶ ማግኛ ፍጥነት፣ የአውድ ትክክለኛነት/አስታውስ፣ የመልስ ድጋፍ መደራረብ።
-
ከስምምነት ጋር የሰዎች ግምገማ - የመተማመኛ ወጥነት ይለኩ (ለምሳሌ፣ Cohen's κ ወይም Fleiss' κ) መለያዎችዎ ንዝረት እንዳይሆኑ።
ጉርሻ ፡ የሎግ መዘግየት ፐርሰንታይሎች እና ማስመሰያ ወይም ለእያንዳንዱ ተግባር ወጪን ያሰሉ። በሚቀጥለው ማክሰኞ የሚመጣውን የግጥም መልስ ማንም አይወድም።
የንፅፅር ሠንጠረዥ - የ AI አፈፃፀምን ለመለካት የሚረዱ መሳሪያዎች 🛠️📊
(አዎ ሆን ተብሎ ትንሽ የተመሰቃቀለ ነው - እውነተኛ ማስታወሻዎች የተመሰቃቀሉ ናቸው።)
| መሳሪያ | ምርጥ ታዳሚዎች | ዋጋ | ለምን እንደሚሰራ - በፍጥነት መውሰድ |
|---|---|---|---|
| scikit-ተማር መለኪያዎች | ML ባለሙያዎች | ፍርይ | ቀኖናዊ አተገባበር ለምድብ, እንደገና መመለስ, ደረጃ አሰጣጥ; ወደ ፈተናዎች ለመጋገር ቀላል. [2] |
| MLflow ግምገማ / GenAI | የውሂብ ሳይንቲስቶች, MLOps | ነፃ + የተከፈለ | የተማከለ ሩጫዎች፣ አውቶሜትድ መለኪያዎች፣ የኤልኤልኤም ዳኞች፣ ብጁ አስመጪዎች; የምዝግብ ማስታወሻዎች ቅርሶችን በንጽሕና. |
| በግልጽ ይታያል | ዳሽቦርዶችን በፍጥነት የሚፈልጉ ቡድኖች | OSS + ደመና | 100+ ሜትሪክስ፣ ተንሸራታች እና የጥራት ሪፖርቶች፣ የክትትል መንጠቆዎች - ቆንጆ እይታዎች በቁንጥጫ። |
| ክብደቶች እና አድልዎዎች | ሙከራ-ከባድ ኦርጋኖች | ነፃ ደረጃ | ጎን ለጎን ማነፃፀር፣ የኢቫል ዳታ ስብስቦች፣ ዳኞች; ጠረጴዛዎች እና ዱካዎች ንጹህ ናቸው. |
| ላንግስሚዝ | LLM መተግበሪያ ግንበኞች | የተከፈለ | እያንዳንዱን እርምጃ ይከታተሉ፣ የሰውን ግምገማ ከደንብ ወይም ከኤልኤልኤም ገምጋሚዎች ጋር ያዋህዱ። ለ RAG በጣም ጥሩ። |
| TruLens | ክፍት ምንጭ LLM ኢቫል አፍቃሪዎች | ኦኤስኤስ | የግብረመልስ ተግባራት መርዛማነት, መሠረተ ቢስነት, ተገቢነት; በማንኛውም ቦታ ማዋሃድ. |
| ታላቅ የሚጠበቁ | የውሂብ ጥራት-የመጀመሪያዎቹ ኦርጋኖች | ኦኤስኤስ | በውሂብ ላይ የሚጠበቁ ነገሮችን መደበኛ አድርግ - ምክንያቱም መጥፎ ውሂብ ለማንኛውም ሜትሪክን ያበላሻል። |
| ጥልቅ ምርመራዎች | ሙከራ እና CI / ሲዲ ለ ML | OSS + ደመና | ለውሂብ መንሸራተት፣ የሞዴል ጉዳዮች እና ክትትል ባትሪዎች ያካተተ ሙከራ፤ ጥሩ መከላከያዎች. |
ዋጋዎች ይለወጣሉ - ሰነዶቹን ያረጋግጡ. እና አዎ፣ መሳሪያው ፖሊስ ሳይታይ እነዚህን መቀላቀል ይችላሉ።
ገደቦች፣ ወጪዎች እና የውሳኔ ኩርባዎች - ሚስጥራዊው ሾርባ 🧪
ገደብዎ እና የዋጋ ጥምርታዎ የሚለያዩ የንግድ ዋጋ ሊኖራቸው ይችላል ።
ለመሥራት ፈጣን ሉህ፡-
-
የሐሰት አዎንታዊ እና የውሸት አሉታዊ ዋጋን በገንዘብ ወይም በጊዜ ያዘጋጁ።
-
ገደቦችን ይጥረጉ እና የሚጠበቀውን ወጪ በ1k ውሳኔ ያሰሉ።
-
የሚጠበቀውን ዝቅተኛውን የወጪ ይምረጡ ፣ ከዚያ በክትትል ይዝጉት።
አወንታዊ ነገሮች እምብዛም በማይሆኑበት ጊዜ የPR ኩርባዎችን፣ የ ROC ኩርባዎችን ለአጠቃላይ ቅርፅ እና ውሳኔዎች በአጋጣሚዎች ላይ ሲመሰረቱ የመለኪያ ኩርባዎችን ይጠቀሙ። [2][3]
አነስተኛ መያዣ ፡ የድጋፍ ትኬት ሞዴል መጠነኛ F1 ያለው ነገር ግን እጅግ በጣም ጥሩ የመለኪያ መቁረጫ ማኑዋል ድጋሚ መስመሮች ኦፕስ ከጠንካራ ጣራ ወደ ደረጃ መስመር ከተቀየረ በኋላ (ለምሳሌ፡ “ራስ-መፍታት”፣ “የሰው-ግምገማ”፣ “እድገት”) ከተስተካከሉ የውጤት ባንዶች ጋር የታሰረ።
የመስመር ላይ ክትትል፣ መንሸራተት እና ማንቂያ 🚨
ከመስመር ውጭ ግምገማዎች መጀመሪያ እንጂ መጨረሻ አይደሉም። በምርት ላይ:
-
የግቤት ተንሸራታች ፣ የውጤት ተንሸራታች እና የአፈጻጸም መበላሸትን በክፍል ይከታተሉ
-
የጥበቃ ሀዲድ ቼኮችን ያቀናብሩ - ከፍተኛ የቅዠት መጠን፣ የመርዛማነት ገደቦች፣ የፍትሃዊነት ዴልታዎች።
-
የካናሪ ዳሽቦርዶችን ለp95 መዘግየት፣ ጊዜ ማብቂያዎች እና በጥያቄ ዋጋ ይጨምሩ
-
ይህንን ለማፋጠን በዓላማ የተሰሩ ቤተ-መጻሕፍትን ተጠቀም፤ ተንሸራታች፣ ጥራት እና ክትትል ቅድመ ሁኔታዎችን ከሳጥኑ ውስጥ ያቀርባሉ።
ትንሽ እንከን የለሽ ዘይቤ ፡ ሞዴልህን እንደ እርሾ ሊጥ ማስጀመሪያ አስብ - አንድ ጊዜ ጋግረህ ራቅ ብለህ ብቻ አትሄድም። ይመገባሉ፣ ይመለከታሉ፣ ያሽላሉ፣ እና አንዳንድ ጊዜ እንደገና ይጀምራሉ።
የማይፈርስ የሰው ግምገማ 🍪
ሰዎች ውጤት ሲሰጡ፣ ሂደቱ እርስዎ ከሚያስቡት በላይ አስፈላጊ ነው።
-
ማለፊያ vs borderline vs ውድቀት ምሳሌዎች ጋር ጥብቅ ደንቦችን ጻፍ
-
በሚችሉበት ጊዜ የዘፈቀደ እና ዓይነ ስውር ናሙናዎችን ያድርጉ።
-
የኢንተር-ሬተር ስምምነትን ይለኩ (ለምሳሌ፣ Cohen's κ ለሁለት ሬተሮች፣ Fleiss'κ ለብዙዎች) እና ስምምነቱ ከተንሸራተቱ ደንቦችን ያድሱ።
ይህ የሰዎች መለያዎችዎ በስሜት ወይም በቡና አቅርቦት እንዳይንሸራተቱ ያደርጋቸዋል።
ጥልቅ ዳይቭ ፡ የኤልኤልኤምኤስን በRAG 🧩 ውስጥ የ AI አፈጻጸምን እንዴት እንደሚለካ
-
የማውጣት ጥራት - recall@k, precision@k, nDCG; የወርቅ እውነታዎች ሽፋን. [2]
-
ታማኝነትን መልሱ - ቼኮችን ጥቀስ እና አረጋግጥ፣ መሬት ላይ ያሉ ውጤቶች፣ የተቃዋሚ መመርመሪያዎች።
-
የተጠቃሚ እርካታ - አውራ ጣት ፣ የተግባር ማጠናቀቅ ፣ ከተጠቆሙ ረቂቆች ርቀትን ያርትዑ።
-
ደህንነት - መርዛማነት, PII መፍሰስ, ፖሊሲን ማክበር.
-
ወጪ እና መዘግየት - ቶከኖች፣ መሸጎጫዎች፣ p95 እና p99 መዘግየት።
እነዚህን ከንግድ ድርጊቶች ጋር እሰራቸው፡ መሠረተ ቢስነት ከመስመር በታች ከገባ፣ ወደ ጥብቅ ሁነታ ወይም የሰው ግምገማ ራስ-መንገድ።
ዛሬ ለመጀመር ቀላል የመጫወቻ መጽሐፍ 🪄
-
ሥራውን ይግለጹ - አንድ ዓረፍተ ነገር ይጻፉ: AI ምን ማድረግ እንዳለበት እና ለማን.
-
2-3 የተግባር መለኪያዎችን ይምረጡ - በተጨማሪም ማስተካከያ እና ቢያንስ አንድ የፍትሃዊነት ቁራጭ። [2][3][5]
-
ወጪዎችን በመጠቀም ገደቦችን ይወስኑ - አይገምቱ።
-
አነስተኛ የኢቫል ስብስብ ይፍጠሩ - የምርት ድብልቅን የሚያንፀባርቁ 100-500 የተሰየሙ ምሳሌዎች።
-
እያንዳንዱ ለውጥ ተመሳሳይ ፍተሻዎችን እንዲያካሂድ የእርስዎን ግምገማዎች-የሽቦ ግምገማ/ክትትል ወደ CI ሰር ያድርጉ
-
በፕሮድ ውስጥ ይቆጣጠሩ - ተንሸራታች፣ መዘግየት፣ ወጪ፣ የክስተቶች ባንዲራዎች።
-
በየወሩ ይገምግሙ-ኢሽ - ማንም የማይጠቀመውን የፕሪም መለኪያዎች; እውነተኛ ጥያቄዎችን የሚመልሱትን ይጨምሩ።
-
የሰነድ ውሳኔዎች - ቡድንዎ በትክክል የሚያነበው ህያው የውጤት ካርድ።
አዎ በትክክል ያ ነው። እና ይሰራል።
የተለመዱ ጎትቻዎች እና እንዴት እነሱን ማስወገድ እንደሚቻል 🕳️🐇
-
ለአንድ ነጠላ መለኪያ ከመጠን በላይ መገጣጠም - ከውሳኔ አውድ ጋር የሚዛመድ የሜትሪክ ቅርጫት [1][2]
-
መለካትን ችላ ማለት - ያለ መለካት በራስ መተማመን ብቻ ነው። [3]
-
መለያየት የለም - ሁልጊዜ በተጠቃሚ ቡድኖች ፣ ጂኦግራፊ ፣ መሣሪያ ፣ ቋንቋ ይቁረጡ። [5]
-
ያልተገለጹ ወጪዎች - ስህተቶችን ዋጋ ካልሰጡ, የተሳሳተ ገደብ ይመርጣሉ.
-
የሰው ኢቫል ተንሸራታች - ስምምነትን መለካት፣ ቃላቶችን ማደስ፣ ገምጋሚዎችን እንደገና ማሰልጠን።
-
ምንም የደህንነት መሳሪያ የለም - ፍትሃዊነትን፣ መርዛማነትን እና የፖሊሲ ፍተሻዎችን አሁን ይጨምሩ እንጂ በኋላ አይደለም። [1][5]
የመጣህበት ሐረግ፡ የ AI አፈጻጸምን እንዴት እንደሚለካ - በጣም ረጅም፣ አላነበብኩትም 🧾
-
ግልጽ በሆኑ ውጤቶች ይጀምሩ ፣ ከዚያ ተግባርን ፣ ስርዓትን እና የንግድ መለኪያዎችን ቁልል ያድርጉ። [1]
-
ለሥራው ትክክለኛውን መለኪያዎች ይጠቀሙ - F1 እና ROC-AUC ለምድብ; nDCG/MRR ለደረጃ; መደራረብ + የትርጉም መለኪያዎች ለትውልድ (ከሰዎች ጋር የተጣመረ)። [2][4]
-
ዕድሎችህን አስል ስህተቶችህን ጣራ ለመምረጥ ዋጋ ስጥ። [2][3]
-
የፍትሃዊነት ያክሉ እና ግብይቶችን በግልፅ ያስተዳድሩ። [5]
-
ያለ ፍርሃት መደጋገም እንዲችሉ በራስ ሰር ይገመግማሉ እና ይቆጣጠሩ
እንዴት እንደሆነ ታውቃለህ - አስፈላጊ የሆነውን ለካ፣ አለዚያ የማያደርገውን ነገር ማሻሻል ትችላለህ።
ማጣቀሻዎች
[1] NIST. AI Risk Management Framework (AI RMF) የበለጠ ያንብቡ
[2] scikit-ተማር። የሞዴል ግምገማ፡ የትንበያዎችን ጥራት በመለካት (የተጠቃሚ መመሪያ)። የበለጠ ያንብቡ
[3] scikit-ተማር። ፕሮባቢሊቲካል ልኬት (የመለኪያ ኩርባዎች፣ የብሪየር ነጥብ)። ተጨማሪ ያንብቡ
[4] Papineni et al. (2002) BLEU፡ የማሽን ትርጉም በራስ ሰር የሚገመገምበት ዘዴ። ኤሲኤል የበለጠ አንብብ
[5] Hardt, Price, Srebro (2016). ክትትል የሚደረግበት ትምህርት ውስጥ የእድል እኩልነት። NeurIPS ተጨማሪ ያንብቡ