Үгийн утгазүйн сүлжээ ба Вөрднет

Үгийн утга зүйн сүлжээ гэдэг нь ойлголтуудын хоорондох утга зүйн хамаарлыг үзүүлдэг сүлжээ юм. Энэ нь мэдлэгийг төлөөлөх нэг хэлбэр болон хэрэглэгдэж байдаг.

Утга зүйн сүлжээний нэг жишээ нь Англи хэлний үгийн сан Принстоны их сургуулиас гаргасан Вөрднет (WordNet) юм. Англи хэлний үгсийг ойролцоо утгаар нь бүлэг болгон синсет (synset) нэрээр ангилж, богино хэмжээний ерөнхий тодорхойлолтыг багтааж, эдгээр ойролцоо утгатай үгсийн хоорондох олон төрлийн утга зүйн хамаарлыг бичиж оруулжээ.

Утга зүйн хамаарлын хамгийн нийтлэг нь meronymy (A бол B –ийн хэсэг, өөрөөр хэлбэл B нь өөрийн хэсэг болгон А –г багтаана.), holonymy (B бол А –ын хэсэг, өөрөөр хэлбэл А өөрийн хэсэг болгон В –г багтаана.) , hyponymy (буюу troponymy) (A нь В –ээс явцуу хүрээтэй; А нь В –ийн төрөл зүйл), hypernymy (A бол B –ээс өргөн хүрээтэй), synonymy (A нь B –тэй адил), antonymy (A нь B –ийн эсрэг) гэх мэт байна.

Синсет гэж юу вэ?

Монгол хэлний вөрднэт MonWN (https://github.com/kbatsuren/monwn) нь МУИС-ийн Машин оюуны лабораториос (МОЛ) гаргасан нээлттэй эхийн лицензтэй үгийн утгазүйн сүлжээ нөөц юм. Энэ сан нь 26 мянган үг, 23 мянган синсеттэй. Синсет (synset) бол ойролцоо утгаар хэрэглэж болдог үгсийн олонлог юм.

Жишээ нь, {орон байр; байр; гэр орон} (хүн амьтны орогнон байрласан газар) гэсэн синсетийн үгсийг дараах жишээ өгүүлбэрт сольж бичихэд нэг утга илэрхийлж чадаж байна.

  • “Дуучин Б.Болд гэр орондоо байхгүй байсан тул эрэн сурвалжлах зар тавьсан.”
  • “Дуучин Б.Болд орон байрандаа байхгүй байсан тул эрэн сурвалжлах зар тавьсан.”
  • “Дуучин Б.Болд байрандаа байхгүй байсан тул эрэн сурвалжлах зар тавьсан.
Тэмцээний зорилго:

Үгийн салаа утгыг тухайн өгүүлбэрээс ялган ойлгох нь хүний хувьд хялбар боловч машины хувьд төвөгтэй асуудал бөгөөд ялангуяа Монгол хэлний хувьд байгалийн хэлний боловсруулалт, судалгаа бага хийгддэг тул үгүүдийн салаа утгуудыг ялган таамагладаг, тодорхойлдог загвар гарган авах нь Монгол байгалийн хэлний салбарын хөгжилд ихээхэн ач холбогдолтой юм.

Тиймээс тэмцээний зорилго нь өгөгдсөн өгүүлбэрүүдэд орсон салаа утгатай үгнүүд аль утгаараа хэрэглэгдэж байгааг таамаглах загвар байгуулах юм.

Жишээлбэл:

  1. Ажлын байрны ёс зүй, соёлыг төлөвшүүлэх нь байгууллагын ирээдүйн тогтвортой байдалд чухал ач холбогдолтой тул хүний нөөцийн газраас анхаарал хандуулан ажиллах нь чухал.
  2. Залуу гэр бүлүүд өөрсдийн амьдрах байр, ирээдүйн талаар эртнээс төлөвлөн шийдвэр гаргадаг байхыг гэр бүл судлаач зөвлөж байна.

Дээрх 2 өгүүлбэрт байр гэсэн үг орсон байгаа ч нэг нь ажиллах газар, нөгөө нь орогнох амьдрах газрыг илэрхийлж байна.

  • Тэмцээн эхлэх: 2021/08/16
  • Тэмцээний бүртгэл бөглөх эцсийн хугацаа: 2021/08/31
  • Баг үүсгэх эцсийн хугацаа: 2021/09/08 (энэ хугацаанаас хойш бүртгүүлсэн бол баг үүсгэхгүйгээр ганцаараа оролцож болно)
  • Тэмцээн дуусах: 2021/09/15, 23:59
  • Код болон шийдлээ явуулах хугацаа: 2021/09/16
  • Шалгарсан багуудад мэдэгдэх хугацаа: 2021/09/17
  • Зөвхөн Python хэл дээр шийдлийг хийж гүйцэтгэнэ. Ашиглах сангийн хувьд хязгаарлалт байхгүй.
  • Шийдэл бүхий Kaggle Notebook-г олон нийтэд нээлттэй болгоно. Хэрэв бусад notebook, IDE ашигласан бол Kaggle Notebook руу оруулна.
  • Код нь reproducible байна.
  • Загварын хэмжээний хувьд хязгаарлалт байхгүй. Pretrained загвар болон ensemble model ашиглаж болно.

Тэмцээний зорилго нь тухайн өгүүлбэр/ текст-д орсон салаа утгатай үгийг таамаглах буюу синсетийг таамаглах ёстой. Салаа утга бүхий үгнүүд тухайн өгүүлбэр/текстэд #0000001 гэсэн байдлаар тэмдэглэгдсэн бөгөөд оролцогчийн зорилго нь тухайн үг нь текст/ өгүүлбэрт аль утгаар орсныг synset_id дээр таамаглан бичих юм.

text_id text synset_id
t0000001 оны долдугаар сарын#0000001 13. 43
t0000007 Бат хүзүүндээ хэзээ зүүснийг мэдэхгүй үргэлж зүүж явдаг булигаар гэртэй сахиусныхаа оосрыг таслан авч#0000007 шидэв. 1
t0000005 Түүнчлэн хадланд ашиглах талбайг хамгаалах, түүний ургацыг хадах ээлж тогтоон бригад, салаанд хариуцуулан, тухайн хамт олноор тодорхой үүрэг амлалт авахуулах ажлыг одоохон хийвэл#0000005 зохино 54
t0000006 / эрүүл#0000006 мэндийн даатгалын сан; 68
Үнэлгээ

Тэмцээнийг Categorization Accuracy хэмжүүрээр буюу өгөгдсөн зурагнуудыг 25 төрлийн хоолны категорид хэрхэн зөв ялган таамагласны хувиар илэрхийлэн харуулна.

Шагналын сан: 2,000,000₮

  • 1-р байр: 1,000,000₮
  • 2-р байр: 600,000₮
  • 3-р байр: 400,000₮

Тэмцээний дүрмийн дагуу шагналыг Pocket аппликейшнээр дамжуулан олгоно.

ЕРӨНХИЙ ДҮРЭМ

Бүртгэл

  1. 1 оролцогч 1 Kaggle аккаунттай байна.
  2. Ганцаараа болон баг болж орох боломжтой. Хэрэв баг бүрдүүлж орж байгаа бол багийн гишүүд тэмцээнд оролцохдоо олон аккаунтаас submission хийсэн тохиолдолд тэмцээнээс хасагдана.

Оролцогчийн тоо

  1. Тэмцээнд ганцаараа болон 2-3 хүний бүрэлдэхүүнтэй багаар оролцож болно.
  2. Нэг оролцогч зөвхөн нэг л багт харъяалагдана.
  3. Хэрэв баг бүрдүүлсэн бол баг бүр ахлагчтай, нэртэй байх ба Submission хийхдээ нэрээ оруулж, team merge хийсэн байна.
  4. Багийн гишүүд зөвхөн тэмцээнд оролцох боломжтой хүмүүс байна.

Үргэлжлэх хугацаа

  • Тэмцээн эхлэх: 2021/08/16
  • Тэмцээний бүртгэл бөглөх эцсийн хугацаа: 2021/08/31
  • Баг үүсгэх эцсийн хугацаа: 2021/09/08 (энэ хугацаанаас хойш бүртгүүлсэн бол баг үүсгэхгүйгээр ганцаараа оролцож болно)
  • Тэмцээн дуусах: 2021/09/15, 23:59
  • Код болон шийдлээ явуулах хугацаа: 2021/09/16
  • Шалгарсан багуудад мэдэгдэх хугацаа: 2021/09/17

Шагнал

Шагналын сан: 2,000,000₮

  • 1-р байр: 1,000,000₮
  • 2-р байр: 600,000₮
  • 3-р байр: 400,000₮

Тэмцээний дүрмийн дагуу шагналыг Pocket аппликейшнээр дамжуулан олгоно.

Нууцлал

  1. Kaggle discussion болон бусад мэдээлэл хуваалцах хэрэгслээр оролцогчид өөрийн багийн гишүүдээс бусад оролцогч нартай код болон шийдлээ хуваалцахыг хориглоно.
  2. Өөрийн хийсэн даалгаврын шийдлийг Notebook/Kernel хэлбэрээр бусдад хуваалцахгүй байх.
  3. Өгөгдсөн дата мэдээллийг зүй бусаар ашиглан зохион байгуулагчид, спонсоруудын нэр хүндэд сөргөөр нөлөөлөхийг хориглоно.

Өгөгдлийн лиценз

Тэмцээнд ашиглаж буй өгөгдөл нь МУИС-н Машин Оюуны Лабораторийн үүсгэсэн, эзэмшдэг өгөгдөл бөгөөд тэмцээний хүрээнд CC-NC-BY лицензийн дор ашиглана. Лицензийн дагуу өгөгдлийг зөвхөн судалгаа шинжилгээ, академик зорилгоор ашиглах ба ашигласан судалгааны ажилуудад зохиогчдыг заавал иш татан дурьдана. Үүнд дараах нийтлэлийг иш татна.

“Batsuren, Khuyagbaatar, Amarsanaa Ganbold, Altangerel Chagnaa, and Fausto Giunchiglia. “Building The Mongolian WordNet.” In Proceedings of 10th Global Wordnet Conference (GWC). pp 238, 2019. “

Лицензийн дагуу өгөгдөл ба өгөгдлөөс гарсан үр дүнг ямар нэг арилжааны (commercial) зорилгоор ашиглахыг хориглоно.

Submission хийх хязгаар

  1. Нэг оролцогч/баг өдөрт 5 хүртэлх submission хийж болно.
  2. Тухайн оролцогч/багийн сонгосон 2 submission эцсийн байр эзлүүлэлтэд ашиглагдана.

Ашиглах компьютерийн хэл

  1. Python хэл дээр тэмцээний даалгаварыг хийж гүйцэтгэнэ.
  2. Бусад хэл дээр хийсэн тохиолдолд эдгээр хэл рүү хөрвүүлэхийг шаардана. Хэрэв боломжгүй бол кодыг хүлээн авахаас татгалзана.

Байр эзлүүлэлт

  1. Нийт датаны 50% нь Public Leaderboard-д байршиж байгаа ба тухайн сонгогдсон 2 submission-г ашиглан Private Leaderboard –н оноогоор байр эзлэгдэнэ.
  2. Private Leaderboard-н топ 5 оролцогч/баг тэмцээн дуусахад өөрсдийн код бүхий шийдлийн Kaggle Notebook-г олон нийтэд нээлттэй болгосон байна.
  3. Кодын зөв эсэхийг шалган, ямар нэг зөрчилгүй оролцогч/багуудад тэмцээний эцсийн үр дүнг мэдэгдэнэ. Хэрэв шалгарсан оролцогч/багаас ямарваа нэгэн байдлаар тэмцээний журмыг зөрчсөн эсвэл шаардлага хангаагүй байдлаар хасагдах тохиолдолд дараагийн оролцогч/багт эзэлсэн байр шилжинэ.

Бусад

  1. Тэмцээний дүрмийн дагуу шударгаар өрсөлдөх
  2. Өөрөө оролцох
  3. Machine Learning UB Коммунити болон Deep Learning UB-ийн тэмцээн зохион байгуулах багийн гишүүд оролцож болохгүй.
  4. Тэмцээнтэй холбоотой онлайн, офлайн ямар нэг пост, мэдээлэл болон нийтлэлд Зохион байгуулагч, Спонсорууд, тэмцээнд оролцогчдыг доромжилсон, нэр хүндийг гутаасан, нас, хүйс, арьсны өнгө, шашин шүтлэг, ажил мэргэжлээр гадуурхсан болон дээрх этгээдүүдтэй холбоотой худал, хуурамч мэдээлэл тарааж болохгүй.

ТЭМЦЭЭНИЙ НАРИЙВЧИЛСАН ДҮРЭМ

Тэмцээний ерөнхий дүрмүүдээс гадна дараах нарийвчилсан дүрмүүд нь зохион байгуулагчийн шаардлагаар тодорхойлогдож байна.

1. ЯЛАГЧИЙН ЛИЦЕНЗ

A. Ялагч болсон тохиолдолд дараах эрхийг зохион байгуулагчид олгохыг зөвшөөрөв:

” Тэмцээнд оролцсон эцсийн submission болон энэ submission-г гаргаж авахад ашигласан код, туслах материалыг ашиглах бүрэн эрхийг спонсор, зохион байгуулагчдад олгов. Үүнд зохион байгуулагчийн зүгээс код, туслах материалыг олон нийтэд нээлттэй болгохгүй ба спонсор, зохион байгуулагч судалгаа шинжилгээний зорилгоор ашиглана. “

Б. Тэмцээнд оролцогчид өөрсдийн шийдлийг Kaggle платформ эсвэл өөрсдийн ашигладаг рефоситори (github, gitlab гэх мэт)-р дамжуулан олон нийтэд нээлттэй болгоно.

2. ТЭМЦЭЭНД ОРОЛЦОГЧ

Тэмцээний ерөнхий дүрмийн Бусад: 3-т ороогүй Монгол улсын иргэн дараах этгээдүүд оролцох боломжтой. Үүнд:

А. Дата сайнс, дата анализ, бизнес анализ, статистикаар мэргэшин ажиллаж буй мэргэжилтнүүд, судлаачид

Б. Энэ чиглэлээр эрдмийн зэрэг горилж буй магистр, докторын оюутнууд, профессорууд

В. Дата өгөгдөл мэдээлэл дээр ажиллахаар сонирхон судлаж буй мэргэжилтнүүд, оюутан залуус

3. ШАЛГАРСАН БАГУУДЫН ШИЙДЛИЙН КОД БА ДОКУМЕНТ

Шалгарсан оролцогч/багууд код бүхий шийдлээ явуулахдаа дараах зааврыг мөрдөнө.

A. Код болон документ нь ямар нэг байдлаар бусдын ажлыг хуулбарласан, нууцын гэрээ, худалдааны гэрээ болон патенттай холбоотой байж болохгүй.

Б. Шийдэл бүхий Kaggle Notebook-г олон нийтэд нээлттэй болгоно. Хэрэв бусад notebook, IDE ашигласан бол Kaggle Notebook руу оруулна.

В. Код нь reproducible байна.

Г. Код нь заавал коммент, тайлбартай байна.

Д. Шалгарсан шийдлийн документ нь хууль бус эсвэл ямар нэг хуулийг зөрчсөн мэдээлэл агуулж болохгүй.

Е. Тэмцээнд оролцогч нь код болон документийн ашиглалттай холбоотойгоор зохион байгуулагчид болон спонсорууд-д ямар нэгэн байдлаар хуулийн хэрэг, зарга үүсгэхгүй гэдгийг баталж байгааг хүлээн зөвшөөрөв.

Ё. Тэмцээнд оролцогч болон багууд өөрсдийн шийдлийг олон нийтэд нээлттэй болгож болно.

4. ТЭМЦЭЭНЭЭС ХАСАХ

Зохион байгуулагчид, Спонсорууд, Kaggle платформ нь тэмцээний ерөнхий болон нарийвчилсан дүрмүүдийн аль нэгийг зөрчсөн тохиолдолд тухайн баг, эсвэл гишүүний харъяалагдах багийг тэмцээнээс хасах бүрэн эрхтэй.

5. АВТОМАТ МАШИН СУРГАЛТЫН ПРОГРАМ (AUTOMATED MACHINE LEARNING TOOLS)

Энэ тэмцээнд ямар нэг автомат машин сургалтын програмыг ашиглахыг хориглох ба бүх код, документүүдийг тэмцээнд оролцогчид өөрсдөө бичсэн байна. Жишээлбэл: R, Python-ы sklearn, keras, tensorflow, pytorch гэх мэт загвар байгуулахтай холбоотой сангуудыг ашиглаж болно. Харин Cloud API болон төлбөртэй сангууд ашиглахгүй байх. Жишээлбэл Google Cloud Auto ML, TPOT, H2O.ai, DataRobot, BigML OptiML, Auto-WEKA гэх мэт.

3дагч компанийн үйлчилгээг жишээлбэл Google, Microsoft -ын Vision API ашиглахгүй байх.

6. ТЭМЦЭЭНИЙ ДАТА ӨГӨГДӨЛ

Тэмцээний дата өгөгдөлд тэмцээний вебсайт-д ил болгосон датаг оруулна. Тэмцээний дата нь сургалтын (training), нийтийн (public) болон хувийн (private) тестлэх дата агуулна.

A. Датаны ашиглалт: тэмцээний датаг дүрэмд заасны дагуу ашиглана.

Б. Датаны аюулгүй байдал: энэ дүрмийг хүлээн зөвшөөрснөөр та тэмцээний датаг бусдад хор хөнөөл учруулах зорилгоор болон хууль бусаар ашиглахгүй байхыг хувь хүний үүднээс чанд сахин мөрдөнө. Мөн ямар нэг байдлаар дээр дурьдсан үйлдлүүдийг бусад тэмцээнд оролцогчид үйлдсэнийг мэдвэл зохион байгуулагчид болон спонсоруудад мэдэгдэх үүрэгтэй.

В. Тэмцээнээс гадуурх дата: тэмцээний хүрээнд өгөгдсөн мэдээллээс гадна бусад төрлийн дата, өгөгдлийг ашиглаж болохгүй.

7. ЯЛАГЧИЙГ ТОДОРХОЙЛОХ

Submission-ууд нь үнэлгээний метрикийн дагуу ранклагдах ба тэмцээний хугацаанд Public Leaderboard нь оролцогчид харагдахаар байна. Тэмцээний ялагч нь зөвхөн private leaderboard-н ранкаар тодорхойлогдоно. Хэрэв багуудын оноо тэнцэн шалгаруулах багийн тооноос хэтэрвэл оноо тэнцсэн хамгийн түрүүнд submission хийсэн багийг тооцно.

8. ЯЛАГЧИЙГ ЗАРЛАХ

Тэмцээнд түрүүлсэн хүмүүст имэйл-р мэдээлэл хүргэнэ. Хүргүүлсэн имэйл-д тухай бүрд нь хариу ирүүлэх хэрэгтэй ба хариу мэдэгдэхгүй бол дараагийн оролцогч/багийг ялагчаар сонгоно. Мөн ялагч нь тэмцээний дүрмийг зөрчсөн нь тогтоогдвол дараагийн оролцогч/багийг ялагчаар сонгоно. Ямар нэгэн байдлаар тэмцээний дүрмийг зөрчин тэмцээнд оролцох эрхгүй болсон оролцогч/багуудын оноог Leaderboard-с хасна.

9. ЯЛАГЧИЙН ҮҮРЭГ

Тэмцээний ялагч болсон тохиолдолд дараах үүргийг хүлээн биелүүлнэ. Үүнд:

(a) Тэмцээнд ашиглагдсан хамгийн сүүлийн код бүхий Kaggle Notebook-г олон нийтэд нээлттэй болгоно. Эдгээр нь тэмцээний дүрэмд заасан шаардлагуудыг хангасан байх. Код нь эхнээсээ дуустал бүрэн ажиллах ёстой ба багууд кодын бүрэн ажиллагааг хариуцна. Хэрэв код ажиллаагүй тохиолдолд имэйлээр мэдээлэл хүргүүлэх бөгөөд имэйлд буй зааврын дагуу кодыг дахин ирүүлнэ.

(б) Тэмцээний шагналтай холбоотой баримт бичгүүдэд гарын үсэг зуран ирүүлэх үүрэгтэй.

10. ШАГНАЛ

Тэмцээний шагнал нь тэмцээний дүрэмд заагдсан байх ба тэмцээний дүрмийн шаардлагын дагуу шагналыг олгоно.

Тэмцээний ялагч нь шагналаас татгалзах эрхтэй ба энэ тохиолдолд зохион байгуулагчид тэр даруй мэдэгдэнэ.

Тэмцээний шагналыг шагналтай холбоотой баримт бичгүүдийг бүрэн хүлээн авснаас хойш 3 долоо хоногийн дотор Pocket аппликейшнээр дамжуулан олгоно.

Хэрэв багаар оролцсон тохиолдолд багийн ахлагч нь тэмцээний шагналыг шударгаар багийн гишүүдэд хуваарилан олгох үүрэгтэй.

10. ИНТЕРНЕТ

Тэмцээн нь онлайн платформ дээр зохион байгуулагдаж байгаа тул оролцогчид интернет орох боломжтой байна. Интернетийн ямар нэг тасалдал, алдаанаас болж тэмцээний эцсийн хугацаанаас хоцорсон бол зохион байгуулагч хариуцлага хүлээх болон эцсийн хугацааг сунгах боломжгүй.

11. ЗӨРЧЛИЙГ ШИЙДВЭРЛЭХ

Тэмцээнд оролцогчид тэмцээний ерөнхий болон нарийвчилсан дүрмүүдийг зөрчсөн бол зохион байгуулагчид, спонсорууд тэмцээний дүрэм, цаашлаад харъяалагдах хуулийн дагуу арга хэмжээ авах эрх

ИВЭЭН ТЭТГЭГЧИД