Aqbeż għall-kontentut

Estrazzjoni terminoloġika

Minn Wikipedija, l-enċiklopedija l-ħielsa

L-estrazzjoni terminoloġika (magħrufa wkoll bħala estrazzjoni tat-termini, estrazzjoni tal-glossarji, jew rikonoxximent tat-termini) hija kompitu speċjalizzat tal-estrazzjoni tal-informazzjoni. L-għan tal-estrazzjoni terminoloġika hu li b’mod awtomatiku jiġu estratti termini rilevanti minn corpus partikolari ta’ kliem.[1]

Fl-era tas-semantika tal-internet (jiġifieri l-ipproċessar tad-data fuq l-internet biex tkun tista’ tinqara u tiġi miflija b’mod awtomatizzat), għadd dejjem jikber ta’ komunitajiet u networks ta’ impriżi bdew jaċċessaw l-internet u jinteroperaw fih. L-immudellar ta’ dawn il-komunitajiet u tal-ħtiġijiet ta’ informazzjoni tagħhom huwa importanti għal diversi applikazzjonijiet tal-web, bħal web crawler[2] skont is-suġġett (jiġifieri applikazzjoni informatika li tgħarrex għal testi jew kliem disponibbli fuq l-internet skont suġġett partikolari u toħloq corpus minnhom), servizzi tal-web[3], sistemi ta’ rakkomandazzjonijiet lingwistiċi[4], eċċ. L-iżvilupp tal-estrazzjoni terminoloġika huwa essenzjali wkoll għall-industrija lingwistika.

Wieħed mill-ewwel passi tal-immudellar ta’ dominju ta’ għarfien hu li jinġabar vokabularju ta’ termini rilevanti għal dominju partikolari, li jikkostitwixxi l-manifestazzjoni lingwistika tas-superfiċe ta’ kunċetti ta’ dominju partikolari. Inkitbu kotba sħaħ dwar diversi metodi li jippermettu l-estrazzjoni terminoloġika awtomatika ta’ termini tekniċi minn imħażen elettroniċi ta’ dokumenti skont suġġett speċifiku għal dominju partikolari.[5][6][7][8][9][10][11][12][13][14][15][16][17]

Is-soltu, l-approċċi rigward l-estrazzjoni terminoloġika awtomatika jużaw proċessuri lingwistiċi (eż. l-immarkar ta’ partijiet tat-taħdit bil-miktub, il-ġbir f’daqqa ta’ frażijiet, eċċ.) biex jiġu estratti kandidati terminoloġiċi, jiġifieri frażijiet nominali terminoloġiċi plawżibbli sintattikament. Il-frażijiet nominali jinkludu kliem kompost (eż. “karta tal-kreditu”), frażijiet nominali aġġettivali (eż. ”uffiċċju tal-informazzjoni lokali”), u frażijiet nominali prepożizzjonali (eż. “bord tad-diretturi”). Imbagħad, l-entrati terminoloġiċi jiġu ffiltrati mil-lista ta’ kandidati billi jintużaw metodi ta’ apprendiment statistiku u awtomatizzat. Ladarba dawn it-termini jiġu ffiltrati, minħabba l-livell baxx ta’ ambigwità u l-ispeċifiċità kbira tagħhom, dawn ikunu utli ħafna għall-ħolqien ta’ kunċetti marbuta ma’ dominju partikolari ta’ għarfien jew biex jappoġġaw il-ħolqien ta’ ontoloġija ta’ dominju jew ta’ bażi terminoloġika. Barra minn hekk, l-estrazzjoni terminoloġika hija punt ta’ tluq utli ħafna għas-similarità semantika, għall-ġestjoni tal-għarfien, għat-traduzzjoni umana u għat-traduzzjoni awtomatizzata, eċċ.[18]

Estrazzjoni terminoloġika bilingwi

[immodifika | immodifika s-sors]

Il-metodi għall-estrazzjoni terminoloġika jistgħu jiġu applikati għal corpora paralleli. Flimkien mal-istatistika tal-okkorrenzi konġunti pereżempju, jistgħu jinkisbu kandidati għat-traduzzjonijiet tat-termini.[19] It-terminoloġija bilingwi tista’ tiġi estratta wkoll minn corpora komparabbli (jiġifieri corpora li jkun fihom testi bl-istess tip ta’ test jew tal-istess dominju, iżda mhux it-tqabbil ta’ traduzzjonijiet differenti tal-istess dokument).[20]

  1. Alrehamy, Hassan H; Walker, Coral (2018). "SemCluster: Unsupervised Automatic Keyphrase Extraction Using Affinity Propagation". Advances in Computational Intelligence Systems. Advances in Intelligent Systems and Computing. 650. pp. 222–235. ISBN 978-3-319-66938-0.
  2. "Menczer F., Pant G. and Srinivasan P. Topic-Driven Crawlers: machine learning issues. (PDF)" (bl-Ingliż). Miġbur 2021-03-02.
  3. Subbarao Kambhampati, Jianchun Fan (2005-03-01). "A snapshot of public web services". ACM SIGMOD Record. 34 (1): 24–32.
  4. Luc Moreau, Yan Zheng Wei (2005-07-01). "A market-based approach to recommender systems". ACM Transactions on Information Systems. 23 (3): 227–266.
  5. "Bourigault D. and Jacquemin C. Term Extraction+Term Clustering: an integrated platform for computer-aided terminology. (PDF) Arkivjat 19-06-2006" (PDF) (bl-Ingliż). Arkivjat mill-oriġinal fl-2006-06-19. Miġbur 2021-03-02.Manutenzjoni CS1: BOT: url-oriġinali status mhux magħruf (link)
  6. Collier, N.; Nobata, C.; Tsujii, J. (2002). "Automatic acquisition and classification of terminology using a tagged corpus in the molecular biology domain". Terminology. 7 (2): 239–257.
  7. K. Frantzi, S. Ananiadou and H. Mima. (2000). Automatic recognition of multi-word terms: the C-value/NC-value method. In: C. Nikolau and C. Stephanidis (Eds.) International Journal on Digital Libraries, Vol. 3, No. 2., pp. 115-130.
  8. K. Frantzi, S. Ananiadou and J. Tsujii. (1998) The C-value/NC-value Method of Automatic Recognition of Multi-word Terms, In: ECDL '98 Proceedings of the Second European Conference on Research and Advanced Technology for Digital Libraries, pp. 585-604. ISBN 3-540-65101-2
  9. L. Kozakov; Y. Park; T. Fin; Y. Drissi; Y. Doganata & T. Cofino. (2004). "Glossary extraction and utilization in the information search and delivery system for IBM Technical Support". IBM Systems Journal. 43 (3): 546–563.
  10. Navigli R. and Velardi, P. Learning Domain Ontologies from Document Warehouses and Dedicated Web Sites. Computational Linguistics. 30 (2), MIT Press, 2004, pp. 151-179.
  11. Oliver, A. and Vàzquez, M. TBXTools: A Free, Fast and Flexible Tool for Automatic Terminology Extraction. Proceedings of Recent Advances in Natural Language Processing (RANLP 2015), 2015, pp. 473–479.
  12. Y. Park, R. J. Byrd, B. Boguraev. "Automatic glossary extraction: beyond terminology identification", International Conference On Computational Linguistics, Proceedings of the 19th international conference on Computational linguistics - Taipei, Taiwan, 2002.
  13. Sclano, F. and Velardi, P.. TermExtractor: a Web Application to Learn the Shared Terminology of Emergent Web Communities. To appear in Proc. of the 3rd International Conference on Interoperability for Enterprise Software and Applications (I-ESA 2007). Funchal (Madeira Island), Portugal, March 28–30th, 2007.
  14. R. Navigli, P. Velardi (2008). "Mining the Web to Create Specialized Glossaries". IEEE Intelligent Systems. 23 (5): 18–25.
  15. Udo Hahn, Joachim Wermter (2005-10-02). "Finding new terminology in very large corpora": 137–144. Ċitazzjoni journal għandha bżonn |journal= (għajnuna)
  16. Wong, W., Liu, W. & Bennamoun, M. (2007) Determining Termhood for Learning Domain Ontologies using Domain Prevalence and Tendency. In: 6th Australasian Conference on Data Mining (AusDM); Gold Coast. ISBN 978-1-920682-51-4.
  17. Wong, W., Liu, W. & Bennamoun, M. (2007) Determining Termhood for Learning Domain Ontologies in a Probabilistic Framework. In: 6th Australasian Conference on Data Mining (AusDM); Gold Coast. ISBN 978-1-920682-51-4.
  18. Alrehamy, Hassan H; Walker, Coral (2018). "SemCluster: Unsupervised Automatic Keyphrase Extraction Using Affinity Propagation". Advances in Computational Intelligence Systems. Advances in Intelligent Systems and Computing. 650. pp. 222–235. ISBN 978-3-319-66938-0.
  19. "Macken, Lieve; Lefever, Els; Hoste, Veronique (2013). "TExSIS: Bilingual terminology extraction from parallel corpora using chunk-based alignment". Terminology. 19 (1): 1–30" (bl-Ingliż). Miġbur 2021-03-02.
  20. "Sharoff, Serge; Rapp, Reinhard; Zweigenbaum, Pierre; Fung, Pascale (2013), Building and Using Comparable Corpora (PDF), Berlin: Springer-Verlag" (PDF). Arkivjat minn l-oriġinal (PDF) fl-2021-05-11. Miġbur 2021-03-02.