CORPUS AND AI TECHNOLOGIES FOR TERMINOLOGY MANAGEMENT IN LOCALISATION PROJECTS
DOI:
https://doi.org/10.32782/2522-4077-2025-212-9Keywords:
terminology management, localisation project, corpus technologies, automated term extraction, termbaseAbstract
The article explores terminology management for localization projects, with a special focus on extraction technologies, emphasizing corpus-based and AI-driven approaches. Given the complexity of localization, the automation of terminology management plays a crucial role in ensuring high-quality linguistic services. The study examines various terminology extraction strategies applied in Ukraine's language services market. The research objectives include defining the concept of «terminology extraction» systematizing principles of automated extraction tools, and conducting an experimental extraction process using SketchEngine, OpenAir (Plus), Fodina TermCatch. To assess the effectiveness of these tools, the authors built a specialized corpus, comprising 29,374 words and 36,912 tokens. The extracted terminology was analyzed based on key criteria: stability, precision, indivisibility, and definitional clarity. SketchEngine tool employs statistical keyword analysis, extracting 400 term candidates. However, only 25% (123) were deemed valid terminological units due to issues with phrase segmentation. Utilizing AI-driven models, OpenAir (Plus) tool extracted 81 term candidates, with 38% (31 terms) meeting the established criteria. However, it tended to overgenerate paraphrased variants. Fodina TermCatch tool extracted 1,460 candidates, but only 15.93% (233 terms) were valid. It identified redundant terms variations, which could be useful for refining source content. The study underscores the hybrid nature of terminology extraction today, combining statistical, AI-based, and hybrid approaches. While statistical methods provide greater precision, they may miss rare terms, whereas AI-driven tools offer high recall but require filtering. In conclusion, automated terminology extraction enhances efficiency in localization. However, manual validation remains essential for ensuring accuracy. The research confirms that combining multiple extraction tools yields the best results, making terminology extraction – an essential part of terminology management – a crucial step in localization project management.
References
Schäler R. Translators and localization: Education and training in the context of the Global Initiative for Local Computing (GILC). The Interpreter and Translator Trainer. 2007. P. 119–135.
Warburton K. Managing terminology in commercial environments. Handbook of Terminology. 2015. № 1. P. 359–391.
Kageura K., Marshman E. Terminology extraction and management. The Routledge Handbook of Translation and Technology. Routledge, 2019. P. 61–77.
Popiolek M. Terminology management within a translation quality assurance process. Handbook of Terminology. 2015. № 1. P. 341–359.
Seljan S. Quality Assurance (QA) of Terminology in a Translation Quality Management System (QMS) in the business environment. European Parliament: Translation Services in the Digital World. 2018. P. 92–145.
Fulford H. Exploring terms and their linguistic environment in text: A domain-independent approach to automated term extraction. Terminology. International Journal of Theoretical and Applied Issues in Specialized Communication. 2001. № 7(2). P. 259–279.
Борисова Н. В., Решетило С. С. Автоматизоване видобування термінологічних одиниць з науково-технічних текстів. Матеріали ІІІ Всеукраїнської науково-практичної конференції «Інтелектуальні системи та прикладна лінгвістика». Харків, 2014. С. 43–45.
Бармак В. Виявлення використань графової бази даних GraphDB за допомогою автоматичного добування термінів. Запоріжжя: ЗНУ, 2023. 50с.
Бондаренко К. Л., Булгакова К. В. Розвиток української IT-термінології в процесі локалізації (на прикладі поштових клієнтів Microsoft Office Outlook та Google Gmail). Наукові записки. Серія: Філологічні науки. 2024. Вип. 210. С. 58–65.
Бодюл Д. Структурні особливості термінів ІТ на прикладі вебпереглядачів Google Chrome і Microsoft Edge. Студентський науковий вісник. 2024. Вип. 31. Кропивницький : РВВ ЦДУ ім. В. Винниченка. С. 231–234.
Folaron D. Technology, technical translation and localization. The Routledge Handbook of Translation and Technology. 2019. P. 203–219.
Bowker L. Terminology management. The Bloomsbury Companion to Language Industry Studies. 2020. С. 261–284.
Туркевич О. Семантична структура терміносполук методики викладання української мови як іноземної. Вісник Нац. ун-ту «Львівська політехніка». Серія «Проблеми української термінології». 2011. № 709. С. 121–124.
Bilyk K. M., Makhachashvili R. K. The analysis of the corpus of texts «Covid-19» using the software «Sketch Engine». Scientific Trends in Basic and Applied Materials Research of the International Scientific and Practical Conference. October 30, 2020. Strasbourg : ΛΌГOΣ. 2020. Vol. 3. P. 59–65.
Бондаренко К. Л., Булгакова К. В. Варіативність термінології програмного забезпечення в контексті локалізації. Наукові записки. Серія: Філологічні науки. 2024. Вип. 211. С. 14–19.
Kovačević A., Konjović Z., Milosavljević B., Nenadic G. Mining methodologies from NLP publications: A case study in automatic terminology recognition. Computer Speech & Language. 2012. № 26(2). P. 105–126.
Arora C., Sabetzadeh M., Briand L., Zimmer F. Automated extraction and clustering of requirements glossary terms. IEEE Transactions on Software Engineering. 2016. № 43(10). С. 918–945.
Dagan I., Church K. Termight: Coordinating humans and machines in bilingual terminology acquisition. Machine Translation. 1997. № 12. С. 89–107.
Амеліна С. М., Тарасенко Р. О. Вивчення технологій створення електронних термінологічних баз у процесі професійної підготовки перекладачів. Інформаційні технології і засоби навчання. 2017. № 60(4). С. 105–115.
ISO 704:2009. Terminology work – Principles and methods. Geneva : ISO, 2009.
Russo M. ASK THE EXPERTS' 2 – Introduction to prompting. URL: https://www.youtube.com/watch?v=8bLVcmEX55I. (дата звернення: 29 січня 2025 р.)
Bhaskar B., Braşoveanu C., Rausch I. Contributing to better multilingual AI in Europe. URL: https://www.youtube.com/watch?v=yOjdEQntOhs&t=8s. (дата звернення: 29 січня 2025 р.)
Goldsmith J. AI-powered terminology extraction: A hands-on guide for translators. URL: https://www.youtube.com/watch?v=5Y5PhzyeMGI. (дата звернення: 29 січня 2025 р.)
Kaleidoscope. URL: https://kaleidoscope.at/en/products/fodina-termcatch.






