КОРПУСНИЙ АНАЛІЗ ФАХОВИХ ТЕКСТІВ ДЛЯ НАВЧАННЯ ПЕРЕКЛАДУ: ТЕРМІНИ ТА НЕОЛОГІЗМИ
DOI:
https://doi.org/10.32782/2522-4077-2025-213-23Ключові слова:
корпусні дослідження, корпус, фаховий текст, термін, неологізм, Sketch Engine, універсальна мова запитів CQLАнотація
Мовні корпуси – один із найефективніших інструментів прикладної лінгвістики, що активно застосовуються в різних сферах діяльності. Автоматизований підбір, компіляція та аналіз текстових масивів практично необмеженого обсягу відкривають нові перспективи не лише для філологічних досліджень, а й для фахівців, які використовують такі данні для вирішення практичних завдань. Корпусні методи мають значний потенціал для вдосконалення викладання мов, зокрема перекладу, оскільки дозволяють точно та цілеспрямовано відбирати спеціалізовані лінгвістичні матеріали, необхідні для засвоєння лексичного мінімуму, особливостей вживання та перекладу ключових мовних одиниць, а також для виявлення актуальних лінгвістичних тенденцій у конкретній галузі. Серед інструментів для роботи з корпусами Sketch Engine виділяється як один із найпотужніших, оскільки забезпечує не лише аналіз існуючих корпусів, а й створення власних, у тому числі багатомовних. Це дає змогу швидко та ефективно досліджувати галузеві тексти, виявляти ключову термінологію, типові словосполучення, аналізувати перекладацькі стратегії та складати навчальні матеріали для майбутніх перекладачів. Використання мови запитів CQL дозволяє підвищити точність пошуку та отримувати більш релевантні лінгвістичні дані. У пропонованій статті, що є продовженням більш масштабного дослідження, розглядаються така важлива функція Sketch Engine для пошуку, аналізу та відбору лексичного матеріалу, як розпізнавання та екстракція термінів за допомогою вбудованого інструмента Sketch Engine Keywords. Цей інструмент не лише дозволяє з високою точністю ідентифікувати терміни та термінологічні сполучення у фахових текстах, а й порівнювати частотність вживання таких слів та сполучень у досліджуваному та референтному корпусах, що значно підвищує ефективність пошуку загалом та лінгвістичного аналізу відібраних одиниць зокрема.Іще одним аспектом даного дослідження є методика корпусного пошуку неологізмів та рідковживаних слів.Останній являє собою певний виклик для корпусного текстового аналізу, адже не існує універсальних пошукових формул або навіть принципів пошуку такої лексики, яка, однак, є важливою складовою фахових текстів. Дослідження виконано на основі створеного корпусу англомовних юридичних текстів, пов’язаних із IT-сферою, зокрема ліцензійних угод і договорів.
Посилання
Bucur Ana-Maria, Dincă Andreea, Chitez Madalina, Rogobete Roxana. Automatic Extraction of the Romanian Academic Word List: Data and Methods. Proceedings of the 14th International Conference on Recent Advances in Natural Language Processing. 2023. Varna, Bulgaria: INCOMA Ltd., Shoumen, Bulgaria. pp. 234–241.
Domhan T., Hasler E., Tran K., Trenous S., Byrne B., Hieber F. The Devil Is in the Details: On the Pitfalls of Vocabulary Selection in Neural Machine Translation. Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT 2022). 2022. Association for Computational Linguistics. pp. 1840–1851. https://doi.org/10.18653/v1/2022.naacl-main.136
Akkoyunlu Aslı, Kilimci Abdurrahman. Application of Corpus to Translation Teaching: Practice and Perceptions. International Online Journal of Education and Teaching. 2017. Vol. 4. pp. 369–396.
Lusta A., Demirel Ö., Mohammadzadeh B. Language Corpus and Data Driven Learning (DDL) in Language Classrooms: A Systematic Review. Heliyon. 2023. Vol. 9. e22731. 10.1016/j.heliyon.2023.e22731.
Culpeper J., Demmen J. Keywords. In: Biber D., Reppen R. (Eds.). The Cambridge Handbook of English Corpus Linguistics. Cambridge University Press. 2015. pp. 90–105. DOI: 10.1017/CBO9781139764377.006
Moreno-Ortiz, A. Making Sense of Large Social Media Corpora. An Open Accesss Publication. Palgrave Macmillan. 2024. 192 p. DOI: 10.1007/978-3-031-52719-7
Peñas, A., Verdejo, F., & Gonzalo, J. Corpus-Based Terminology Extraction Applied to Information Access. UCREL Technical Papers, 13. Presented at the Corpus Linguistics 2001 conference, Lancaster University, United Kingdom. pp. 458–465.
Cabré Castellví M.T., Estopà Bagot R., Vivaldi Palatresi J. Automatic Term Detection: A Review of Current Systems. Terminology. 2001. Vol. 7(2). pp. 53–88. DOI: 10.1075/term.7.2.07cab
Van Eck N.J., Waltman L., Noyons E.C.M., Buter R.K. Automatic Term Identification for Bibliometric Mapping. Scientometrics. 2010. Vol. 82(3). pp. 581–596. DOI: 10.1007/s11192-010-0173-0
Hengchen, S., Tahmasebi, N., Schlechtweg, D., & Dubossarsky, H. Challenges for Computational Lexical Semantic Change. In N. Tahmasebi, L. Borin, A. Jatowt, Y. Xu, & S. Hengchen (Eds.), Computational Approaches to Semantic Change. Language Science Press. 2021. pp. 341–372. DOI: 10.5281/zenodo.5040322
Tahmasebi N., Borin L., Jatowt A., Xu Y., Hengchen S. (Eds.). Computational Approaches to Semantic Change. Language Science Press. 2021. DOI: 10.5281/zenodo.5040302.
Afentoulidou V., Christofidou A. It's a Long Way to a Dictionary: Towards a Corpus-Based Dictionary of Neologisms. EURALEX Proceedings. 2021. Vol. 2. pp. 597–606.
Anokhina T., Kobyakova I., Schvachko S. Innovative Methodology for Teaching European Studies Using a Corpus Approach. Philological Treatises. 2023. Vol. 15. No. 2. pp. 7–16.
Matvieieva S. A., Lemish N. Ye., Zernetska A. A., Babych V. I., Torgovets M. S. English-Ukrainian Parallel Corpus: Prerequisites for Building and Practical Use in Translation Studies. Studies about Languages. 2022. Vol. 1. pp. 61–74.
Lemish N. Ye., Aleksieieva O. M., Denysova S. P., Matvieieva S. A., Zernetska A. A. Linguistic Corpora Technology as a Didactic Tool in Training Future Translators. Information Technologies and Learning Tools. 2020. Vol. 79. No. 5. pp. 242–259.
Kilgarriff A., Baisa V., Bušta J., Jakubíček M., Kovář V., Michelfeit J., Rychlý P., Suchomel V. The Sketch Engine: Ten Years On. Lexicography. 2014. Vol. 1(1). pp. 7–36. DOI: 10.1007/s40607-014-0009-9






