查看原文
其他

搜索煮译|高级译员的秘密武器——语料库大全集

邢薇 翻译技术教育与研究
2024-09-09


阿基米德说,“给我一个支点,我就能撬动地球”。水煮君云,“给我一个语料库,我能翻译全世界。”
有人说得语料者得天下。的确,语料库可以解决翻译中的许多语言问题。无论单语还是多语语料库,都在翻译中具有重要作用。小编呕心沥血整理了18个汉语语料库、23个英语语料库、12个多语语料库,与各位分享!
一、汉语语料库

语料库
语种
领域
网址
Academia Sinica Balanced Corpus of Modern Chinese
汉语
综合
http://asbc.iissinica.edu.tw/index readme.htm
北京大学古代汉语语料库(CCL)
汉语
古代汉语
http://ccl.pku.edu.cn:8080/ccl corpus/indexjsp?dir-gudai
北京大学现代汉语语料库(CCL)
汉语
现代汉语
http://ccl.pku.edu.cn:8080/ccl corpus/indexjsp?dir-xiandai
北京语言大学汉语语料库 (BCC)
汉语
综合
http://bcc.blcu.edu.cn/
中央研究院古代近代汉语标记语料库
汉语
综合
https://www.ling.sinica.edu.tw/main/zh-tw?code=list&ids=23
《红楼梦》汉英平行语料库
汉语
综合
http://corpus.usx.edu.cn/hongloumeng/images/shiyongshuoming.htm
Media Language Corpus
媒体语言语料库
汉语
媒体转写文本
https://ling.cuc.edu.cn/RawPub/
清华TH语料库
汉语
综合
http://www.openslr.org/18
人类卫生健康共同体语料库
汉语
综合
https://icc.pku.edu.cn/corpus/login/
The Lancaster Corpus of Mandarin Chinese (LCMC)
兰开斯特普通话语料库
汉语
综合
https://www.lancaster.ac.uk/fass/projects/corpus/LCMC/
The Lancaster Los Angeles Spoken Chinese Corpus (LLSCC)
兰开斯特口语语料库
汉语
综合
https://www.lancaster.ac.uk/fass/projects corpus/LLSCC/index.htm
The PDC2000 Corpus
汉语
综合
https://www.lancaster.ac.uk/fass/projects corpus/pdc2000/default.htm
The PH Corpus
汉语
综合
https://www.lancaster.ac.uk/fass/projects corpus/phcorpus/phcorpus.htm
The UCLA Written Chinese Corpus
汉语
综合
https://www.lancaster.ac.uk/fass/projects corpus/UCLA/
厦门大学现代汉语语料库
汉语
综合
http://nclds.xmu.edu.cn/ylk
香港教育学院汉语共时语料库(LIVAC)
汉语
综合
http://www.livac.org/search.php?lang-sc
语料库在线
汉语
古籍语料库
http://corpus.zhonghuayuwen.org/CnCindex.aspx
中研院现代汉语平衡语料库
汉语
综合
http://lingcorpus.iis.sinica.edu.tw/modern/
二、英语语料库

American National Corpus (ANC) 
美国国家语料库
英语
综合
https://anc.org/
Australian National Corpus (AusNC)
澳大利亚国家语料库
英语
综合
https://ausnc.org.au/
British Academic Spoken English Corpus(BASE)
英国学术口语语料库
英语
综合
https://www.reading.ac.uk/acadepts/ll/base_corpus/
Business Letter Corpus
商务信函语料库
英语
信函
https://www.abbreviations.com/term/88345
British Academic Written English Corpus(BAWE)
英国学术书面英语
英语
综合
https://warwick.ac.uk/fac/soc/al/research/collections/bawe/
British National Corpus (BNC)英国国家语料库
英语
综合
https://www.english-corpora.org/bnc/
Corpus Concordance English
英语
综合
https://lextutor.ca/conc/eng
Corpus of Contemporary American English(COCA)
美国当代英语语料库
英语
综合
https://www.english-corpora.org/coca
Corpus of Historical American English(COHA)
美国历史英语语料库
英语
历史
https://www.english-corpora.org/coha
Corpus of Global Web-Based English(GloWbE)
世界网络英语语料库
英语
网络
https://www.english-corpora.org/glowbe
Hong Kong Corpus of Spoken English(HKCSE)
英语
综合
http://rcpce.engl.polyu.edu.hk/HKCSE
International Corpus of Learner English
国际学习者英语语料库第二版
英语
综合
https://uclouvain.be/en/research-institutes/ilc/cecl/icle.html
International Corpus Network of Asian Learners of English,ICNAL
亚洲英语学习者国际语料库网络
英语
综合
http://language.sakura.ne.jp/icnale/download.html
Louvain Corpus of Native English Essays(LOCNESS)
香港英语口语语料库
英语
论文
https://uclouvain.be/en/research-institutes/ilc/cecl/locness.html
Louvain International Database of SpokenEnglish Interlanguage (LINDSEI)
Louvain
国际英语口语中介语数据库
英语
综合
https://uclouvain.be/en/research-institutes/ilc/cecl/lindsei.html
Michigan Corpus of Academic Spoken English (MICASE)
密歇根高级学生论文语料库
英语
综合
https://varieng.helsinki.fi/CoRD/corpora/MICASE/
News on the Web (NOW Corpus)
英语
网络
https://www.english-corpora.org/now/
Santa Barbara Corpus of Spoken American English (SBCSAE)
圣巴巴拉美式英语口语语料库
英语
综合
https://www.linguistics.ucsb.edu/research/santa-barbara-corpus
The Bergen Corpus of London Teenage Language(COLT)
英语
青少年口语
http://korpus.uib.no/icame/colt/
The Intelligent Web-based Corpus (iWeb)
英语
网络
https://www.english-corpora.org/iweb/
The Coronavirus Corpus
英语
新冠疫情
https://www.english-corpora.org/corona
The Wikipedia Corpus
维基百科语料库
英语
综合
https://www.english-corpora.org/wiki/
WebCorp
英语
网络
http://www.webcorp.org.uk/live/

三、平行和多语语料库


BiCovid
新冠病毒开放数据源
汉语、英语
新冠疫情
http://bicovid.org/
北京语言大学汉语语料库(BCC)
汉语、英语、法语
综合
http://bcc.blcu.edu.cn/
Chinese LinguisticData Consortium
中文语言资源联盟
汉语、维吾尔语
综合
http://www.chineseldc.org/
国家语委现代汉语通用平衡语料库
汉语、英语
综合
http://www.aihanyu.org/cncorpus/index.aspx
哈工大信息检索研究室对外共享语料库
汉语、英语
综合
http://ir.hit.edu.cn/demo/ltp/Sharing Plan.htm
Online BLC KWIC Concordancer
汉语、英语
综合
http://www.someya-net.com/concordancer/
绍兴文理学院中国汉英平行语料大世界
汉语、英语
文学、法律
http://corpus.usx.edu.cn/
The Babel English-ChineseParallel Corpus
汉语、英语
综合
https://www.lancaster.ac.uk/fass/projects/corpus/babel/babel.htm
The PKU 863 Chinese-English Parallel Corpus
北大863中文英语平行语料库
汉语、英语
综合
https://www.lancaster.ac.uk/fass/projects/corpus/863parallel/default.htm
The ZIU Corpus of Translational Chinese (ZCTC)浙江大学翻译汉语语料库
汉语、英语
综合
https://www.lancaster.ac.uk/fass/projects/corpus/ZCTC/
医学英汉双语平行语料库
汉语、英语
医学
www.e-charm.com.cn/ylk.asp
中国法律法规汉英平行语料库
汉语、英语
法律
http://corpus.leeds.ac.uk/query-zh.html

语料库虽然信息量还赶不上搜索引擎,但其准确性和科学性远胜于搜索引擎,巧妙应用语料库可以解决翻译中的各种疑难问题。有关语料库在翻译实践中的应用技巧,张成智老师的《翻译与搜索教程》有详细介绍,淘宝京东当当各大电商平台均有售哦。


特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。


- END -




翻译技术教育研究会——搜索煮译专题小组致力于普及搜商概念、推广搜索资源、传播搜索方法、让搜索成为每一位译者的习惯,从而提高译者的工作效率。专题小组目前的主要方向是探索搜索资源、搜索内容、搜索技巧、信息甄别、文本操控、碎片知识管理等相关知识。小组成员经由老师指导,通过定期会议及讨论的形式确定选题,并以推文的形式分享探索结果。欢迎大家积极留言以及对搜索煮译专题小组提供建设性意见!

原文作者:邢薇


推文编辑:田贝西

指导老师:张成智


项目统筹:刘聪颖


资讯推荐


中华思想文化术语库



▶ 技术与工具

国内外常见语料工具一览

国内外常见术语管理工具

翻译必备术语库和语料库合集(附网址)

翻译必备的计算机翻译辅助软件(附网址)

AntConc:实用的本地语料库检索工具

TREX:有海量例句、丰富语料的在线词典

Netspeak:一款免费的单词搭配检索工具

WantWords反向词典,内含开发团队公开文档

Cymo Booth:同声传译员的专属虚拟同传间

MateCat:一款免费的在线CAT工具

Visuwords:可视化在线词典,帮你一键构造记忆宫殿

Linggle:语料+搭配检索工具(实操演示)

Ludwig: 地道英文写作辅助神器,告别中式英语

Reverso:辅助写作与翻译神器


▶ 国际语言服务动态

| 翻译公司篇 | TransPerfect简介

| 翻译公司篇 | 全球第2名 RWS如文思

| 翻译公司篇 | “收购狂魔”Keywords Studios

| 咨询机构篇 | Nimdzi Insights简介

| 咨询机构篇 | Slator 简介

| 咨询机构篇 | CSA Research 简介

| 行业机构篇 | 国际翻译家联盟FIT

| 行业机构篇 | 美国翻译协会ATA

| 行业机构篇 | 加拿大联邦翻译局 Canada's Translation Bureau

| 翻译院校篇 | 明德大学蒙特雷国际研究学院(MIIS)

| 翻译院校篇 | 格拉斯哥大学

| 翻译院校篇 | 埃塞克斯大学

| 热点追踪 | ChatGPT的伦理问题(上)

热点追踪 | ChatGPT的伦理问题(下)


▶ 专访

王华树:机器翻译将要取代人工翻译吗?

崔启亮:机器翻译对语言服务企业有多大作用?

韩林涛:文科生如何学习机器翻译?

魏勇鹏:机器翻译质量评估为什么重要?

徐彬:熟练掌握翻译技术,就能做出漂亮的活儿

曹首光:如何打造一款受欢迎的机器翻译产品? 

李梅:机器翻译对未来翻译教育有何影响?

周兴华:高校翻译教师如何学习翻译技术?

丁丽:译后编辑人员与译者身份是否对等?

王巍巍:疫情背景下远程口译的挑战和应对
卢家辉、陈晨:口译员在远程口译中面临的主要问题


▶ 行业洞察

2021年语言服务行业回顾与展望

2022年全球百强语言服务商榜单

2022年翻译行业将迎来哪些新变化

后疫情时代,语言服务行业如何发展转型?

何钦:中国电影对外译介的现状与思考

冯志伟:关于机器翻译行业发展的三点建议

张霄军:伦理视角下,机器翻译的能与不能

黄友义:如何突破中外文化差异,让世界更了解中国?


▶ 教育创新

李长栓:MTI论文千篇一律,如何破局?

王华树 刘世界:新文科背景下翻译技术核心课程教学模式探索

王华树 刘世界:人工智能时代翻译技术转向研究

曹达钦 戴钰涵:人工智能时代高校翻译技术实践环境建设研究

李梅:如何给“技术小白” 开设计算机辅助翻译课程?

实践导向的MTI人才培养模式——以对外经济贸易大学为例

数字化口译教学资源建设:欧洲经验与启示

如何将翻译项目管理模式应用到CAT教学课堂中?


继续滑动看下一个
翻译技术教育与研究
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存