首页 理论教育 谷歌翻译的工作原理

谷歌翻译的工作原理

时间:2022-02-14 理论教育 版权反馈
【摘要】:然而,谷歌翻译完全避免了这些费力的工作,而是利用统计学比较源语文件和译语文件。这一过程完全不依赖已知的定义和语法,被称为统计型机器翻译。统计型机器翻译发源于信息论———研究信号处理、数据压缩和语言的一门应用数学,一般认为它诞生于工程师兼数学家克劳德·香农1948年在《贝尔系统技术杂志》上发表的一篇论文《通信的数学理论》。

数学概念:概率、计算机编程

如果你学过外语的话,一定很熟悉翻译。虽然有词典和语法知识的帮助,但语言专业的学生还是要下大功夫分析每个句子和每个词语的意思,然后确定动词的性数,找出语境线索。除非精熟于两种语言,否则这个过程会很痛苦。

然而,谷歌翻译完全避免了这些费力的工作,而是利用统计学比较源语文件和译语文件。根据联合国发布的文件———通常以六种文字发布(英文、法文、俄文、西班牙文、中文和阿拉伯文),谷歌翻译建立了一个庞大的语料库(如今,谷歌翻译的数据库包含大约80种语言),通过扫描数以亿计的文件,寻找它们的规律,研究词语通常是怎么翻译的。这一过程完全不依赖已知的定义和语法,被称为统计型机器翻译。这种翻译与数学的联系在于,它依靠的是概率:假设有A语言的一个句子,B语言的一个句子是这个句子的译文的概率有多大?

统计型机器翻译发源于信息论———研究信号处理、数据压缩和语言的一门应用数学,一般认为它诞生于工程师兼数学家克劳德·香农1948年在《贝尔系统技术杂志》上发表的一篇论文《通信的数学理论》。信息论被用于破解密码和通过手机、计算机传递信息。没有信息论背后的数学原理,你口袋里的手机就变成了一块砖头,利用基于网络的计算来翻译的神奇功能也会变成天方夜谭。

石油地震勘探

信息论对石油地震勘探也非常重要。石油地震勘探需要靠信息论来剔除不需要的噪声,即可能干扰石油区块发出的信号的数据,从而让信号更清晰。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈