碳酸盐厂家
免费服务热线

Free service

hotline

010-00000000
碳酸盐厂家
热门搜索:
行业资讯
当前位置:首页 > 行业资讯

百度葡语搜索凭什么获中巴两国最高礼遇

发布时间:2020-06-29 21:29:29 阅读: 来源:碳酸盐厂家

巴西当地时间7月17日,两国相关领导举行会谈,并共同出席百度葡语搜索引擎发布仪式。领导们共同按下键盘,正式启动百度巴西葡语版搜索引擎。在他们的共同见证下,百度董事长兼CEO李彦宏在现场输入了首个葡语版搜索关键词“Brazil China”。相关领导见证一款互联网产品的发布在互联网历史上前所未有,这体现了两国对互联网技术的尊重和认可,也让百度变成了代表中国互联网技术创新的“大使”。百度凭什么获得中巴两国的“最高礼遇”?除了给巴西带来葡语搜索引擎,百度还能为足球圣地带来什么?在海外市场,百度又将如何与对手竞逐?

葡语搜索:

国礼背后的技术创新输出

技术创新输出已成为正在快速转型创新国家的中国未来对外经贸和外交的重点方向,巴西作为金砖成员,同时还是继中印等国家之后的下一代新兴市场,科技又是新兴市场的推进器,正是这些原因让百度这一最具技术基因的互联网企业有幸享受“高规格”待遇。

百度葡语搜索研发已启动数月之久,在此之前百度先后发布泰文搜索和阿拉伯语搜索,在更早之前的2008年百度还高调进入日本市场。此外,百度贴吧、Hao123、百度安全客户端、百度浏览器等产品均已推出泰文等外文版本。贴吧海外MOU高达3000万,其中来自巴西的就有1500万,正是在这一背景下,百度决定进军巴西市场。

今年4月,巴西领导通过非官方渠道了解到百度开拓巴西市场的消息后,表示了极大的兴趣。这个“兴趣”无疑会让百度进军巴西市场少了许多障碍。百度能引起巴西元首关注,因为它是中国互联网巨头之一且是其中唯一一家技术驱动的互联网公司。百度早已是最大中文搜索引擎之一,但一直对全球化市场和多语种搜索跃跃欲试,在海外研发中心、海外人才招募、海外市场开拓、海外业务支撑上都有多重布局。

搜索引擎是一门“语言科学”。一方面它的索引系统爬去全网内容,这些内容是给人看的,索引系统进行清洗、组织、解析、分词和构建索引;更重要的一点是,搜索系统要理解用户Query并匹配结果。用户Query正在自然语言化,还可以是语音。搜索结果不再是简单的超链接,而是轻应用、直达结果、多媒体内容、知识图谱的合辑,搜索引擎发展过程实际上是其“语言处理能力”的提升。

百度在中文自然语言处理上的优势不必多说,不过,百度要把中文领域积累的优势复制到新的语种并不容易。

经过笔者分析和调查,百度开发葡语搜索引擎有几个难点和破解之道:

语种差异带来的NLP算法挑战。葡语属于屈折语,和中文孤立语相比有大量形态变换,构词、句法等方面有很大差异。要理解葡萄牙语还需要基于面向中文自然的系统进行改进。

如何破?百度NLP(自然语言处理系统)分析透彻语言特点,在大数据环境下运用统计方法快速定位差异、总结规律,制定出有针对性的语言分析手段,解决语种差异上的“初识挑战”。

积累空白背后的语料词库缺乏。搜索引擎不断积累全网内容、Query请求以及基于此分解的词库、语料和算法。搜索引擎具有生命,随着时间流逝而进化。与百度已深耕15年的中文搜索不同,在葡语搜索引擎领域百度没有这些数据积累,需重头来过。在泰文、阿拉伯文这些语种上都有类似问题。

如何破?吸引国际优秀人才加入百度NLP团队,找到对的大牛;通过机器学习模型和自然语言技术的大规模应用,在海量小语种网页文本中提炼精华,弥补数据积累短板;百度在早期各项技术研发中有考虑未来多语种可能性,搭建了可扩展、可迁移和国际化的技术框架,这个系统缩短了小语种NLP基础技术建设周期。

市场差异对产品、运营和推广带来新挑战。葡萄牙语是世界第六流行语种,使用它的国家和地区包括葡萄牙、巴西、安哥拉、中国澳门、西班牙等。每个国家和地区都有本地化的市场特点和用户习惯,进而对产品、技术和运营提出不同要求。

如何破?百度技术和产品团队已经习惯的中文搜索思维需要推倒重来,不能预先假设,必须分析当地语言特性、市场特点、用户反馈,同时聘请专业语言专家做跨界研究,制定更合理、更通用的技术方案。

从百度内部程序员获悉,即使暂时没有葡语的用户行为数据积累,但百度可通过机器学习和大数据技术将葡语的Query改写、需求分析技术做到与谷歌比肩。在中文NLP上行之有效的方法,比如基于矩阵分解的新词发现、序列标注模型分词、模版分析的query需求识别方法已被快速应用到葡语当中。

在此之前,百度先后推出日语、泰语和阿语搜索。泰语、阿语、葡语、中文和英语看似差异巨大,但有千丝万缕的联系,比如葡语的形态变换、句法结构和英语有很多类似之处。人类语言的共同点,为NLP充分复用现有技术,迅速搭建技术框架、提升技术效果提供条件。语言处理是一门学科,理论和算法本质一样的,面向不同语言处理差异化特征即可。NLP和技术无国界,百度在NLP的积累依然有效。

圈子内人士都知道百度NLP团队是世界领先的NLP技术团队之一。除了发表了大量Paper、支持了众多研究项目而在学术界拥有很高知名度外,百度NLP技术相对更加接地气,注重实用性和工业价值,强调技术为产品服务。实际上其他对手和百度风格一直迥异,百度正在做阿拉丁计划、地图、O2O、金融这些更“接地气”的业务,以及诸如贴吧、知道等接地气的产品,正是贴吧产生了“屌丝”这一词。百度更加专注。

百度能否在巴西击败对手还有非常重要的一点:除了在相关领导见证下高调亮相,百度与巴西科技创新部的合作内容还包括,百度将在巴西建立世界级企业研发中心,为巴西互联网科技提供创新性解决方案,加强培养互联网科技人才,支持巴西创业公司等。巴西十分需要百度,会给予百度相应支持。

从国际化战略上看,巴西人口众多、经济即将迎来爆发式增长,发布葡语搜索确实是百度海外战略的一个里程碑式的事件,预示着百度在海外市场不仅掀开了新的篇章,而且像与有关部门合作、技术输出实现国际信息技术合作,也走出了真正凭借技术实力的海外模式。假以时日,百度与对手在其他多国的PK和较量,势必引发全球搜索引擎市场更大范围的格局变化。业界在关注百度葡语搜索上线消息本身的同时,资本市场也势必会对百度市值的增长空间开始新的想象。

留学生必备应用

翻墙回国内

华人看国内视频在线

腾讯视频加速