仓酷云

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
仓酷云 门户 程序员 移动互联 查看内容

腾讯工程师提议用中文索引算法创立DNA搜刮引擎

2015-1-28 23:23| 发布者: 飘飘悠悠| 查看: 111| 评论: 0

摘要: 腾讯工程师提议用中文索引算法创建DNA搜索引擎   科学家解码了越来越多的基因组,但对遗传学家或研究人员来说,寻找有机体的共享基因组是一件十分艰巨的任务因为要对比的DNA字母难以计数。如何快速 ...
我个人是非常不喜欢用屌丝这个词的,刺耳得很,因为我也是屌丝,况且PHP网页编程众生平等,每一个生命都有他存在的意义和价值。

腾讯工程师提议用中文索引算法创立DNA搜刮引擎

  迷信家解码了愈来愈多的基因组,但对遗传学家或研讨人员来讲,寻觅无机体的同享基因组是一件非常艰难的义务——由于要对照的DNA字母难以计数。若何疾速搜刮伟大的生物信息学数据库?多半研讨人员利用的是BLAST或FASTA算法,它们实质上一一对照每一个基因组。如今中国第三大搜刮引擎、腾讯旗下搜搜(SOSO.com)的一名盘算机迷信家王亮(Wang Liang)提出使用中文索引算法去检索生物信息。

  王亮指出,中文的每一个字之间没有留下距离,因而索引中文文档的一种办法是将文天职解成N个片断(n-grams),N代表字数,1-grams暗示一个汉字,2-grams暗示两个汉字,3-grams暗示三个汉字,一些中文搜刮引擎就只索引2-grams。王亮称,DNA序列的统计散布应当遵守齐夫定律(Zipf's law)。齐夫定律是指一个单词呈现的频率与它在频率内外的排名成正比,频率最高的单词呈现的频率大约是呈现频率第二位的单词的2倍,而呈现频率第二位的单词则是呈现频率第四位的单词的2倍。王亮使用一样尺度去寻觅拟南芥、曲霉、果蝇和老鼠的基因组字母均匀长度,他发明均匀长度为12个字母,因而用12-gram索引基因组数据或许最优。

整个行业的颠覆,更引领了生活的健康、智能化趋势。相信此次揭开谜底时必然又会是一场对行业和生活方式的颠覆。

路过

雷人

握手

鲜花

鸡蛋

最新评论

QQ|Archiver|手机版|仓酷云 鄂ICP备14007578号-2

GMT+8, 2025-1-15 18:33

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

返回顶部