我们需要在前人的基础上开拓自己的工作,这以算法的思想来理解就是存储运算的中间值,从而减少冗余运算,将有限的计算资源搜索更多的空间,从而有更大概率寻找到最优解。因此文献检索是课题开始的基础,我们要站在巨人的肩膀上。
图书馆的资源是我们必须利用的,这是我们通往其他资源的,如各种网站和数据库。然后我们可以通过各种搜索来找到理论上存在的对我们最有用的资源,如二分搜索来找到最优解。不管存在的概率再低,只要基底足够大,那么其期望一定会大于0.
医学主题词mesh,可以指代很多同义词,从而提高我们的检出率。在一定程度上我们可以理解这种定义好的词汇是更加高维的概念,是矩阵的特征值,可以以此为基底进行更多的组合。
我们的生命可以抽象为很多基本的对象如基因蛋白质,然后其可以通过线性组合可以形成很多关系,而这些指数级爆炸的关系在现实中只有少数是有意义的,而对这些有意义的关系的探究即能够有统计学显著性的关系的探究,通过各种表征手段来证明其存在。因此我有一个想法,能不能把这个需要耗费大量人力物力的文献调研过程简化为计算机的一个搜索过程,能够根据我们经验总结形成的规则,对于已经发表的文献的关键词的进行统计,最后能够输出可能成立的科研想法。这种想法能够大大节约不必要的浪费,能够让人们把有限的精力放在更有意义的探索新世界上。一般的科研,我们可以通过数据分析来获得可能的关系,然后去验证。一切无非就是简单的重新组合,所谓的创新就是将原本组合概率很低的对象联系起来,从而能够发挥非线性的作用。因此搜索引擎的开发的思路可能就有助于我们这种自动科研想法提出器的开发:首先是大规模地抓取数据(爬虫抓取网页),然后是存储到数据库,以索引的形式留出一个个接口,从而能够接受用户提交的查询字符串,返回我们需要的结果。而这些结果需要根据一定的规则进行排序如pagerank算法,文本匹配算法等等。我们能够过滤大量的垃圾信息,直接从文献的标题,摘要,正文等等提取出一定的作用对象如各种基因蛋白质(本体论,不同主题词),然后根据关键词的匹配如促进抑制等等来构建这些对象之间的关系,在建立这种一对一的关系后,我们可以通过更加复杂的逻辑如与或非来进行组合,从而能够在更多对象之间构建一定的关系。我们使用机器学习的算法,能够通过统计来学习可能存在的某种高维模式,能够指导这些关系的形成,本质上就是建立一个个的线性因素,但足够多的隐藏层使得这种线性因素形成非线性的模式。最后我们可以形成网络的模型,并且能够根据我们外界的输入(如基因敲除,rnai)产生一定的输出。
i索引其实就是一种重要性排序的方法,越多人引用说明重要性越大,可以使用这种类似的指标来确定哪些特定的对象之间的关系更可能具有意义。毕竟科研课题的形成不是从天上掉下来的,而是有一定的历史沿袭的,这和计算机科学的中间值存储来减少重复运算是一致的。我们将科研视为不同对象之间关系的简单粗暴的枚举,我们不能直接进行随机组合(abcd--efgh),那将是复杂度极大的算法,我们没有这么多的计算资源。因此启发性的搜索能够以比较能够容忍的资源消耗获得比较满意的结果,即站在巨人的肩膀上,有更大的概率能够获得有意义的关系(如同贝叶斯公式),因此大多数工作成果都是之前工作成果的延伸和扩展,可以视为线性无关基底的线性组合;而少部分极具开创性的工作就可以视为发现新的线性无关基底,允许我们进行更多的组合。而以往的科研经验能够更好地指导我们找到真正理论上存在的最佳通路.在一定程度上,科研可以视为寻找最优化的参数(如同机器学习算法可以通过数据的反馈来调整参数),在确定探索的对象之间确定具体的路径,如同线性代数的线性无关基底的线性组合,理论上,总存在一定的组合具有更大的生物学意义。实际上,我们在做文献检索时构建的检索式其实就是利用搜索引擎来挖掘可能的关系,在积累足够多的关系之后,能够如同微积分的原函数层次(高维层次的简单运算可以等价于底层的复杂运算),能够高屋建瓴得出比较确定的关系,比如侯凡凡教授的论文证明血管紧张素转换酶抑制剂能够减少非糖尿病晚期慢性肾脏病发展至终末期肾衰竭的危险,而这个结论的提出是建立于底层的一系列分子机制的。
科研本质上就是寻找不同对象之间的关系,而站在前人的肩膀上是必须的,能够减少很多的冗余计算(以计算机科学的角度来解读科研的无用功),所以我们的文献检索才十分重要:我们需要找全并且找准。在这个基础上,我们需要充分阅读文献,了解大体的趋势和研究框架,首先我们需要从文献出发研究,最后能够总结出可视化的大体趋势(阅读本身就是在做统计分析),从而为自己提出新课题奠定基础。因此高效的阅读、管理和利用是必要的。
建立知识管理系统,通过管理我们收集的文献,进行各种指标的分析如重要性排序(根据被引数)。我们首先构建一定的检索式(同样可以参考编程的与或非结构,可以如同顺序
喜欢学医路漫漫请大家收藏:(m.book88.cc),大书包网更新速度最快。