信息检索作业(优秀范文五篇)-飞外

简介:飞外文库小编为你整理了多篇相关的《信息检索作业》,但愿对你工作学习有帮助,当然你在飞外文库还可以找到更多《信息检索作业》。
,还能对某些二进制文件进行检索。目前Google支持的文件格式包括Doc, Excel,Pdf,Ps, PPT,RTF等等 通过Filetype可以使检索后的内容更精确。

例如 ,我们想搜索包含“大学转专业申请书”关键词的office文件,就在百度中输入“大学转专业申请书 filetype:doc”。则百度搜到全为DOC文件,可打开来寻求需要的内容。

如此可使我们更快更精确的找到想要的内容。 2),site

Site是指把搜索范围限定在特定站点中。如果知道某个站点中有自己需要找的东西,就可以把搜索范围限定在这个站点中,提高查询效率。使用的方式,是在查询内容的后面,加上“site:站点域名”

例如,我们想在四川师范大学的网站上查找“国家奖学金申请表”,可在百度中输入“国家奖学金申请表 site:sicnu.edu.cn”。则百度搜的内容全为川师大网站上的内容。

3),双引号

检索系统会把双引号括起来的检索词作为一个词组来检索,而不是拆分。 例如,我们想找“天亮你不想见我”这句话出自的博客,如果不加双引号,会出现被拆分后的众多结果。

而加上双引号后,会搜索出整句。

如此便找到了我们想找的内容。

2、查询本专业经典书籍。

1),公共事业管理专业必读书籍有:

1 . 尼古拉斯·亨利. 公共行政与公共事务[M]. 北京:中国人民大学出版社, 2002 2.陈振明 . 公共管理学原理 [M]. 北京:中国人民大学出版社, 2003 3.欧文·休斯 . 公共管理导论 [M]. 北京:中国人民大学出版社, 2001 等等。

2),这三本书籍可在厦门大学、武汉大学、四川大学三个图书馆找到。

3),通过四川师范大学图书馆网站上的书生之家数据库和超星数据库查询这些书的全文 欧文·休斯 . 公共管理导论:

尼古拉斯·亨利. 公共行政与公共事务:

陈振明 . 公共管理学原理: 未检索到相关内容。 4),电子书地址

欧文·休斯 . 公共管理导论 http://www.xiexiebang.com/Ebook/2533.html http://www.xiexiebang.com/ISBN-9787300051093.pdf

3、结合自己的专业和学习,从四川师范大学图书馆网站上所列示的数据库中各查找一篇文献。

1)阅读器:CAJViewer

检索点:CNKI 检索词:研究生论文

文献题目:非英语专业研究生英语自主学习现状调查研究 作者:魏卫

发表时间:2011-12-01 来源:南京航空航天大学

2)阅读器:PDF全文浏览器 检索点:维普中文科技期刊数据库 检索词:化学 文献题名:铜对地聚合物化学结构的影响

作者:李克亮 仝玉萍 刊名:建筑材料学报 出版年:2014 3)阅读器:网页

检索点:人大复印资料 检索词:辛亥革命

文献题名:辛亥革命与现代中国文学 作者:李怡/陈国恩

复印期号:2011年12期

4)阅读器:笔记本

检索点:springgerlink 检索词:Stories of Family 文献题目:Stories of Families 作者:Laurel Lindgren 发表时间:2013

5)阅读器:PDF阅读器 检索点:ebsco 检索词:管理

文献题目:Country Context in Management Research: Learning from John Child

作者:Cheng, Joseph L. C. 来源:Management & Organization Review. Nov2014, Vol. 10 Issue 3, p337-346. 10p.

6)阅读器:Acrobat Reader V6.0

检索点:万方学位论文全文数据库 检索词:公共事业

文献题目:公共事业管理专业人才培养模式研究 作者:辛颖 分类号:F24

7)阅读器:PDF阅读器

检索点:PQDD学位论文检索平台

检索词:environmental sciences 文献题目:Carbon Cycling in Tropical Rivers: A Carbon Isotope Reconnaissance Study of the Langat and Kelantan Basins, Malaysia. 作者:Lee, Kern. 出版日期:2014

,数据总量1000000GB,大量免费电子图书,超16万集的学术视频,拥有超过35万授权作者,5300位名师,一千万注册用户并且每天仍在不断的增加与更新。为目前世界最大的中文在线数字图书馆。其覆盖范围涉及哲学、宗教、社科总论、经典理论、民族学、经济学、自然科学总论、计算机等各个学科门类。

排名,同时两人也开始为这项技术寻找合作伙伴。

他们找到雅虎的创始人之一戴维·菲洛,菲洛认为他们的技术确实很可靠,但建议他们自己建立一个搜索引擎公司发展业务,发展起来后再考虑合作。他们的一位教师,也是SUN微系统的创始人之一安迪·别赫托希姆在关键时刻给予他们很大帮助。别赫托希姆确是个很有远见的人,在看完他们的演示后,立马开了张10万美元的支票帮助成立Google公司。之后两人又从家人朋友那里到处借钱,筹得100万美元作为最初投资。

1998年9月7日,Google公司在加利福尼亚州的曼罗帕克正式成立。他们雇用了中出现的频率和这些网页的可信度,网页在受众中的知名度和质量是决定性因素。事实证明,布林是正确的。

Pagerank算法的介绍

1. PageRank算法概述

PageRank,即网页排名,又称网页级别、Google左侧排名或佩奇排名。

是Google创始人拉里·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时提出的链接分析算法,自从Google在商业上获得空前的成功后,该算法也成为其他搜索引擎和学术界十分关注的计算模型。目前很多重要的链接分析算法都是在PageRank算法基础上衍生出来的。PageRank是Google用于用来标识网页的等级/重要性的一种方法,是Google用来衡量一个网站的好坏的唯一标准。在揉合了诸如Title标识和Keywords标识等所有其它因素之后,Google通过PageRank来调整结果,使那些更具“等级/重要性”的网页在搜索结果中另网站排名获得提升,从而提高搜索结果的相关性和质量。其级别从0到10级,10级为满分。PR值越高说明该网页越受欢迎(越重要)。例如:一个PR值为1的网站表明这个网站不太具有流行度,而PR值为7到10则表明这个网站非常受欢迎(或者说极其重要)。一般PR值达到4,就算是一个不错的网站了。Google把自己的网站的PR值定到10,这说明Google这个网站是非常受欢迎的,也可以说这个网站非常重要。 2. 从入链数量到 PageRank

在PageRank提出之前,已经有研究者提出利用网页的入链数量来进行链接分析计算,这种入链方法假设一个网页的入链越多,则该网页越重要。早期的很多搜索引擎也采纳了入链数量作为链接分析方法,对于搜索引擎效果提升也有较明显的效果。 PageRank除了考虑到入链数量的影响,还参考了网页质量因素,两者相结合获得了更好的网页重要性评价标准。 对于某个互联网网页A来说,该网页PageRank的计算基于以下两个基本假设:

数量假设:在Web图模型中,如果一个页面节点接收到的其他网页指向的入链数量越多,那么这个页面越重要。

质量假设:指向页面A的入链质量不同,质量高的页面会通过链接向其他页面传递更多的权重。所以越是质量高的页面指向页面A,则页面A越重要。

利用以上两个假设,PageRank算法刚开始赋予每个网页相同的重要性得分,通过迭代递归计算来更新每个页面节点的PageRank得分,直到得分稳定为止。 PageRank计算得出的结果是网页的重要性评价,这和用户输入的查询是没有任何关系的,即算法是主题无关的。假设有一个搜索引擎,其相似度计算函数不考虑内容相似因素,完全采用PageRank来进行排序,那么这个搜索引擎的表现是什么样子的呢?这个搜索引擎对于任意不同的查询请求,返回的结果都是相同的,即返回PageRank值最高的页面。 3. PageRank算法原理

PageRank的计算充分利用了两个假设:数量假设和质量假设。步骤如下:

1)在初始阶段:网页通过链接关系构建起Web图,每个页面设置相同的PageRank值,通过若干轮的计算,会得到每个页面所获得的最终PageRank值。随着每一轮的计算进行,网页当前的PageRank值会不断得到更新。

2)在一轮中更新页面PageRank得分的计算方法:在一轮更新页面PageRank得分的计算中,每个页面将其当前的PageRank值平均分配到本页面包含的出链上,这样每个链接即获得了相应的权值。而每个页面将所有指向本页面的入链所传入的权值求和,即可得到新的PageRank得分。当每个页面都获得了更新后的PageRank值,就完成了一轮PageRank计算。 .2 基本思想:

如果网页T存在一个指向网页A的连接,则表明T的所有者认为A比较重要,从而把T的一部分重要性得分赋予A。这个重要性得分值为:PR(T)/L(T)

其中PR(T)为T的PageRank值,L(T)为T的出链数

则A的PageRank值为一系列类似于T的页面重要性得分值的累加。

即一个页面的得票数由所有链向它的页面的重要性来决定,到一个页面的超链接相当于对该页投一票。一个页面的PageRank是由所有链向它的页面(链入页面)的重要性经过递归算法得到的。一个有较多链入的页面会有较高的等级,相反如果一个页面没有任何链入页面,那么它没有等级。 3.3 PageRank简单计算:

假设一个由只有4个页面组成的集合:A,B,C和D。如果所有页面都链向A,那么A的PR(PageRank)值将是B,C及D的和。

继续假设B也有链接到C,并且D也有链接到包括A的3个页面。一个页面不能投票2次。所以B给每个页面半票。以同样的逻辑,D投出的票只有三分之一算到了A的PageRank上。

换句话说,根据链出总数平分一个页面的PR值。

优点:

是一个与查询无关的静态算法,所有网页的PageRank值通过离线计算获得;有效减少在线查询时的计算量,极大降低了查询响应时间。 缺点:

1)人们的查询具有主题特征,PageRank忽略了主题相关性,导致结果的相关性和主题性降低

2)旧的页面等级会比新页面高。因为即使是非常好的新页面也不会有很多上游链接,除非它是某个站点的子站点。 HITS算法的介绍

HITS算法(Hyperlink-Induced Topic Search),HITS 算法是由康奈尔大学( Cornell University ) 的Jon Kleinberg 博士于1997 年首先提出的,为IBM 公司阿尔马登研究中心( IBM Almaden Research Center) 的名为“CLEVER”的研究项目中的一部分。

按照HITS算法,用户输入关键词后,算法对返回的匹配页面计算两种值,一种是枢纽值(Hub Scores),另一种是权威值(Authority Scores),这两种值是互相依存、互相影响的。所谓枢纽值,指的是页面上所有导出链接指向页面的权威值之和。权威值是指所有导入链接所在的页面中枢纽之和。

一个网页重要性的分析的算法。

通常HITS算法是作用在一定范围的,比如一个以程序开发为主题网页,指向另一个以程序开发为主题的网页,则另一个网页的重要性就可能比较高,但是指向另一个购物类的网页则不一定。

在限定范围之后根据网页的出度和入度建立一个矩阵,通过矩阵的迭代运算和定义收敛的阈值不断对两个向量Authority和Hub值进行更新直至收敛。

描述

HITS[1](Hyperlink – Induced Topic Search) 算法是利用HubPAuthority的搜索方法, 具体算法如下: 将查询q提交给基于关键字查询的检索系统,从返回结果页面的集合总取前n个网页(如n=200),作为根集合(root set),记为S,则S满足: 1.S中的网页数量较少

2.S中的网页是与查询q相关的网页

3.S中的网页包含较多的权威(Authority)网页

通过向S 中加入被S 引用的网页和引用S 的网页,将S 扩展成一个更大的集合T. 以T 中的Hub 网页为顶点集V1 ,以权威网页为顶点集V2 。

V1 中的网页到V2 中的网页的超链接为边集E ,形成一个二分有向图. 对V1 中的任一个顶点v ,用h ( v) 表示网页v 的Hub 值,且h ( v)收敛;对V2 中的顶点u ,用a ( u) 表示网页的Authority 值。

开始时h ( v) = a ( u) = 1 ,对u 执行I 操作,修改它的a ( u) ,对v执行O操作,修改它的h ( v) ,然后规范化a ( u),h ( v) ,如此不断的重复计算下面的I操作和O操作,直到a ( u),h(v)收敛 。 其中I操作:a ( u) = Σh ( v) O 操作: h ( v) = Σa ( u) 。每次迭代对a ( u) 、h ( v) 进行规范化处理: a ( u) = a ( u)/Σ[ a ( q) ]2 h ( v) = h ( v)/Σ[ h ( q) ]2 。


信息检索作业

摘要 .................................................................................................................................................................

信息检索作业

1、举例说明搜索引擎中filetype、site、双引号这三个高级检索语法的功能。 1) filetype:很多有价值的资料,在互联网上并非是普通的网页,而是以Word、PowerPoint、PDF等格式存在......

信息检索作业

课外复习、预习与作业:1. 你所在的学院是___________, 通过数据库检索自己学院的教师2005年发表的一篇专业论文,要求写出这篇论文的篇名、作者、作者单位、刊名和年份、卷期......

信息检索作业[优秀范文五篇]

2013-2014第二学期 《文献信息检索与利用》考核试题 姓名: 学号: 年级: 12级 专业: 行政管理 任课老师: 符思嘉 成绩: 一、自拟一道与本专业有关课题进行检索,至少应包括两个以上......

信息检索作业范本

文献检索 综合检索报告 07 级 * * 专业 * * 班学号 *********** 姓名 * * * 题目:节能制冷技术及制冷设备的研究成果与发展趋势 检索词:制冷(Refrigeration) 节能(Energy......

《医学信息检索》作业

郑州大学现代远程教育《医学信息检索》作业 说明:本课程考核形式为提交作业,完成后请保存为WORD 2003格式的文档,登陆学习平台提交,并检查和确认提交成功(能够,并且内容无误即......

科技信息检索作业

《科技信息检索》课程考核大作业 一、拟定检索课题:《论沈从文小说中的女性形象》 二、分析课题:首先我在“万方学术期刊全文数据库”中进行检索,检索出30篇相关论文;又在“中国......

信息检索课程作业

计算机检索报告 检索课题:软件工程发展前景 数据库:维普资讯(全文/文摘) 姓名 班级 学号 具体专业库:中文科技期刊数据库(全文版) 检索步骤: 1、选择检索(学科)范围:全部期刊 2、确定......