CN102012900A - 信息检索方法和系统 - Google Patents
信息检索方法和系统 Download PDFInfo
- Publication number
- CN102012900A CN102012900A CN200910171083XA CN200910171083A CN102012900A CN 102012900 A CN102012900 A CN 102012900A CN 200910171083X A CN200910171083X A CN 200910171083XA CN 200910171083 A CN200910171083 A CN 200910171083A CN 102012900 A CN102012900 A CN 102012900A
- Authority
- CN
- China
- Prior art keywords
- semantic pattern
- semantic
- pattern
- inquiry
- phrase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000004458 analytical method Methods 0.000 claims abstract description 10
- 238000001914 filtration Methods 0.000 claims abstract description 6
- 238000012216 screening Methods 0.000 claims description 23
- 239000000284 extract Substances 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 14
- 230000032683 aging Effects 0.000 claims description 10
- 230000008878 coupling Effects 0.000 claims description 3
- 238000010168 coupling process Methods 0.000 claims description 3
- 238000005859 coupling reaction Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000002203 pretreatment Methods 0.000 claims description 2
- 230000006399 behavior Effects 0.000 abstract description 15
- 238000007619 statistical method Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 10
- 238000007781 pre-processing Methods 0.000 description 6
- 241000234295 Musa Species 0.000 description 4
- 235000018290 Musa x paradisiaca Nutrition 0.000 description 4
- 230000032258 transport Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 230000013011 mating Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 241000282341 Mustela putorius furo Species 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 239000003245 coal Substances 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 238000010057 rubber processing Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Abstract
本发明实施例公开了一种信息检索方法和系统,包括:确定历史查询记录中的出现的各查询词组的语义模式,从中选择出现频率超过预定门限的语义模式;根据统计分析用户行为得到的语义模式,设置语义模式与过滤方式和排序方式的对应关系;接收查询词组,进行语义分析确定其所属语义标签;确定相应的查询语义模式,进而确定与所述语义模式对应的过滤方式和排序方式;利用所述过滤方式和排序方式对搜索结果进行处理。本申请实施例根据搜索引擎查询字段的语言特点及历史用户行为,对用户意图进行分析,在接收到用户输入的查询词组时,使用该查询词组匹配的语义模式对应的统计分析所获得的模式属性引导搜索,精确定位用户需求,提升用户检索效率。
Description
技术领域
本申请涉及网络技术领域,更具体地说,涉及一种信息检索方法和系统。
背景技术
从互联网出现至今,信息量可以说成幂指数的增长,在这浩如烟海的信息中怎么才能找到自己所需要的信息?搜索引擎就像一只神奇的手,从杂乱的信息中抽出一条清晰的检索路径。搜索引擎是根据一定的策略、运用特定的计算机程序搜集信息,在对信息进行组织和处理后,为用户提供检索服务的系统。其通过分析用户的查询(Query)请求(关键词或关键词组),从系统中返回相应的结果并反馈给用户,为用户的信息获取工作提供了方便。
经过多年的发展和摸索,搜索引擎技术得到了很大的发展,具体表现在搜索结果的相关性提升和索引数据量增加方面,所谓搜索相关性,指的是搜索结果与用户要求的切合程度。现有技术针对Query的相关工作,大部分还停留在Query分类层次,比较流行的是针对Query所在领域类别的分类,判断一个Query属于财经类、体育类或汽车类等,如将“迈克尔乔丹”归类为体育类,“奥巴马”归类为新闻类。
但是,对于Query的领域分类,其主要功能是在各垂直搜索引擎之间提供导航,这种分类方法过于简单,无法正确体现用户意图。例如,针对Query:“手机电池”,现有技术能确定出属于IT领域,但是并不能分析出用户意图是查找“手机”还是“电池”,搜索相关性较低。
发明内容
有鉴于此,本申请提供一种信息检索方法和系统,以解决现有技术存在的搜索相关性低的问题。
本申请提供的一种信息检索方法包括:
预处理步骤,包括:
确定历史查询记录中的出现的各查询词组的语义标签,根据语义标签统计语义模式,从统计结果中选择出现频率超过预定门限的语义模式;
通过统计历史记录中各语义模式对应的用户行为,设置体现该用户行为的用户查询意图属性,设置所述语义模式与该用户查询意图属性所指定的过滤方式和排序方式的对应关系;
检索步骤,包括:
接收查询词组,进行语义分析确定其所属语义标签;
依据所述对应关系,确定与所述查询词组所属语义模式对应的过滤方式和排序方式;
利用所述过滤方式和排序方式对搜索结果进行处理。
优选的,在确定高频语义模式后,还包括:依据覆盖率对语义模式进行筛选,筛选过程包括:
计算预定时间段内符合语义模式的查询词组的数量,将该查询数量与总查询数量的比例确定为该语义模式的覆盖率;
提取覆盖率大于预定门限的语义模式。
优选的,在确定高频语义模式后,还包括:依据区分度对语义模式进行筛选,筛选过程包括:
计算预定时间段内属于同一语义模式的具体关键字段组针对所有查询的关键字段组中的熵,将其确定为所述语义模式的区分度;
提取熵大于预定值的语义模式。
优选的,在确定高频语义模式后,还包括:依据覆盖率和区分度对语义模式进行筛选,筛选过程包括:
计算预定时间段内符合该语义模式的查询次数,将该查询次数与总查询次数的比例确定为该语义模式的覆盖率;
计算预定时间段内属于同一语义模式的具体关键字段组针对所有查询的关键字段组中的熵,将其确定为所述语义模式的区分度;
提取覆盖率大于预定门限及熵大于预定值的语义模式。
本申请提供的一种信息检索方法,还包括:
接收查询词组,到预先设置的语义标签库中匹配相应的语义标签;
根据匹配到的所述语义标签到语义模式表中匹配获得所述查询词组的语义模式;
根据所述语义模式到按照用户查询意图属性预设的语义模式与过滤、排序方式的对应关系表中匹配获得所述查询词组对应的过滤方式和排序方式;
利用所述过滤方式和排序方式对所述查询词组的搜索结果进行处理。
本申请同时公开的一种信息检索系统包括:
参考信息存储单元,用于存储语义模式与过滤方式和排序方式的对应关系,所述语义模式为历史查询记录中的出现的各查询词组的语义模式中出现频率超过预定门限的语义模式,所述过滤方式和排序方式为用户查询意图属性所指定,所述用户查询意图属性是通过统计历史记录中各语义模式对应的用户行为设定的;
接收单元,用于接收查询词组;
语义模式匹配单元,用于将所述接收单元接收到的查询词组进行语义分析确定其语义标签;
处理方式确定单元,用于依据所述参考信息存储单元中存储的信息,确定所述查询词组所属语义模式及其对应的过滤方式和排序方式;
执行单元,用于利用所述过滤方式和排序方式对搜索结果进行处理。
优选的,上述系统还包括:
第一筛选单元,用于:计算预定时间段内符合语义模式的查询词组的数量,将该查询数量与总查询数量的比例确定为该语义模式的覆盖率,并提取覆盖率大于预定门限的语义模式;
所述参考信息存储单元存储的语义模式为:出现频率超过预定门限且覆盖率大于预定门限的语义模式。
优选的,上述系统还包括:
第二筛选单元,用于:计算预定时间段内属于同一语义模式的具体关键字段组针对所有查询的关键字段组中的熵,将其确定为所述语义模式的区分度,并提取熵大于预定值的语义模式;
所述参考信息存储单元存储的语义模式为:出现频率超过预定门限且熵大于预定值的语义模式。
优选的,上述系统还包括:
第三筛选单元,用于:计算预定时间段内符合语义模式的查询词组的数量,将该查询数量与总查询数量的比例确定为该语义模式的覆盖率,以及计算预定时间段内属于同一语义模式的具体关键字段组针对所有查询的关键字段组中的熵,并提取出现频率超过预定门限、覆盖率大于预定门限且熵大于预定值的语义模式;
所述参考信息存储单元存储的语义模式为:出现频率超过预定门限、覆盖率大于预定门限且熵大于预定值的语义模式。
从上述的技术方案可以看出,本申请实施例根据自然语言特点及用户的习惯用法,设置语义模式,并根据用户意图,将语义模式与通过统计分析语义模式所对应的用户行为所获得的过滤方式和排序方式建立对应关系。从而使得,在接收到用户输入的查询词组时,可在确定与该查询词组匹配的语义模式后,按照对应的过滤方式和排序方式进行搜索和处理,一方面无需检索全部数据,减少工作量,另一方面利用历史经验对用户意图进行了分析,提高了用户意图与搜索结果的相关度,提高搜索精度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的信息检索方法中的预处理流程图;
图2为本申请实施例提供的信息检索方法中的检索流程图;
图3为本申请实施例提供的信息检索系统的结构示意图1;
图4为本申请实施例提供的信息检索系统的结构示意图2;
图5为本申请实施例提供的信息检索系统的结构示意图3;
图6为本申请实施例提供的信息检索系统的结构示意图4。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例公开了一种信息检索方法,通过统计历史查询记录中出现频率较高的语义模式,将其与体现用户意图的过滤方式和排序方式建立对应关系,在用户输入查询词组时,确定该查询词组所对应的语义模式,然后依据上述对应关系,确定相应的过滤方式和排序方式,并利用所述过滤方式和结果显示方式对搜索结果进行处理后,提供给用户,从而提高反馈结果与用户意图的切合程度,即提高搜索相关性。
请参考图1,为本申请实施例提供的信息检索方法中的预处理过程,包括以下步骤:
步骤S11、确定历史查询记录中出现的各个查询词组的语义标签。
选择一段时间内的历史查询记录,对各个查询词组进行语义分析,确定各个查询词组的语义标签。
例如:查询词为“手机”,则其语义标签为“产品”。
所述语义标签存储于语义标签库,所述查询词组存储于查询词库,所述语义标签库与查询词库均存储于数据库中,且所述语义标签库中的语义标签与查询词组之间存在对应关系。
步骤S12、根据语义标签统计其所属语义模式。
历史查询记录所覆盖的时间越长,则查询记录越多,确定的语义模式覆盖面也更广,因而更准确。
语义模式是根据自然语言特点总结得出的,如当查询词组包括多个查询字段时,根据自然语言特点,确定其中的中心词,例如:针对“手机电池”这个查询词组,其中心词为“电池”,语义模式为“修饰词+产品”,同样的,“数码相机”对应的语义模式也为“修饰词+产品”。
语义模式存储于语义模式表中。
步骤S13、从上述步骤S12确定的语义模式中选择出现频率超过预定门限的语义模式。
对所述历史查询记录中的查询词组加上标签,格式如下:
[Query]\t[Semantic Pattern]\t[PV];
其中,Query为查询词组,Semantic Pattern为语义模式,PV为被查询次数。
如表1所示:
表1
Query | Semantic Pattern | PV |
数码 相机 | 修饰词 产品 | 13 |
...... | ...... | ...... |
手机 电池 | 修饰词 产品 | 13 |
根据所述PV信息确定被查询次数超过预定门限的语义模式。
可以将查询次数超过预定门限的语义模式进行标记,也可以单独存储。
步骤S14、统计历史记录中各语义模式对应的用户行为,设置体现该用户行为的用户查询意图属性。所谓用户行为,指的是用户在利用某查询字段进行查询后,在查询结果中点击了哪些链接。
历史上,用户输入某查询词组,并在返回的结果中选择(即鼠标点击)某些结果,这种行为本身可以体现一种过滤和排序方式,因为每个查询行为都会被记录在查询日志中,因此,可以通过统计查询日志中的查询词组所属语义模式,设置体现对应的用户行为的用户查询意图属性,存储于用户查询意图属性表中。
所述用户查询意图属性包括歧义程度、权威性要求、时效性要求和地域要求,如表2所示:
表2
语义模式的意图属性 | 属性值 |
歧义程度 | 确定的/泛泛的/精确的 |
权威性要求 | 需要权威结果/不需要权威结果 |
时效性要求 | 是/否 |
地域要求 | 本地/附近/无地域要求 |
这些属性的设定决定了选择何种过滤方式和排序方式,所述过滤方式和排序方式指的是对查询结果的处理方式,过滤方式可以是按照地域、权威性、歧义程度过滤,所述排序方式一般指的是对结果按照某种特征(如时间)进行排列,时间靠近查询时间的结果排列在前。不同的属性设置对应不同的过滤方式和排序方式。例如:如果某语义模式需要权威结果时,则需要选择相应的过滤方式对结果信息进行过滤,以选取其中的权威结果(如来自权威网站的权威信息);如果某语义模式具有地域性要求时,则在结果信息中过滤出符合地域性要求的结果信息。或者,根据歧义程度将搜索结果信息进行排序,歧义程度越小,位置越靠前。
步骤S15、确定语义模式的用户查询意图属性,设置语义模式与用户查询意图属性所指定的过滤方式和排序方式。
所述过滤方式指的是对搜索结果的筛选方式,排序方式指的是对搜索结果的排列。
过滤方式和排序方式与语义模式之间的关系用表格方式体现,如下表所示:
表3
下面对各个用户查询意图属性进行分析:
歧义程度,指的是用户对搜索的信息所理解的具体程度。当用户对搜索的信息有具体的理解时,则认为该语义模式是一个确定性的语义模式,例如语义模式对应的Query中包含有具体名称、数字或表示具体限定的字段,如:“诺基亚N92原装电池”;否则,则可认为用户对搜索的信息所要求的仅是一个大概的了解,即需要搜索引擎反馈多角度、多来源、多领域的结果时,该语义模式就是一个泛化的语义模式,如对应的Query为“上海 代理 合作”;而当语义模式中包含指示唯一性要求的信息时,该语义模式即是一个精确的语义模式,如对应的Query为“阿里巴巴 杭州 电话”,或“毛泽东 生日”等。
需要说明的是,在确定语义模式的歧义程度时,可以根据对应的具体Query中各查询字段的含义进行,例如,“手机 电池”对应的模式是泛化的模式,而“诺基亚N92电池”对应的模式则是确定性的模式,因为“诺基亚N92”的范围比“手机”小得多。
权威性要求:指的是用户是否需要一个权威性的结果。权威性要求可以从字面含义得到,例如语义模式“年份+政策”为一个需要权威性结果的模式,因此,对于内容为“2008年出口退税额度”的Query,优先反馈来自权威信息源(如官方网站)的查询结果。
时效性要求:指的是需要反馈某时间点或时间段的结果。首先是隐性的时间要求,比如查询“香蕉 价格”需要返回尽量实时的信息。时效性要求也可以从字面含义得到,如果语义模式涉及到具体时间字段(年、月、日),则该语义模式具有时效性要求。例如内容为“2008年出口退税额度”的Query,当然,某些词也可以表示时效性,例如“新”,“最新”,则内容为“新款诺基亚”的Query将被配置为具有时效性要求的语义模式。
地域性要求:指的是搜索目标是否有地域范围限制,根据用户搜索习惯,对于一些Query类型我们根据先验知识认为其隐性的和地域相关,例如“产品+运输”的语义模式就是指示从本地运出的产品或者从外地运来的产品的相关信息,具体的Query如“煤炭 运输”。
另外,对于某类与产品相关的语义模式,还可以包括批量属性,用于指示产品是零售还是批发。例如Query“大米 代理”一般被视为一个批发性的Query,而“Dell D630”则被视为一个零售的Query。
综上,对于一个具体的Query,如“运输 产品”,来说,其将被标记为“泛泛的”、“不需要权威性结果”、“有时效性要求”、“有地域性要求”和“批量大小不一定”。该模式的存储形式可以为:
[Pattern]\t[Ambiguity]\t[Authority]\t[Temporal]\t[Regional]\t[Batch]
表4为一些具体Query的意图分析结果(所述语义模式对应的用户查询意图属性):
表4
Query | 歧义程度 | 权威性要求 | 时效性要求 | 地域性要求 | 批量大小 |
Nokia N73 | 精确 | 否 | 否 | 无 | 零售 |
橡胶 加工 | 泛泛的 | 否 | 否 | 本地 | - |
香蕉 价格 | 精确 | 是 | 是 | - | - |
用户查询意图属性和过滤方式、排序方式之间的对应关系可以以表格方式存储,例如以“对应关系数据表”作为存储所述对应关系的数据表。
因此,建立符合上述意图属性的过滤方式和排序方式与所述“运输 产品”所属语义模式的对应关系,从而使得在用户的查询词组符合所述语义模式时,根据上述对应关系,确定对应的过滤方式对查询结果进行过滤,并以对应的排序方式进行排序。具体过程如图2所示,包括以下步骤:
步骤S21、搜索引擎查询词组。
步骤S22、对所述查询词组进行语义分析,以确定其所属语义模式。
具体的,例如根据自然语言特点,到预先设置的语义标签库中匹配相应的语义标签,然后到语义模式表中进行匹配,如将具体内容为“数码 相机”或“手机 电池”的Query与语义模式“修饰词+产品”相匹配。
步骤S23、依据预设的参考信息,确定与所述查询词组所属语义模式对应的过滤方式和排序方式。所述参考信息以表格方式(即上述的对应关系数据表)呈现。先到所述对应关系表中查询与所述查询词组所属语义模式一致的语义模式,然后确定相应的过滤方式和排序方式。
所述参考信息即上述预处理过程设置的语义模式与过滤方式和排序方式的对应关系。
步骤S24、利用所述过滤方式对结果信息进行过滤后,按照对应的排序方式进行排序和显示。
具体的,利用查询词组进行搜索,然后利用所述过滤方式对搜索结果进行过滤,最后,按照所述排序方式进行排序和显示。
例如,对于查询词组“手机 电池”来说,其采用过滤方式是:利用“手机”作为修饰条件进行结果筛选,同时利用“电池”作为搜索主体输入搜索引擎进行搜索。
在上述预处理过程中,由于用户输入的Query纷繁多变,因此为了降低提取语义模式的复杂度,可以先对Query进行处理,例如去掉非法字符及无意义的Query(字典中不存在的中文、英文单词,乱码等),并在进行适当的规格化操作后(合并多余的空格,过滤无意义的符号),进行分词(分词具体方式属于现有技术,在此不对其展开描述),然后再确定语义模式。
此外,为了进一步提高语义模式区分度,在上述预处理过程中,可以总结一些能够直接体现用户意图的词语,例如“代理”、“求购”、“购买”、“加盟”等,为了方便描述,下文将此类词语称为意图词。通过意图词表自动挖掘其对应的语义模式,比如“意图词+产品”,并建立确定符合该语义模式对应的意图属性(歧义程度、权威性要求、时效性要求、地域性要求和批量大小)的过滤方式和排序方式。于是,在后续的检索过程中,当Query中包含出现上述意图词时,即可将其匹配为“意图词+产品”或“产品+意图词”的语义模式。因此,预处理过程中确定的语义模式如表5所示:
表5
Query | Semantic Pattern | PV |
数码 相机 | 修饰词 产品 | 13 |
...... | ...... | ...... |
维修 电动机 | 意图词 产品 | 11 |
需要说明的是,由于意图词是脱离Query语境整理的,存在覆盖率的问题,不能保证所有涉及意图词的语义模式都被发现和确定。为了解决这个问题,可以在进行统计之前,对Query进行扩展,将词汇本身和其所属语义模式进行替换,并都计入总数中,以期望所涵盖PV较高的带意图词的模式能够被发现和确定。例如内容为“化学产品 运输”的Query可以被扩展为“产品运输”、“产品 意图词”和“化学产品 意图词”。
对于扩展后的Query及其模式,因为数据量较大,可以通过分布式计算平台对其按照模式进行合并,并对结果按照PV进行排序,结果格式可以如下:
[Pattern]\t[PV]\t[Unique Count]\t[Examples]
此外,还需要说明的是,对与上述所有实施例中预处理过程中确定的语义模式,可以进行模式筛选,以确定良好的模式。本文认为,一个良好的模式,必然均匀地覆盖了一定数量的Query。具体的,可以通过以下方式进行评价:设置语义模式所覆盖的Query和PV的数量门限,并设置语义模式所覆盖具体Query的PV分布的熵的门限,先后以该数量门限和熵门限为基准,对确定的语义模式进行过滤,过滤掉覆盖能力不强或分布均匀性较差的语义模式。然后,再进行意图分析,并设置语义模式与分类目标的对应关系。
此外,设置意图词提高语义模式的区分度后,可能会出现一个Query对应多个语义模式的情况,具体含义的语义模式的配置优先级较高,而抽象含义的语义模式的配置优先级较低。例如:具体内容为“香蕉 价格”对应“产品 意图词”和“产品 价格”两个模式时,语义模式“产品 价格”将被确定与“香蕉 价格”唯一对应的语义模式。
本申请实施例根据自然语言特点及用户的习惯用法,设置语义模式,并根据用户意图,将语义模式与过滤方式和排序方式建立对应关系,从而使得在接收到用户输入的查询词组时,可在确定与该查询词组匹配的语义模式后,在按照对应的过滤方式和排序方式进行处理,一方面无需检索全部数据而减少工作量,另一方面,由于利用历史经验对用户意图进行分析,提高了用户意图与搜索结果的相关度,提高搜索精度。
本申请实施例同时还提供了实现上述方法的信息检索系统,该系统的结构如图3所示,包括:参考存储单元31、接收单元32、语义模式匹配单元33、处理方式确定单元34和执行单元35;
其中:
参考信息存储单元31,用于存储语义模式与过滤方式、排序方式的对应关系,所述语义模式为历史查询记录中的出现的各查询词组的语义模式中出现频率超过预定门限的语义模式;语义模式是根据自然语言特点总结得出的,如当查询词组包括多个查询字段时,根据自然语言特点,确定其中的中心词,例如:针对“手机 电池”这个查询词组,其中心词为“电池”,语义模式为“修饰词+产品”,同样的,“数码 相机”对应的语义模式也为“修饰词+产品”。
因为查询日志能够记录与某查询词组对应的用户行为,因此,可以通过统计历史记录中各语义模式对应的用户行为,设置体现该用户行为的用户查询意图属性。用户查询意图属性的设置决定了过滤方式和排序方式。因此,语义模式与过滤方式和排序方式的对应关系是可以建立的。
接收单元32,用于接收用户输入的查询词组,该查询词组一般包括两个或两个以上的关键词。
语义模式匹配单元33,用于将接收单元32接收到的查询词组进行语义分析确定其语义标签,进而确定其所属语义模式。
处理方式确定单元34,用于依据参考信息存储单元31中存储的信息,确定与所述查询词组所属语义模式对应的过滤方式和排序方式。
执行单元35,用于利用所述过滤方式和排序方式对搜索结果进行处理。
对于上述出现频率超过预定门限的语义模式,还可以进一步进行模式筛选,以从中确定良好的模式。本文认为,一个良好的模式,必然均匀地覆盖了一定数量的具有同样意图的Query。因此,模式筛选过程可以以覆盖率和/或熵值为基准进行,下面通过几个实施例详细说明:
图4示出了信息检索系统的一种结构形式,包括:参考存储单元41、接收单元42、语义模式匹配单元43、处理方式确定单元44、执行单元45和第一筛选单元46,其中:
接收单元42、语义模式匹配单元43、处理方式确定单元44和执行单元45的功能,与接收单元32、语义模式匹配单元33、处理方式确定单元34和执行单元35的功能基本相同。
第一筛选单元46用于:计算预定时间段内符合语义模式的查询词组的数量,将该查询数量与总查询数量的比例确定为该语义模式的覆盖率,并提取覆盖率大于预定门限的语义模式;
参考存储单元41用于:存储语义模式与过滤方式和排序方式的对应关系,所述语义模式为历史查询记录中的出现的各查询词组的语义模式中出现频率超过预定门限,且覆盖率大于预定门限的语义模式的语义模式。
图5示出了信息检索系统的另一种结构形式,包括:参考存储单元51、接收单元52、语义模式匹配单元53、处理方式确定单元54、执行单元55和第二筛选单元56,其中:
接收单元52、语义模式匹配单元53、处理方式确定单元54和执行单元55的功能,与接收单元32、语义模式匹配单元33、处理方式确定单元34和执行单元35的功能基本相同。
第二筛选单元56用于:计算预定时间段内属于同一语义模式的具体关键字段组针对所有查询的关键字段组中的熵,将其确定为所述语义模式的区分度,并提取熵大于预定值的语义模式;
参考存储单元51用于:存储语义模式与过滤方式和排序方式的对应关系,所述语义模式为历史查询记录中的出现的各查询词组的语义模式中出现频率超过预定门限,且熵大于预定值的语义模式。
图6示出了信息检索系统的另一种结构形式,包括:参考存储单元61、接收单元62、语义模式匹配单元63、处理方式确定单元64、执行单元65和第三筛选单元66,其中:
接收单元62、语义模式匹配单元63、处理方式确定单元64和执行单元65的功能,与接收单元32、语义模式匹配单元33、处理方式确定单元34和执行单元35的功能基本相同。
第三筛选单元66用于:计算预定时间段内符合语义模式的查询词组的数量,将该查询数量与总查询数量的比例确定为该语义模式的覆盖率,以及计算预定时间段内属于同一语义模式的具体关键字段组针对所有查询的关键字段组中的熵,并提取出现频率超过预定门限、覆盖率大于预定门限且熵大于预定值的语义模式;
参考存储单元61用于:存储语义模式与过滤方式和排序方式的对应关系,所述语义模式为历史查询记录中的出现的各查询词组的语义模式中出现频率超过预定门限、熵大于预定值且覆盖率大于预定门限的语义模式。
本领域技术人员可以理解,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种信息检索方法,其特征在于,包括:
预处理步骤,包括:
确定历史查询记录中出现的各查询词组的语义标签,根据语义标签统计语义模式,从统计结果中选择出现频率超过预定门限的语义模式;
通过统计历史记录中各语义模式对应的用户行为,设置体现该用户行为的用户查询意图属性,设置所述语义模式与该用户查询意图属性所指定的过滤方式和排序方式的对应关系;
检索步骤,包括:
接收查询词组,进行语义分析确定其所属语义标签;
依据所述对应关系,确定与所述查询词组所属语义模式对应的过滤方式和排序方式;
利用所述过滤方式和排序方式对搜索结果进行处理。
2.如权利要求1所述的方法,其特征在于,在确定高频语义模式后,还包括:依据覆盖率对语义模式进行筛选,筛选过程包括:
计算预定时间段内符合语义模式的查询词组的数量,将该查询数量与总查询数量的比例确定为该语义模式的覆盖率;
提取覆盖率大于预定门限的语义模式。
3.如权利要求1所述的方法,其特征在于,在确定高频语义模式后,还包括:依据区分度对语义模式进行筛选,筛选过程包括:
计算预定时间段内属于同一语义模式的具体关键字段组针对所有查询的关键字段组中的熵,将其确定为所述语义模式的区分度;
提取熵大于预定值的语义模式。
4.如权利要求1所述的方法,其特征在于,在确定高频语义模式后,还包括:依据覆盖率和区分度对语义模式进行筛选,筛选过程包括:
计算预定时间段内符合该语义模式的查询次数,将该查询次数与总查询次数的比例确定为该语义模式的覆盖率;
计算预定时间段内属于同一语义模式的具体关键字段组针对所有查询的关键字段组中的熵,将其确定为所述语义模式的区分度;
提取覆盖率大于预定门限及熵大于预定值的语义模式。
5.如权利要求1所述的方法,其特征在于,所述用户查询意图属性包括:歧义程度属性、权威性要求属性、时效性要求属性、地域要求属性和批量属性。
6.一种信息检索方法,其特征在于,包括:
接收查询词组,到预先设置的语义标签库中匹配相应的语义标签;
根据匹配到的所述语义标签到语义模式表中匹配获得所述查询词组的语义模式;
根据所述语义模式到按照用户查询意图属性预设的语义模式与过滤、排序方式的对应关系表中匹配获得所述查询词组对应的过滤方式和排序方式;
利用所述过滤方式和排序方式对所述查询词组的搜索结果进行处理。
7.一种信息检索系统,其特征在于,包括:
参考信息存储单元,用于存储语义模式与过滤方式和排序方式的对应关系,所述语义模式为历史查询记录中的出现的各查询词组的语义模式中出现频率超过预定门限的语义模式,所述过滤方式和排序方式为用户查询意图属性所指定,所述用户查询意图属性是通过统计历史记录中各语义模式对应的用户行为设定的;
接收单元,用于接收查询词组;
语义模式匹配单元,用于将所述接收单元接收到的查询词组进行语义分析确定其语义标签;
处理方式确定单元,用于依据所述参考信息存储单元中存储的信息,确定所述查询词组所属语义模式及其对应的过滤方式和排序方式;
执行单元,用于利用所述过滤方式和排序方式对搜索结果进行处理。
8.如权利要求7所述的系统,其特征在于,还包括:
第一筛选单元,用于:计算预定时间段内符合语义模式的查询词组的数量,将该查询数量与总查询数量的比例确定为该语义模式的覆盖率,并提取覆盖率大于预定门限的语义模式;
所述参考信息存储单元存储的语义模式为:出现频率超过预定门限且覆盖率大于预定门限的语义模式。
9.如权利要求7所述的系统,其特征在于,还包括:
第二筛选单元,用于:计算预定时间段内属于同一语义模式的具体关键字段组针对所有查询的关键字段组中的熵,将其确定为所述语义模式的区分度,并提取熵大于预定值的语义模式;
所述参考信息存储单元存储的语义模式为:出现频率超过预定门限且熵大于预定值的语义模式。
10.如权利要求7所述的系统,其特征在于,还包括:
第三筛选单元,用于:计算预定时间段内符合语义模式的查询词组的数量,将该查询数量与总查询数量的比例确定为该语义模式的覆盖率,以及计算预定时间段内属于同一语义模式的具体关键字段组针对所有查询的关键字段组中的熵,并提取出现频率超过预定门限、覆盖率大于预定门限且熵大于预定值的语义模式;
所述参考信息存储单元存储的语义模式为:出现频率超过预定门限、覆盖率大于预定门限且熵大于预定值的语义模式。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910171083XA CN102012900B (zh) | 2009-09-04 | 2009-09-04 | 信息检索方法和系统 |
US12/807,217 US8799275B2 (en) | 2009-09-04 | 2010-08-30 | Information retrieval based on semantic patterns of queries |
JP2012527862A JP5575902B2 (ja) | 2009-09-04 | 2010-08-31 | クエリのセマンティックパターンに基づく情報検索 |
EP10814082.3A EP2473936A4 (en) | 2009-09-04 | 2010-08-31 | INFORMATION REQUEST BASED ON SEMANTIC INQUIRY PATTERN |
PCT/US2010/002399 WO2011028277A1 (en) | 2009-09-04 | 2010-08-31 | Information retrieval based on semantic patterns of queries |
HK11105885.4A HK1151870A1 (en) | 2009-09-04 | 2011-06-10 | Method and system for information searching |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910171083XA CN102012900B (zh) | 2009-09-04 | 2009-09-04 | 信息检索方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102012900A true CN102012900A (zh) | 2011-04-13 |
CN102012900B CN102012900B (zh) | 2013-01-30 |
Family
ID=43648478
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200910171083XA Active CN102012900B (zh) | 2009-09-04 | 2009-09-04 | 信息检索方法和系统 |
Country Status (6)
Country | Link |
---|---|
US (1) | US8799275B2 (zh) |
EP (1) | EP2473936A4 (zh) |
JP (1) | JP5575902B2 (zh) |
CN (1) | CN102012900B (zh) |
HK (1) | HK1151870A1 (zh) |
WO (1) | WO2011028277A1 (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102169503A (zh) * | 2011-04-29 | 2011-08-31 | 北京百度网讯科技有限公司 | 一种获取与用户查询序列相对应的搜索结果的方法与设备 |
CN102779149A (zh) * | 2011-05-10 | 2012-11-14 | 索尼公司 | 信息处理装置,信息处理方法,程序和信息处理系统 |
CN102968418A (zh) * | 2011-09-01 | 2013-03-13 | 阿里巴巴集团控股有限公司 | 网站信息检索方法和系统 |
CN102982025A (zh) * | 2011-09-02 | 2013-03-20 | 北京百度网讯科技有限公司 | 一种搜索需求识别方法及装置 |
CN103186573A (zh) * | 2011-12-29 | 2013-07-03 | 北京百度网讯科技有限公司 | 一种确定搜索需求强度的方法、需求识别的方法及其装置 |
CN103207901A (zh) * | 2013-03-21 | 2013-07-17 | 百度在线网络技术(北京)有限公司 | 一种基于搜索引擎获取ip地址归属地的方法和装置 |
CN103365844A (zh) * | 2012-03-26 | 2013-10-23 | 阿里巴巴集团控股有限公司 | 一种提供搜索路径的方法及装置 |
CN103389988A (zh) * | 2012-05-10 | 2013-11-13 | 腾讯科技(深圳)有限公司 | 一种引导用户进行信息搜索的方法及装置 |
CN103425697A (zh) * | 2012-05-24 | 2013-12-04 | 中兴通讯股份有限公司 | 一种搜索方法及系统 |
CN103593469A (zh) * | 2013-11-30 | 2014-02-19 | 合一网络技术(北京)有限公司 | 一种采用互补信息的关联关键词计算方法及装置 |
CN105138544A (zh) * | 2015-07-09 | 2015-12-09 | 西南交通大学 | 一种重塑逻辑演绎链的搜索方法 |
CN105808627A (zh) * | 2014-12-31 | 2016-07-27 | 高德软件有限公司 | Poi信息更新、检索、poi数据包生成方法及装置 |
CN107480162A (zh) * | 2017-06-15 | 2017-12-15 | 北京百度网讯科技有限公司 | 基于人工智能的搜索方法、装置、设备及计算机可读存储介质 |
CN108052659A (zh) * | 2017-12-28 | 2018-05-18 | 北京百度网讯科技有限公司 | 基于人工智能的搜索方法、装置和电子设备 |
CN110569433A (zh) * | 2019-08-20 | 2019-12-13 | 腾讯科技(深圳)有限公司 | 搜索结果过滤器的构建方法、装置、电子设备及存储介质 |
CN111078988A (zh) * | 2019-12-23 | 2020-04-28 | 创意信息技术股份有限公司 | 一种电力服务信息热点检索方法、装置和电子设备 |
CN111177357A (zh) * | 2019-12-31 | 2020-05-19 | 中国人民大学 | 一个基于记忆神经网络的对话式信息检索的方法 |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8185544B2 (en) * | 2009-04-08 | 2012-05-22 | Google Inc. | Generating improved document classification data using historical search results |
US9047464B2 (en) * | 2011-04-11 | 2015-06-02 | NSS Lab Works LLC | Continuous monitoring of computer user and computer activities |
CN102880603A (zh) * | 2011-07-11 | 2013-01-16 | 阿里巴巴集团控股有限公司 | 一种排行榜数据过滤的方法和设备 |
US9405834B1 (en) * | 2011-11-04 | 2016-08-02 | Google Inc. | System and method for identifying search results satisfying a search query |
US20140351228A1 (en) * | 2011-11-28 | 2014-11-27 | Kosuke Yamamoto | Dialog system, redundant message removal method and redundant message removal program |
CN103425691B (zh) | 2012-05-22 | 2016-12-14 | 阿里巴巴集团控股有限公司 | 一种搜索方法和系统 |
CN103488648B (zh) | 2012-06-13 | 2018-03-20 | 阿里巴巴集团控股有限公司 | 一种多语种混合检索方法和系统 |
US9009850B2 (en) * | 2012-06-25 | 2015-04-14 | Bank Of America Corporation | Database management by analyzing usage of database fields |
CN103577413B (zh) | 2012-07-20 | 2017-11-17 | 阿里巴巴集团控股有限公司 | 搜索结果排序方法及系统、搜索结果排序优化方法及系统 |
US9336297B2 (en) | 2012-08-02 | 2016-05-10 | Paypal, Inc. | Content inversion for user searches and product recommendations systems and methods |
US9105068B2 (en) * | 2012-11-12 | 2015-08-11 | Facebook, Inc. | Grammar model for structured search queries |
CN103914494B (zh) * | 2013-01-09 | 2017-05-17 | 北大方正集团有限公司 | 一种微博用户身份识别方法及系统 |
US9037568B1 (en) | 2013-03-15 | 2015-05-19 | Google Inc. | Factual query pattern learning |
CN103279504B (zh) * | 2013-05-10 | 2019-11-05 | 百度在线网络技术(北京)有限公司 | 一种基于歧义消解的搜索方法及装置 |
CN103425744A (zh) * | 2013-07-17 | 2013-12-04 | 百度在线网络技术(北京)有限公司 | 一种用于识别用户的查询序列中的寻址需求的方法与设备 |
JP6098413B2 (ja) * | 2013-07-23 | 2017-03-22 | 富士通株式会社 | 分類パターン作成方法、分類パターン作成装置、および分類パターン作成プログラム |
CN104424215B (zh) * | 2013-08-23 | 2018-02-27 | 腾讯科技(深圳)有限公司 | 进行数据搜索的方法及搜索服务器 |
US9866446B2 (en) * | 2013-08-26 | 2018-01-09 | Akarsh Belagodu | Data retrieval system |
US9886479B2 (en) * | 2014-07-29 | 2018-02-06 | International Business Machines Corporation | Managing credibility for a question answering system |
JP6478734B2 (ja) * | 2014-10-31 | 2019-03-06 | 株式会社東芝 | アイテム推薦装置、アイテム推薦方法およびプログラム |
KR101646754B1 (ko) * | 2015-03-18 | 2016-08-12 | 연세대학교 산학협력단 | 모바일 시멘틱 검색 장치 및 그 방법 |
CN104915449B (zh) * | 2015-06-30 | 2018-11-09 | 河海大学 | 一种基于水利对象分类标签的分面检索系统及方法 |
US11170005B2 (en) * | 2016-10-04 | 2021-11-09 | Verizon Media Inc. | Online ranking of queries for sponsored search |
US10095600B2 (en) | 2016-10-07 | 2018-10-09 | International Business Machines Corporation | Real-time globalization verification on development operations |
CN109359233A (zh) * | 2018-09-13 | 2019-02-19 | 广州帷策智能科技有限公司 | 基于自然语言处理技术的公网海量信息监测方法和系统 |
US20200117742A1 (en) * | 2018-10-15 | 2020-04-16 | Microsoft Technology Licensing, Llc | Dynamically suppressing query answers in search |
US11086991B2 (en) * | 2019-08-07 | 2021-08-10 | Advanced New Technologies Co., Ltd. | Method and system for active risk control based on intelligent interaction |
CN111475725B (zh) * | 2020-04-01 | 2023-11-07 | 百度在线网络技术(北京)有限公司 | 用于搜索内容的方法、装置、设备和计算机可读存储介质 |
Family Cites Families (71)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5317671A (en) * | 1982-11-18 | 1994-05-31 | Baker Bruce R | System for method for producing synthetic plural word messages |
US5309546A (en) * | 1984-10-15 | 1994-05-03 | Baker Bruce R | System for method for producing synthetic plural word messages |
JPS63137327A (ja) * | 1986-11-29 | 1988-06-09 | Toshiba Corp | 意味ネツトワ−ク装置 |
US4965763A (en) * | 1987-03-03 | 1990-10-23 | International Business Machines Corporation | Computer method for automatic extraction of commonly specified information from business correspondence |
US4914585A (en) * | 1988-05-23 | 1990-04-03 | Hewlett-Packard Company | Modular complier with a class independent parser and a plurality of class dependent parsers |
JPH01314373A (ja) * | 1988-06-15 | 1989-12-19 | Hitachi Ltd | 機械翻訳システムにおける訳語選択方式 |
US5130924A (en) * | 1988-06-30 | 1992-07-14 | International Business Machines Corporation | System for defining relationships among document elements including logical relationships of elements in a multi-dimensional tabular specification |
US5313387A (en) * | 1989-06-30 | 1994-05-17 | Digital Equipment Corporation | Re-execution of edit-compile-run cycles for changed lines of source code, with storage of associated data in buffers |
US5428793A (en) * | 1989-11-13 | 1995-06-27 | Hewlett-Packard Company | Method and apparatus for compiling computer programs with interproceduural register allocation |
US5029223A (en) * | 1990-02-02 | 1991-07-02 | International Business Machines Corporation | Constraint driven-on line recognition of handwritten characters and symbols |
GB9009701D0 (en) * | 1990-04-30 | 1990-06-20 | Hewlett Packard Co | Object based computer system |
DE69131819T2 (de) * | 1990-08-09 | 2000-04-27 | Semantic Compaction System Pit | Kommunkationssystem mit textnachrichtenauffindung basiert auf konzepten die durch tastaturikonen eingegeben werden |
CA2246949C (en) * | 1991-03-28 | 2000-04-18 | Ibm Canada Limited-Ibm Canada Limitee | Method and means for encoding storing and retrieving hierarchical data processing information for a computer system |
JPH05197389A (ja) * | 1991-08-13 | 1993-08-06 | Toshiba Corp | 音声認識装置 |
US5572731A (en) * | 1992-12-30 | 1996-11-05 | Hewlett-Packard Company | Sequentially navigated object oriented computer system |
JP3015223B2 (ja) * | 1993-05-14 | 2000-03-06 | シャープ株式会社 | 特殊共起を処理する電子化辞書装置、及び機械翻訳装置、並びに情報検索装置 |
US5504914A (en) * | 1993-06-23 | 1996-04-02 | National Science Council | Multi-level instruction boosting method using plurality of ordinary registers forming plurality of conjugate register pairs that are shadow registers to each other with different only in MSB |
US5331556A (en) * | 1993-06-28 | 1994-07-19 | General Electric Company | Method for natural language data processing using morphological and part-of-speech information |
WO1995003586A1 (en) * | 1993-07-21 | 1995-02-02 | Persistence Software, Inc. | Method and apparatus for generation of code for mapping relational data to objects |
US5523945A (en) * | 1993-09-17 | 1996-06-04 | Nec Corporation | Related information presentation method in document processing system |
JP3067966B2 (ja) * | 1993-12-06 | 2000-07-24 | 松下電器産業株式会社 | 画像部品を検索する装置及びその方法 |
US5687254A (en) * | 1994-06-06 | 1997-11-11 | Xerox Corporation | Searching and Matching unrecognized handwriting |
US5625767A (en) * | 1995-03-13 | 1997-04-29 | Bartell; Brian | Method and system for two-dimensional visualization of an information taxonomy and of text documents based on topical content of the documents |
US5692184A (en) * | 1995-05-09 | 1997-11-25 | Intergraph Corporation | Object relationship management system |
US5721938A (en) * | 1995-06-07 | 1998-02-24 | Stuckey; Barbara K. | Method and device for parsing and analyzing natural language sentences and text |
US5664173A (en) * | 1995-11-27 | 1997-09-02 | Microsoft Corporation | Method and apparatus for generating database queries from a meta-query pattern |
US5676138A (en) * | 1996-03-15 | 1997-10-14 | Zawilinski; Kenneth Michael | Emotional response analyzer system with multimedia display |
US5909678A (en) * | 1996-09-13 | 1999-06-01 | International Business Machines Corporation | Computer systems, method and program for constructing statements by dragging and dropping iconic representations of subcomponent statements onto a phrase template |
US6233575B1 (en) * | 1997-06-24 | 2001-05-15 | International Business Machines Corporation | Multilevel taxonomy based on features derived from training documents classification using fisher values as discrimination values |
US5865862A (en) * | 1997-08-12 | 1999-02-02 | Hassan; Shawky | Match design with burn preventative safety stem construction and selectively impregnable scenting composition means |
US6006223A (en) * | 1997-08-12 | 1999-12-21 | International Business Machines Corporation | Mapping words, phrases using sequential-pattern to find user specific trends in a text database |
US6185560B1 (en) * | 1998-04-15 | 2001-02-06 | Sungard Eprocess Intelligance Inc. | System for automatically organizing data in accordance with pattern hierarchies therein |
JP2000132550A (ja) * | 1998-10-26 | 2000-05-12 | Matsushita Electric Ind Co Ltd | 機械翻訳のための中国語生成装置 |
US6523028B1 (en) | 1998-12-03 | 2003-02-18 | Lockhead Martin Corporation | Method and system for universal querying of distributed databases |
US6314419B1 (en) * | 1999-06-04 | 2001-11-06 | Oracle Corporation | Methods and apparatus for generating query feedback based on co-occurrence patterns |
US7630986B1 (en) * | 1999-10-27 | 2009-12-08 | Pinpoint, Incorporated | Secure data interchange |
US7392185B2 (en) | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
JP4320491B2 (ja) * | 1999-11-18 | 2009-08-26 | ソニー株式会社 | 文書処理システム、端末装置、文書提供装置、文書処理方法、記録媒体 |
US6859800B1 (en) | 2000-04-26 | 2005-02-22 | Global Information Research And Technologies Llc | System for fulfilling an information need |
KR100426382B1 (ko) * | 2000-08-23 | 2004-04-08 | 학교법인 김포대학 | 엔트로피 정보와 베이지안 에스오엠을 이용한 문서군집기반의 순위조정 방법 |
US6766320B1 (en) * | 2000-08-24 | 2004-07-20 | Microsoft Corporation | Search engine with natural language-based robust parsing for user query and relevance feedback learning |
US6697793B2 (en) | 2001-03-02 | 2004-02-24 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration | System, method and apparatus for generating phrases from a database |
US7711547B2 (en) | 2001-03-16 | 2010-05-04 | Meaningful Machines, L.L.C. | Word association method and apparatus |
US7409335B1 (en) | 2001-06-29 | 2008-08-05 | Microsoft Corporation | Inferring informational goals and preferred level of detail of answers based on application being employed by the user |
AU2003210393A1 (en) * | 2002-02-27 | 2003-09-09 | Michael Rik Frans Brands | A data integration and knowledge management solution |
US20050076003A1 (en) * | 2003-10-06 | 2005-04-07 | Dubose Paul A. | Method and apparatus for delivering personalized search results |
US7747601B2 (en) * | 2006-08-14 | 2010-06-29 | Inquira, Inc. | Method and apparatus for identifying and classifying query intent |
US20060064411A1 (en) | 2004-09-22 | 2006-03-23 | William Gross | Search engine using user intent |
JP2008529173A (ja) * | 2005-01-31 | 2008-07-31 | テキストディガー,インコーポレイテッド | 電子文書の意味検索および取り込みのための方法およびシステム |
US7689411B2 (en) * | 2005-07-01 | 2010-03-30 | Xerox Corporation | Concept matching |
US20080214148A1 (en) * | 2005-11-05 | 2008-09-04 | Jorey Ramer | Targeting mobile sponsored content within a social network |
US20080215557A1 (en) * | 2005-11-05 | 2008-09-04 | Jorey Ramer | Methods and systems of mobile query classification |
US20110153428A1 (en) * | 2005-09-14 | 2011-06-23 | Jorey Ramer | Targeted advertising to specified mobile communication facilities |
JP4997743B2 (ja) | 2005-11-10 | 2012-08-08 | 日本電気株式会社 | 文書検索装置、文書検索プログラムおよび文書検索方法 |
CN1794233A (zh) * | 2005-12-28 | 2006-06-28 | 刘文印 | 一种网上用户交互问答方法及其系统 |
US7593939B2 (en) | 2006-04-07 | 2009-09-22 | Google Inc. | Generating specialized search results in response to patterned queries |
EP2076874A4 (en) * | 2006-05-13 | 2011-03-09 | Sap Ag | DERIVED CONSISTENT SET OF INTERFACES DERIVED FROM A BUSINESS OBJECT MODEL |
CN100384134C (zh) * | 2006-05-18 | 2008-04-23 | 复旦大学 | 播存网格环境下客户端资源检索及自动下载方法 |
US7860886B2 (en) * | 2006-09-29 | 2010-12-28 | A9.Com, Inc. | Strategy for providing query results based on analysis of user intent |
US8065319B2 (en) * | 2007-04-01 | 2011-11-22 | Nec Laboratories America, Inc. | Runtime semantic query optimization for event stream processing |
US7882485B2 (en) * | 2007-04-02 | 2011-02-01 | International Business Machines Corporation | Method for modeling components of an information processing application using semantic graph transformations |
EP3023876A1 (en) * | 2007-08-31 | 2016-05-25 | Phase Change Software LLC | Quality assurance tools for use with source code and a semantic model |
JP2009080577A (ja) * | 2007-09-25 | 2009-04-16 | Toshiba Corp | 情報検索支援装置及び方法 |
CN101398810B (zh) * | 2007-09-30 | 2013-05-01 | 日电(中国)有限公司 | 自适应服务选择设备及其方法,查询系统及其方法 |
US8126880B2 (en) | 2008-02-22 | 2012-02-28 | Tigerlogic Corporation | Systems and methods of adaptively screening matching chunks within documents |
CN101334796B (zh) * | 2008-02-29 | 2011-01-12 | 浙江师范大学 | 一种个性化及协同化融合的网上多媒体检索与查询方法 |
US8060513B2 (en) * | 2008-07-01 | 2011-11-15 | Dossierview Inc. | Information processing with integrated semantic contexts |
CN101853257B (zh) * | 2009-03-31 | 2012-09-26 | 国际商业机器公司 | Sparql查询的转换系统和方法 |
US8224839B2 (en) * | 2009-04-07 | 2012-07-17 | Microsoft Corporation | Search query extension |
US20100332493A1 (en) * | 2009-06-25 | 2010-12-30 | Yahoo! Inc. | Semantic search extensions for web search engines |
US8874581B2 (en) * | 2010-07-29 | 2014-10-28 | Microsoft Corporation | Employing topic models for semantic class mining |
-
2009
- 2009-09-04 CN CN200910171083XA patent/CN102012900B/zh active Active
-
2010
- 2010-08-30 US US12/807,217 patent/US8799275B2/en active Active
- 2010-08-31 WO PCT/US2010/002399 patent/WO2011028277A1/en active Application Filing
- 2010-08-31 EP EP10814082.3A patent/EP2473936A4/en not_active Withdrawn
- 2010-08-31 JP JP2012527862A patent/JP5575902B2/ja not_active Expired - Fee Related
-
2011
- 2011-06-10 HK HK11105885.4A patent/HK1151870A1/xx not_active IP Right Cessation
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102169503A (zh) * | 2011-04-29 | 2011-08-31 | 北京百度网讯科技有限公司 | 一种获取与用户查询序列相对应的搜索结果的方法与设备 |
CN102779149A (zh) * | 2011-05-10 | 2012-11-14 | 索尼公司 | 信息处理装置,信息处理方法,程序和信息处理系统 |
CN102779149B (zh) * | 2011-05-10 | 2016-12-14 | 索尼公司 | 信息处理装置,信息处理方法和信息处理系统 |
CN102968418A (zh) * | 2011-09-01 | 2013-03-13 | 阿里巴巴集团控股有限公司 | 网站信息检索方法和系统 |
CN102982025A (zh) * | 2011-09-02 | 2013-03-20 | 北京百度网讯科技有限公司 | 一种搜索需求识别方法及装置 |
CN102982025B (zh) * | 2011-09-02 | 2016-05-11 | 北京百度网讯科技有限公司 | 一种搜索需求识别方法及装置 |
CN103186573A (zh) * | 2011-12-29 | 2013-07-03 | 北京百度网讯科技有限公司 | 一种确定搜索需求强度的方法、需求识别的方法及其装置 |
CN103186573B (zh) * | 2011-12-29 | 2016-05-18 | 北京百度网讯科技有限公司 | 一种确定搜索需求强度的方法、需求识别的方法及其装置 |
CN103365844B (zh) * | 2012-03-26 | 2016-05-11 | 阿里巴巴集团控股有限公司 | 一种提供搜索路径的方法及装置 |
CN103365844A (zh) * | 2012-03-26 | 2013-10-23 | 阿里巴巴集团控股有限公司 | 一种提供搜索路径的方法及装置 |
CN103389988A (zh) * | 2012-05-10 | 2013-11-13 | 腾讯科技(深圳)有限公司 | 一种引导用户进行信息搜索的方法及装置 |
CN103425697A (zh) * | 2012-05-24 | 2013-12-04 | 中兴通讯股份有限公司 | 一种搜索方法及系统 |
CN103425697B (zh) * | 2012-05-24 | 2017-09-26 | 中兴通讯股份有限公司 | 一种搜索方法及系统 |
CN103207901B (zh) * | 2013-03-21 | 2019-03-08 | 百度在线网络技术(北京)有限公司 | 一种基于搜索引擎获取ip地址归属地的方法和装置 |
CN103207901A (zh) * | 2013-03-21 | 2013-07-17 | 百度在线网络技术(北京)有限公司 | 一种基于搜索引擎获取ip地址归属地的方法和装置 |
CN103593469B (zh) * | 2013-11-30 | 2016-04-20 | 合一网络技术(北京)有限公司 | 一种采用互补信息的关联关键词计算方法及装置 |
CN103593469A (zh) * | 2013-11-30 | 2014-02-19 | 合一网络技术(北京)有限公司 | 一种采用互补信息的关联关键词计算方法及装置 |
CN105808627A (zh) * | 2014-12-31 | 2016-07-27 | 高德软件有限公司 | Poi信息更新、检索、poi数据包生成方法及装置 |
CN105138544A (zh) * | 2015-07-09 | 2015-12-09 | 西南交通大学 | 一种重塑逻辑演绎链的搜索方法 |
CN105138544B (zh) * | 2015-07-09 | 2018-05-15 | 西南交通大学 | 一种重塑逻辑演绎链的搜索方法 |
CN107480162B (zh) * | 2017-06-15 | 2021-09-21 | 北京百度网讯科技有限公司 | 基于人工智能的搜索方法、装置、设备及计算机可读存储介质 |
CN107480162A (zh) * | 2017-06-15 | 2017-12-15 | 北京百度网讯科技有限公司 | 基于人工智能的搜索方法、装置、设备及计算机可读存储介质 |
CN108052659A (zh) * | 2017-12-28 | 2018-05-18 | 北京百度网讯科技有限公司 | 基于人工智能的搜索方法、装置和电子设备 |
CN108052659B (zh) * | 2017-12-28 | 2022-03-11 | 北京百度网讯科技有限公司 | 基于人工智能的搜索方法、装置和电子设备 |
US11275898B2 (en) | 2017-12-28 | 2022-03-15 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Search method and device based on artificial intelligence |
CN110569433A (zh) * | 2019-08-20 | 2019-12-13 | 腾讯科技(深圳)有限公司 | 搜索结果过滤器的构建方法、装置、电子设备及存储介质 |
CN110569433B (zh) * | 2019-08-20 | 2024-03-22 | 腾讯科技(深圳)有限公司 | 搜索结果过滤器的构建方法、装置、电子设备及存储介质 |
CN111078988A (zh) * | 2019-12-23 | 2020-04-28 | 创意信息技术股份有限公司 | 一种电力服务信息热点检索方法、装置和电子设备 |
CN111078988B (zh) * | 2019-12-23 | 2020-09-08 | 创意信息技术股份有限公司 | 一种电力服务信息热点检索方法、装置和电子设备 |
CN111177357A (zh) * | 2019-12-31 | 2020-05-19 | 中国人民大学 | 一个基于记忆神经网络的对话式信息检索的方法 |
CN111177357B (zh) * | 2019-12-31 | 2023-05-23 | 中国人民大学 | 一个基于记忆神经网络的对话式信息检索的方法 |
Also Published As
Publication number | Publication date |
---|---|
US8799275B2 (en) | 2014-08-05 |
HK1151870A1 (en) | 2012-02-10 |
US20110060733A1 (en) | 2011-03-10 |
EP2473936A1 (en) | 2012-07-11 |
CN102012900B (zh) | 2013-01-30 |
EP2473936A4 (en) | 2016-11-09 |
JP5575902B2 (ja) | 2014-08-20 |
WO2011028277A1 (en) | 2011-03-10 |
JP2013504118A (ja) | 2013-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102012900B (zh) | 信息检索方法和系统 | |
US9418144B2 (en) | Similar document detection and electronic discovery | |
CN111008265B (zh) | 企业信息搜索方法及装置 | |
CN101876981B (zh) | 一种构建知识库的方法及装置 | |
CN102760138B (zh) | 用户网络行为的分类方法和装置及对应的搜索方法和装置 | |
CN101510221B (zh) | 一种用于信息检索的查询语句分析方法与系统 | |
US8560513B2 (en) | Searching for information based on generic attributes of the query | |
CN101079064B (zh) | 一种网页排序方法及装置 | |
CN101295319B (zh) | 一种扩展查询的方法、装置及搜索引擎系统 | |
CN102063469B (zh) | 一种用于获取相关关键词信息的方法、装置和计算机设备 | |
Wang et al. | Measuring patent similarity with SAO semantic analysis | |
CN107862070B (zh) | 基于文本聚类的线上课堂讨论短文本即时分组方法及系统 | |
US20060212441A1 (en) | Full text query and search systems and methods of use | |
CN103678576A (zh) | 基于动态语义分析的全文检索系统 | |
CN103605665A (zh) | 一种基于关键词的评审专家智能检索与推荐方法 | |
CN104899268A (zh) | 一种分布式企业信息垂直搜索方法 | |
CN103425687A (zh) | 一种基于关键词的检索方法和系统 | |
CN104375992A (zh) | 一种地址匹配的方法和装置 | |
US9569525B2 (en) | Techniques for entity-level technology recommendation | |
Bernardini et al. | Full-subtopic retrieval with keyphrase-based search results clustering | |
CN104123366A (zh) | 一种搜索方法及搜索服务器 | |
CN102339294A (zh) | 一种对关键词进行预处理的搜索方法和系统 | |
CN105183774A (zh) | 一种智能查询方法及系统 | |
CN102103604B (zh) | 检索词核心权重确定方法和装置 | |
Liao et al. | Improving farm management optimization: Application of text data analysis and semantic networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1151870 Country of ref document: HK |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: GR Ref document number: 1151870 Country of ref document: HK |