还剩48页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
信息检索教程数字时代的关键技能解决信息爆炸难题数据到知识的桥梁信息检索基础概念定义范围数据信息知识时代挑战从海量数据中查找相关信息由低到高的认知层次应对信息过载和质量参差信息检索发展历史1手工检索时代图书馆卡片目录系统2计算机检索20世纪60年代布尔检索3互联网搜索90年代搜索引擎兴起4人工智能检索语义理解与智能推荐信息检索系统架构数据采集爬虫抓取与处理建立索引创建倒排索引结构查询处理分析匹配排序结果用户界面呈现结果收集反馈文本预处理技术文档解析分词处理提取纯文本内容切分文本为词元词形还原停用词过滤规范化词汇形式去除无意义词汇中文分词技术基于词典统计方法最大匹配法基于词频共现概率机器学习常用工具CRF与深度学习模型jieba、THULAC、HanLP文本表示模型一布尔模型基本原理文档表示为词项存在与否查询使用布尔逻辑表达式完全匹配不考虑权重布尔模型文档匹配示意图文本表示模型二向量空间模型维N TF-IDF向量表示权重计算文档词项为向量坐标词频与逆文档频率余弦值相似度向量夹角衡量相关性文本表示模型三概率模型相关性概率估计文档与查询相关概率算法BM25经典概率排序函数词项权重考虑词频和文档长度文本表示模型四语言模型统计语言模型计算文档生成查询概率平滑技术解决零概率问题参数调优混合模型权重调整倒排索引结构词典词项及其指针倒排列表包含词项的文档ID位置信息词项在文档中位置倒排索引构建索引优化排序合并压缩和增量更新词项提取BSBI或SPIMI算法文档收集分词并生成词项列表收集并处理原始文档索引压缩技术必要性字典压缩减少存储空间前缀树结构提高检索速度哈希映射技术倒排列表压缩差值编码可变字节编码查询处理基础查询处理流程分析→改写→扩展→优化关键技术同义词扩展、拼写纠错、分词优化查询处理算法检索模型评价指标精确率与召回率值F NDCG查准率与查全率的权衡精确率和召回率的调和平均考虑位置的排序质量指标检索系统评测方法用户研究测试A/B用户满意度调查在线对比实验离线评测日志分析TREC评测集点击行为评估信息检索基础Web信息特征Web海量、异构、动态变化网页抓取爬虫策略与礼节信息提取结构化数据抽取网页索引大规模分布式索引网页爬虫技术管理URL优先级队列维护网页下载HTTP请求与响应内容解析提取链接与正文数据存储分布式文件系统链接分析算法一PageRank基本原理基于网页链接结构的重要性计算随机冲浪者模型用户随机点击链接矩阵迭代计算收敛至稳定值网页间链接结构与重要性传递示意图链接分析算法二HITS权威值与中心值互相增强的双重角色页面Hub指向多个权威页面页面Authority被多个中心页面指向网页排序技术排序因子内容相关性、链接分析、用户行为机器学习排序LambdaRank、LambdaMART个性化排序考虑用户偏好与上下文查询日志分析日志收集模式挖掘查询词与点击行为查询-点击关系分析系统优化查询建议基于用户行为改进自动补全与推荐文本分类技术问题定义为文档分配预定义类别特征工程TF-IDF、词袋模型分类算法贝叶斯、SVM、神经网络朴素贝叶斯分类器与深度学习分类SVM支持向量机深度学习寻找最优分类超平面CNN处理文本序列核函数处理非线性问题BERT预训练模型适合小规模高维数据端到端训练无需特征工程文本聚类技术聚类基本概念相似度计算聚类方法无监督将相似文档分组余弦距离、欧氏距离层次、划分、密度、模型层次聚类与K-means层次聚类评价指标K-means自底向上或自顶向下基于质心的划分聚类轮廓系数、DBI指数主题模型一LSI词项文档矩阵-表示词与文档关系分解SVD降维提取潜在语义低维表示揭示词项间隐含关系主题模型二LDA主题生成文档表示每个主题是词分布主题混合比例模型推断词生成吉布斯采样或变分推断基于文档主题分布信息抽取基础命名实体识别关系抽取人名、地点、组织等实体实体间语义关系识别序列标注问题模式匹配与机器学习方法事件抽取文本中事件要素识别触发词与论元结构问答系统技术问题分析问题类型识别与分类信息检索查询关键段落文档答案提取定位抽取精确答案答案验证评估可信度排序推荐系统与信息检索协同过滤基于内容推荐•基于用户相似度•物品特征提取•基于物品相似度•用户兴趣建模•矩阵分解技术•相似度匹配算法多媒体检索技术图像检索音频检索视频检索颜色、纹理、形状特征声纹与频谱分析关键帧与运动特征移动搜索技术位置感知基于地理位置的相关性上下文理解时间、环境等因素移动界面触屏优化交互设计社交网络搜索社交数据特征社交关系实时性与传播性社交图谱分析个性化推荐影响力分析4好友活动与兴趣意见领袖识别语义网与知识图谱语义网标准RDF、OWL、SPARQL知识图谱构建实体关系三元组知识推理本体推理与规则推理语义检索结构化查询与问答实体检索技术实体排序实体索引计算实体相关性实体链接建立实体检索索引实体识别连接到知识库实体从文本中发现实体词向量与深度学习基础Word2Vec GloVeFastTextCBOW与Skip-gram模型全局词共现统计子词级别表示学习深度学习检索模型一CNN多层压缩卷积层池化操作提取局部文本特征降维保留关键信息查文表示模型匹配文档与查询深度学习检索模型二RNN1序列建模捕捉文本时序特征LSTM/GRU解决长距离依赖问题双向结构综合前后文信息注意力机制动态关注重要信息深度学习检索模型三Transformer自注意力机制无需循环直接建模全局依赖多头注意力并行计算位置编码保留序列信息自注意力机制示意图与预训练模型BERT双向编码器同时考虑左右上下文掩码语言模型预测被掩盖的词微调技术特定任务适应训练检索应用双塔模型与交互模型神经网络检索系统表示学习模型独立编码查询文档交互式模型建模查询文档交互混合架构两阶段检索排序跨语言信息检索翻译方法跨语言表示查询或文档翻译多语言联合向量空间2评测方法平行语料对齐4多语言检索标准建立语言间映射信息检索中的隐私保护隐私挑战保护技术查询泄露用户意图查询混淆与模糊化画像可能暴露身份安全多方计算匿名检索匿名通信技术去标识化处理信息检索系统评价实践评价方法离线指标评测、用户研究、A/B测试关键点构建标准评测集、定义明确任务、统计显著性检验信息检索系统实现案例Elasticsear SolrLucenech高性能搜索服底层索引库分布式全文搜务器索引擎Anserini研究型检索平台前沿研究与未来趋势神经符号融合多模态检索大规模预训练结合符号推理与深度学习跨媒体内容理解基础模型检索应用课程总结与展望基础知识索引结构与检索模型进阶技术机器学习与深度学习未来方向3多模态与知识驱动。
个人认证
优秀文档
获得点赞 0