还剩27页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
编程语言概述Python习级编语应数Python是一种功能强大且易于学的高程言它广泛用于据分析、习络开领简语标库让们机器学、网发等域,具有洁优雅的法和丰富的准我一起探索Python的魅力所在字符串的定义字符串是什么字符串的基本特点组创字符串是由一个或多个字符成字符串是不可变的,一旦建就无数标内的序列,可以包含字母、字、法修改其容字符串是有序的,编语点符号等各种字符它是程每个字符都有唯一的位置数言中常用的一种据类型字符串的用途应数储络场编字符串广泛用于文本处理、据存、网通信等景,是程不可或缺数的重要据类型字符串的特点不可变性数创字符串是不可变的据类型,一旦建就不能被修改有序序列组字符串是由有序排列的字符成的序列,每个字符都有唯一的索引值文本表示码字符串可以用于表示各种文本信息,如文章、网页、代等字符串的创建字面值1单创使用引号、双引号或三引号建字符串字面值变量赋值2将赋给字符串值变量字符串函数3数将转换为使用str函其他类型字符串创将赋给数将转换为论选择在Python中,有多种方式可以建字符串:使用字面值、值变量,或者利用str函其他类型字符串无哪种方式,字质组符串本上都是由Unicode字符成的不可变序列单引号、双引号、三引号单引号双引号单来称来称用引号括起的字符串,被用双引号括起的字符串,被为单为单引号字符串它可以包含字双引号字符串它的用法与数母、字和特殊字符引号类似,但更常用于包含特殊字符三引号单来称为用三个引号或三个双引号括起的字符串,被三引号字符串它可档以跨越多行,常用于长字符串或文字符串字符串索引下标从开始01标开计数Python中字符串的下从0始正向索引2为从左到右依次0,1,2,
3...反向索引3为从右到左依次-1,-2,-3,-
4...来标识这访问字符串中的每个字符都有一个唯一的索引值它在字符串中的位置些索引值可用于和操作字符串中的特定字符字符串切片索引访问灵活应用访问单开开结使用方括号可以字符串中的个字符,索引从0始切片可以设置始和束位置,也可以设置步长123切片语法获使用冒号可以切片字符串,取字符串的一部分字符串常用方法
一、、upper lowersplitupper lowersplit将写转换为写将写转换为写将这字符串中的所有小字母大字母字符串中的所有大字母小字母根据指定的分隔符字符串拆分成列表这对标这对规对将数于准化文本输入非常有用于文本范化和搜索非常有用于文本据拆分成更小的部分非常有用字符串常用方法
二、、strip replacejoinstrip replacejoin将换为将去除字符串两端的空白字符,字符串中指定的子串替序列中的元素以指定的字符换规连包括空格、行符、制表符等新的子串可用于大模的文接生成一个新的字符串常数换词过滤将组转换为常用于清理用户输入的据本替操作,如敏感用于列表或元字符串字符串格式化基础格式化进使用%s、%d、%f等占位符行字符串格式化,灵活搭配各种数据类型格式化输出过宽对现观通控制占位符的度和齐方式,实更美的格式化输出方法format进数对使用format方法行格式化,支持更灵活的据齐和格式化控制格式化f-string简单拼接1称直接在字符串中使用变量名格式化表达式2使用{变量名}的形式数学运算3进数可在{}中行学运算函数调用4调数可在{}中用函传简读f-string是Python
3.6中引入的一种新的字符串格式化方式它相比统的字符串格式化方式更加洁、灵活和可性强可以直接在字符串中使称数调用变量名、表达式、函用等,极大地提高了字符串拼接的效率字符串的比较和连接字符串比较字符串连接较较将连来连使用比运算符、、==、!=等可以比两个字符串的大小和使用加号+可以两个或多个字符串接起接后会生成一较时进较相等性比会逐个字符行比个新的字符串字符串的常见应用场景一密码验证安全性灵活性术现过码杂利用字符串处理技可以实密可以通设置密长度、复度码验证账规则码加密和,以确保户信息的等,灵活地控制密安全性要安全性求用户体验码验证虑验密需要与用户交互,需要考用户体,如提示信息的友好性等字符串的常见应用场景二敏感词过滤敏感词过滤文本清洗过滤profanity线论时识别过滤词过滤还对时戏场时在社交媒体或在坛上,及和除了敏感,字符串操作可用于文在即通信、游聊天等景下,需要实词汇当内进标签检测脏话语掉敏感非常重要,避免发布不容本行其他清洗,如去除HTML、特殊并屏蔽含有或粗俗言的信息,保这开杂词库来检测数验需要发复的算法和潜在的字符等,确保据的清洁和安全护用户体敏感信息字符串的常见应用场景三文本处理文本分析对进词词频计获利用字符串方法文本行分、统、情感分析等,以取有价值的洞见代码操作编数读写则场在程中,字符串是主要的据类型之一,用于文件、正匹配等景数据清洗为续数利用字符串方法去除文本中的多余空格、特殊字符等,后的据分析做好准备网址解析结构分析域名识别1URL2协议径题网址包含、域名、路、域名通常反映网站的主或属数过断查询参等部分,可以通解析性,可以用于判网站的可信度这获内质些元素取有价值的信息和容性路径解析参数提取34径显数网址的路部分可以示网页查询参通常包含用户输入或录结内关键对数的目构,帮助分析网站的系统生成的信息,于据组逻辑容织方式分析和业务很有帮助字符串的常见应用场景五数据清洗清洗原始数据数数读利用字符串方法去除据中的多余空格、特殊字符等,提高据的可性和一致性文本标准化将数续数不同格式的文本据统一成特定的格式,以便后的据分析和处理校验数据有效性数检数码利用字符串函查据是否符合特定的格式要求,如手机号、邮箱地址等字符串的内存占用内字符串类型存占用单节内个字符通常占用28字的存储内短字符串存在字符串池中,占用更少存内来储数长字符串需要更多存存字符据内储字符串占用存的多少取决于字符串的长度和类型短字符串可以存在字符串内时应池中,而长字符串需要更多存在使用字符串,注意合理控制字符串长度内,以优化存使用字符串的编码和解码编码将转换为计识别进储传字符串算机可的二制格式,以便存和输编码常见包括ASCII、Unicode和UTF-8解码将进数转换读编码码二制据回人类可的字符串形式和解需要使编码用相同的方式编码方式的选择应场选择编码根据用景和字符集需求合适的方式,如ASCII适用于语英文,而UTF-8支持全球所有言对象和对象bytes bytearray对象对象bytes bytearray对节进数们bytes象是不可变的字序列,用于表示二制据它支持数单节对大多字符串操作,但不可以修改个字bytes象在处理二进络编码码时制文件、网通信和解很有用常见编码方式、、ASCII UnicodeUTF-8编码编码编码ASCII UnicodeUTF-8编码编码编码标编码现ASCII是最早的一种字符方式,只Unicode是一种通用的字符准,可以UTF-8是Unicode的一种实,使用节编能表示128个字符,主要用于英文它使用表示世界上所有的文字和符号Unicode1-4个字表示一个字符它兼容ASCII节节码绝1个字表示一个字符使用2个字表示一个字符,并且可以表示世界上大部分的文字编码和解码的应用场景文件读写网络传输12读写时络传编码码数处理文件需要正确管理网输中需要和解编码则现乱码问传过文件,否会出据,以确保信息在输程中题损不会丢失或坏数据库操作国际化和本地化34储读数库时时存和取据需要正确处理国际化和本地化需要合编码码数编码码术和解,确保据的完整理使用和解技,以支语性和正确性持多种言字符串和字节的转换字符串转字节1将转换为节对可以使用字符串的encode方法字符串字象编码为格式可以指定常见的UTF-
8、ASCII或其他字节转字符串2节对将节转换为可以使用字象的decode方法字字符串解码编码适用场景3格式需要与格式相匹配节转换络读写数库字符串和字的常用于网通信、文件、据交进数场互等需要处理二制据的景字符串驻留机制内存优化效率提升过驻驻较通字符串留机制,Python可字符串留可以加快字符串比内内为较内以在存中重复使用相同容的的速度,因只需比存地址对节内内字符串象,从而省存占用而不是整个字符串容程序安全驻对稳字符串留机制可以防止意外修改字符串象,提高程序的安全性和定性字符串的不可变性内容固定提高效率创内内字符串一经建,其容是不可变字符串的不可变性使其在存中对的,无法直接修改任何字符串占用更小,并且可以被共享,提高了产的操作都会生一个新的字符串程序的运行效率对象增强安全性数字符串的不可变性降低了意外修改据的风险,增强了程序的安全性字符串的内存优化避免频繁的字符串连接利用字符串驻留机制12连内对字符串接操作需要分配新Python会自动字面量字符内计进驻内开存空间,会增加存占用和算串行留,以复用存发开销驻为可以使用列表或生成器者也可以手动控制留行来替代使用更紧凑的字符编码利用字符串切片优化34选择编码内合适的字符可以减少字符串切片操作不会分配新内层数字符串在存中的占用空间,如存,而是共享底据,可以减内开销使用UTF-8代替Unicode少存字符串的性能优化技巧使用适合的数据结构减少字符串拼接操作合理利用内存频选择尽内驻根据字符串的大小和使用率,合适的量使用字符串格式化或f-string而不是字使用Python置的字符串留机制和垃圾数结对应当频来内对据构可以提高性能如于小字符串符串拼接,可以大幅提高性能需要繁回收机制优化存使用于不变的字符内对时对节内使用置的字符串类型,于大字符串可使拼接字符串,可以使用列表或生成器串,可以重复使用同一个象以省存用列表或生成器字符串相关的内置函数和方法总结基础字符串操作判断和搜索修改和替换格式化和对齐获断len取字符串长度,str isalpha、isdigit等判字upper、lower改变大小format、f-string格式化字将转换为断写连其他类型字符串,符类型,in判子串是否存在,split、join分割接符串,ljust、rjust、将数转换为对应换对chr整,find搜索子串位置字符串,replace替子串center齐字符串Unicode字符字符串的最佳实践保持一致性优化性能项编码过术在整个目中使用统一的格式和通使用合适的字符串方法和技,可读维码执风格可以提高可性和护性以提高代的行效率确保安全性编写良好文档谨现为码详细释开慎处理用户输入,避免出安全漏洞,代添加注,以便于其他发击员维如SQL注入和XSS攻人理解和护。
个人认证
优秀文档
获得点赞 0