解决python 文本过滤和清理问题

站长资源 2024/12/25 佚名

71 1538 71

铁雪资源网 Design By www.gsvan.com

问题

某些无聊的脚本小子在Web页面表单中填入了“pýt"color: #ff0000">解决方案

文本过滤和清理所涵盖的范围非常广泛，涉及文本解析和数据处理方面的问题。在非常简单的层次上，我们可能会用基本的字符串函数（例如str.upper()和str.lower()）将文本转换为标准形式。简单的替换操作可通过str.replace()或re.sub()来完成，它们把重点放在移除或修改特定的字符序列上。也可以利用unicodedata.normalize()来规范化文本。

然而我们可能想更进一步。比方说也许想清除整个范围内的字符，或者去掉音符标志。要完成这些任务，可以使用常被忽视的str.translate()方法。为了说明其用法，假设有如下这段混乱的字符串：

> s = 'pyt"htmlcode">

> remap = {
...   ord('\t') : ' ',
...   ord('\f') : ' ',
...   ord('\r') : None    # Deleted
... }
> a = s.translate(remap)
> a
'pyt"htmlcode">

> import unicodedata
> import sys
> cmb_chrs = dict.fromkeys(c for c in range(sys.maxunicode) if unicodedata.combining(chr(c)))
...
> b = unicodedata.normalize('NFD', a)
> b
'pyt"htmlcode">

> digitmap = { c: ord('0') + unicodedata.digit(chr(c))
...        for c in range(sys.maxunicode)
...        if unicodedata.category(chr(c)) == 'Nd' }
...
> len(digitmap)
460
> # Arabic digits
> x = '\u0661\u0662\u0663'
> x.translate(digitmap)
'123'
>


另一种用来清理文本的技术涉及I/O解码和编码函数。大致思路是首先对文本做初步的清理，然后通过结合encode()和decode()操作来修改或清理文本。示例如下：


> a
'pyt"color: #ff0000">讨论
文本过滤和清理的一个主要问题就是运行时的性能。一般来说操作越简单，运行得就越快。对于简单的替换操作，用str.replace()通常是最快的方式——即使必须多次调用它也是如此。比方说如果要清理掉空格符，可以编写如下的代码：


def clean_spaces(s):
  s = s.replace('\r', '')
  s = s.replace('\t', ' ')
  s = s.replace('\f', ' ')
return s


如果试着调用它，就会发现这比使用translate()或者正则表达式的方法要快得多。
另一方面，如果需要做任何高级的操作，比如字符到字符的重映射或删除，那么translate()方法还是非常快的。
从整体来看，我们应该在具体的应用中去进一步揣摩性能方面的问题。不幸的是，想在技术上给出一条“放之四海而皆准”的建议是不可能的，所以应该尝试多种不同的方法，然后做性能统计分析。
尽管本节的内容主要关注的是文本，但类似的技术也同样适用于字节对象（byte），这包括简单的替换、翻译和正则表达式。
总结
以上所述是小编给大家介绍的解决python 文本过滤和清理问题,希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对网站的支持！

如果你觉得本文对你有帮助，欢迎转载，烦请注明出处，谢谢！

                                
                                
                                    python,文本过滤,python,文本清理 
                                
                                    标签：
                                        python,文本过滤,python,文本清理
                                     

                                铁雪资源网 Design By www.gsvan.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站文章均来自网站采集或用户投稿，网站不提供任何软件下载或自行开发的软件！如有用户或公司发现本站内容信息存在侵权行为，请邮件告知！ 858582#qq.com

铁雪资源网 Design By www.gsvan.com

评论“解决python 文本过滤和清理问题”

暂无解决python 文本过滤和清理问题的评论...

解决python 文本过滤和清理问题

python,文本过滤,python,文本清理

关于python导入模块import与常见的模块详解

解决Python对齐文本字符串问题

评论“解决python 文本过滤和清理问题”

友情链接