语法的指导规则是 PEP 8
异常捕获太宽泛
too broad exception clause
当你使用 try: exception:
捕获异常时,最好明确指出这是哪种异常;
import logging
try:
pass
except Exception as e:
logging.exception(e)
如果确实要忽略这个问题, 在try:
前一行 添加 # noinspection PyBroadException
# noinspection PyBroadException
try:
pass
exception:
pass
作用域内外变量名重名
下面书写就会出先警告Shadows name 'root_url' from outer scope
def crawl(self, root_url):
# 限制抓取的链接数
count = 1
self.urls.add_new_url(root_url)
# 在同一个文件中 调用此函数
root_url = 'www.baidu.com'
crawl(root_url)
解决办法:
def crawl(self, root_url):
# 限制抓取的链接数
count = 1
self.urls.add_new_url(root_url)
# 在同一个文件中 调用此函数, 不要使用同名变量,改用其他变量 url
url = 'www.baidu.com'
crawl(url)
Method xxx may be ‘static’
方法可能是静态方法; 建议的愿意是,这个方法, 没有使用到self中的属性
class HtmlDownloader(object):
@staticmethod
def download(url):
if url is None:
return None
res = urllib2.urlopen(url)
if res.getcode() != 200:
return None
return res.read()
This dictionary creation could be rewritten as a dictionary literal.
字面量字典可能会被覆盖
dic = {}
dic['name'] = 'jack'
解决办法:
dic = dict()
dic['name'] = 'jack'
unexpected spaces around keyword / parameter equals
关键字参数和默认值参数的前后不要加空格
class_
是关键字,在它附近的等号不要有空格
title_node = soup.find('dd', class_="lemmaWgt-lemmaTitle-title").find('h1')
blank line at end of file
文件最后多了一个空白行
python文本的最后只有一个空白行.
‘ascii’ codec can’t encode characters in position
问题是 字符串编码异常 我们知道字符串有两种表示方式:
- utf-8 字符串 也就是 str 类型
- unicode 字符串
而对于编码则有
- ascii
- gbk
不同的字符串 对于编码的要求如下:
# 用 ascii 编码含中文的 unicode 字符串
u.encode('ascii') # 错误,因为中文无法用 ascii 字符集编码
# UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-3: ordinal not in range(128)
# 用 gbk 编码含中文的 unicode 字符串
u.encode('gbk') # 正确,因为 '关关雎鸠' 可以用中文 gbk 字符集表示
# '\xb9\xd8\xb9\xd8\xf6\xc2\xf0\xaf'
# 直接 print 上面的 str 会显示乱码,修改环境变量为 zh_CN.GBK 可以看到结果是对的
# 用 ascii 解码 utf-8 字符串
s.decode('ascii') # 错误,中文 utf-8 字符无法用 ascii 解码
# UnicodeDecodeError: 'ascii' codec can't decode byte 0xe5 in position 0: ordinal not in range(128)
# 用 gbk 解码 utf-8 字符串
s.decode('gbk') # 不出错,但是用 gbk 解码 utf-8 字符流的结果,显然只是乱码
# u'\u934f\u51b2\u53e7\u95c6\u5ea8\u7b2d'
以上摘自博客也谈 Python 的中文编码处理
所以对于中文编码如果出现上述问题,调整编码策略即可.