Python 中用 tldextract 处理域名

作者: 麻辣阁 分类: python 发布时间: 2018-12-07 18:59

tldextract 可以从 URL 中提取 subdomain, domain 和 suffix:

import tldextract

rss_href = 'https://36kr.com/feed'
result  = tldextract.extract(rss_href)
print(result) # ExtractResult(subdomain='', domain='36kr', suffix='com')

url = 'https://www.bbc.co.uk/'
result  = tldextract.extract(url)
print(result) # ExtractResult(subdomain='www', domain='bbc', suffix='co.uk')

发表评论

电子邮件地址不会被公开。 必填项已用*标注