底辺プログラマーBlog
日常で学んだことなどを記事にしていきます。
Python

Python URL操作

今回はスクレイピングを行う上で避けて通れないURL操作についての記事を作成します。

Contents

絶対パスと相対パスを結合する

urllib.parseurljoinを使用します。

筆者のブログのトップページのURLとこの記事の相対パスを結合します。
ただ基になるURLと相対パスを渡してやれば絶対パスを返してくれます。
この関数はスクレイピングの時に重宝されると思います。

urlparseを使用してURLを解析

Urlの中身を解析するurllib.parseのurlparseを使用します!
前回の絶対パスと相対パスを結合するの項目で作成されたabsolute_pathを解析します

  1. 出力結果は
    scheme -> https
    netloc -> villhell.com
    query ->
    path -> /wp/2019/07/30/python-url
    params ->
    fragment ->

正直解析してもあまり意味なかった。結果としてはこうなりますという参考までに。

os.path.splitを使用してファイル名を取得

urllib.parseとは直接関係はありませんが、これもスクレイピングでよく使うので記載。
os.path.splitにURLを渡してあげるとパスを分割することができます。

os.path.splitextを使用して拡張子を取得

これもついでに記載。
os.path.splitextにURLを渡してあげると拡張子のところで分割してくれます。

文字列操作系は重宝するので覚えておいて損はないです!

%d人のブロガーが「いいね」をつけました。