سینتکس پرکاربرد پایتون در علم داده (پیشرفته)

۱۶ آبان ۱۳۹۷ #Python

این روزها مشغول مطالعه کتاب Data Science from Scratch (لینک PDF) هستم، که یک کتاب عالی و قابل فهم برای شروع کار با علم داده است. یکی از فصل‌های این کتاب به معرفی سینتکس پایه پایتون و همچنین سینتکس پیشرفته‌ای که در علم داده پرکاربرد است، می‌پردازد. به نظرم توضیحاتش بسیار خوب، مختصر و مفید بود، به همین دلیل، آن را ترجمه کرده‌ام تا اینجا به عنوان یک یادداشت شخصی نگه دارم.
سینتکس پرکاربرد پایتون در علم داده (مقدماتی)
سینتکس پرکاربرد پایتون در علم داده (پیشرفته)

این فصل بر معرفی سینتکس و قابلیت‌های پیشرفته پایتون (بر اساس پایتون 2.7) تمرکز دارد که در پردازش داده‌ها بسیار مفید هستند.

مرتب‌سازی Sorting

برای مرتب‌سازی یک لیست در پایتون، می‌توانید از متد sort خود لیست استفاده کنید. اما اگر نمی‌خواهید لیست اصلی دست‌نخورده باقی بماند، می‌توانید از تابع sorted استفاده کنید که یک لیست جدید مرتب‌شده را برمی‌گرداند:

x = [4,1,2,3]
y = sorted(x)       # y = [1,2,3,4], x بدون تغییر می‌ماند
x.sort()            # اکنون x = [1,2,3,4]
# به‌طور پیش‌فرض، sort یا sorted لیست را از کوچک به بزرگ مرتب می‌کنند.

اگر می‌خواهید لیست را از بزرگ به کوچک مرتب کنید، می‌توانید پارامتر reverse = True را مشخص کنید.

همچنین می‌توانید تابع مرتب‌سازی را سفارشی‌سازی کنید تا لیست بر اساس یک کلید مشخص مرتب شود:

# مرتب‌سازی بر اساس مقدار مطلق از بزرگ به کوچک
x = sorted([-4,1,-2,3], key=abs, reverse=True) # is [-4,3,-2,1]
# مرتب‌سازی بر اساس تعداد تکرار کلمات از بزرگ به کوچک
wc = sorted(word_counts.items(),
key=lambda (word, count): count,
reverse=True)

لیست کامپریهنشن List Comprehensions

ما اغلب با موقعیت‌هایی روبرو می‌شویم که می‌خواهیم عناصر خاصی را از یک لیست استخراج کرده و یک لیست جدید بسازیم، یا مقادیر برخی از عناصر را تغییر دهیم، یا هر دو. رویکرد رایج در پایتون برای این کار، استفاده از لیست کامپریهنشن (List Comprehensions) است:

even_numbers = [x for x in range(5) if x % 2 == 0]  # [0, 2, 4]
squares = [x * x for x in range(5)]                 # [0, 1, 4, 9, 16]
even_squares = [x * x for x in even_numbers]        # [0, 4, 16]

به همین ترتیب، می‌توانید یک لیست را به دیکشنری یا مجموعه تبدیل کنید:

square_dict = { x : x * x for x in range(5) }       # { 0:0, 1:1, 2:4, 3:9, 4:16 }
square_set = { x * x for x in [1, -1] }             # { 1 }

اگر نیازی به استفاده از عناصر لیست ندارید، می‌توانید از کاراکتر زیرخط (underscore) به عنوان متغیر استفاده کنید:

zeroes = [0 for _ in even_numbers] # همان طول لیست even_numbers را دارد

لیست کامپریهنشن از حلقه‌های for چندگانه پشتیبانی می‌کند:

pairs = [(x, y)
    for x in range(10)
    for y in range(10)]    # در مجموع 100 جفت: (0,0), (0,1), ..., (9,8), (9,9)

حلقه for بعدی می‌تواند از نتایج حلقه for قبلی استفاده کند:

increasing_pairs = [(x, y)                      # فقط شامل جفت‌هایی که x < y هستند
                    for x in range(10)          # range(lo, hi) equals
                    for y in range(x + 1, 10)]  # [lo, lo + 1, ..., hi - 1]

در آینده، ما به طور مکرر از لیست کامپریهنشن استفاده خواهیم کرد.

ژنراتورها و ایتریتورها Generators and Iterators

یکی از مشکلاتی که لیست‌ها دارند این است که به راحتی می‌توانند بسیار بزرگ شوند؛ برای مثال، range(1000000) یک لیست با یک میلیون عنصر تولید می‌کند. اگر قرار باشد داده‌ها را یکی‌یکی پردازش کنیم، ممکن است زمان زیادی طول بکشد (یا حتی حافظه سیستم تمام شود). در حالی که ممکن است فقط به چند داده اول نیاز داشته باشید و بقیه عملیات اضافی باشند.

ژنراتورها به شما این امکان را می‌دهند که تنها بر روی داده‌هایی که به آن‌ها نیاز دارید، تکرار (iterate) کنید. می‌توانید با استفاده از یک تابع و عبارت yield یک ژنراتور ایجاد کنید:

def lazy_range(n):
    """یک نسخه تنبل از range"""
    i = 0
    while i < n:
        yield i
        i += 1

توضیح مترجم: ژنراتورها نیز نوعی ایتریتور خاص هستند و yield کلید اصلی پیاده‌سازی تکرار در آن‌هاست. yield به عنوان نقطه‌ای برای توقف و ازسرگیری اجرای ژنراتور عمل می‌کند؛ می‌توان به عبارت yield مقداری اختصاص داد یا مقدار آن را برگرداند. هر تابعی که شامل دستور yield باشد، یک ژنراتور نامیده می‌شود. هنگامی که اجرای یک ژنراتور متوقف می‌شود، وضعیت فعلی اجرای خود را ذخره کرده و در فراخوانی بعدی، آن وضعیت را بازیابی می‌کند تا مقدار تکراری بعدی را تولید کند. استفاده از لیست‌ها برای تکرار، فضای حافظه زیادی را اشغال می‌کند، در حالی که ژنراتورها تقریباً فضای یکسانی را اشغال می‌کنند و به این ترتیب در مصرف حافظه صرفه‌جویی می‌شود.

حلقه زیر هر بار یک مقدار از yield را مصرف می‌کند تا زمانی که تمام مقادیر مصرف شوند:

for i in lazy_range(10):
    do_something_with(i)

(در واقع، پایتون تابعی معادل lazy_range بالا را به صورت داخلی دارد که در پایتون 2 xrange نامیده می‌شود و در پایتون 3 به range تغییر نام یافته است.) این بدان معناست که می‌توانید یک دنباله بی‌نهایت ایجاد کنید:

def natural_numbers():
    """برمی‌گرداند 1, 2, 3, ..."""
    n = 1
    while True:
        yield n
        n += 1

البته، استفاده از چنین عباراتی بدون منطق خروج از حلقه توصیه نمی‌شود.

نکته

یکی از معایب تکرار با ژنراتور این است که فقط می‌توانید یک بار از ابتدا تا انتها روی عناصر تکرار کنید. اگر می‌خواهید چندین بار تکرار کنید، باید هر بار یک ژنراتور جدید ایجاد کنید یا از لیست استفاده کنید.

روش دوم برای ایجاد ژنراتور: استفاده از عبارات کامپریهنشن درون پرانتز:

lazy_evens_below_20 = (i for i in lazy_range(20) if i % 2 == 0)

می‌دانیم که متد items() در دیکشنری‌ها لیستی از تمام جفت‌های کلید-مقدار را برمی‌گرداند، اما در بسیاری از موارد، از متد ژنراتور iteritems() برای تکرار استفاده می‌کنیم که هر بار فقط یک جفت کلید-مقدار را تولید و برمی‌گرداند.

تصادفی بودن Randomness

هنگام یادگیری علم داده، اغلب به تولید اعداد تصادفی نیاز خواهیم داشت؛ بنابراین کافیست ماژول random را وارد کرده و از آن استفاده کنیم:

import random
four_uniform_randoms = [random.random() for _ in range(4)]
# [0.8444218515250481,        # random.random() اعداد تصادفی تولید می‌کند
# 0.7579544029403025,         # اعداد تصادفی نرمال‌سازی شده و در محدوده 0 تا 1 قرار دارند
# 0.420571580830845,          # این تابع پرکاربردترین تابع برای تولید اعداد تصادفی است
# 0.25891675029296335]

اگر می‌خواهید نتایج قابل تکرار داشته باشید، می‌توانید ماژول random را وادار کنید تا اعداد شبه‌تصادفی (یعنی قطعی) را بر اساس وضعیت داخلی تنظیم شده توسط random.seed تولید کند:

random.seed(10)           # seed را روی 10 تنظیم می‌کند
print random.random()     # 0.57140259469
random.seed(10)           # seed را دوباره روی 10 تنظیم می‌کند
print random.random()     # 0.57140259469 دوباره

گاهی اوقات نیز از تابع random.randrange برای تولید یک عدد تصادفی در یک محدوده مشخص استفاده می‌کنیم:

random.randrange(10)      # یک عدد تصادفی از range(10) = [0, 1, ..., 9] انتخاب می‌کند
random.randrange(3, 6)    # یک عدد تصادفی از range(3, 6) = [3, 4, 5] انتخاب می‌کند

توابع دیگری نیز وجود دارند که گاهی اوقات بسیار مفید هستند، مانند random.shuffle که ترتیب عناصر یک لیست را به هم می‌ریزد و یک لیست با ترتیب تصادفی جدید ایجاد می‌کند:

up_to_ten = range(10)
random.shuffle(up_to_ten)
print up_to_ten
# [2, 5, 1, 9, 7, 3, 8, 6, 4, 0] (نتیجه‌ای که شما می‌گیرید باید متفاوت باشد)

اگر می‌خواهید یک عنصر تصادفی از یک لیست انتخاب کنید، می‌توانید از متد random.choice استفاده کنید:

my_best_friend = random.choice(["Alice", "Bob", "Charlie"]) # من "Bob" را دریافت کردم

اگر می‌خواهید یک دنباله تصادفی تولید کنید و در عین حال نمی‌خواهید لیست اصلی را به هم بزنید، می‌توانید از متد random.sample استفاده کنید:

lottery_numbers = range(60)
winning_numbers = random.sample(lottery_numbers, 6) # [16, 36, 10, 6, 25, 9]

می‌توانید با چندین بار فراخوانی، نمونه‌های تصادفی متعددی را انتخاب کنید (با تکرار مجاز):

four_with_replacement = [random.choice(range(10))
                         for _ in range(4)]
# [9, 4, 4, 2]

عبارات با قاعده Regular Expressions

عبارات با قاعده (Regular Expressions) برای جستجو در متن استفاده می‌شوند. کمی پیچیده اما بسیار مفید هستند، به همین دلیل کتاب‌های زیادی به طور خاص به آن‌ها می‌پردازند. هر زمان که به آن‌ها برخوردیم، توضیحات مفصلی خواهیم داد. در ادامه چند مثال از نحوه استفاده از عبارات با قاعده در پایتون آورده شده است:

import re
print all([                                 # تمام عبارات زیر True برمی‌گردانند، زیرا:
    not re.match("a", "cat"),               # * 'cat' با 'a' شروع نمی‌شود
    re.search("a", "cat"),                  # * 'cat' شامل حرف 'a' است
    not re.search("c", "dog"),              # * 'dog' شامل حرف 'c' نیست
    3 == len(re.split("[ab]", "carbs")),    # * کلمه را بر اساس 'a' یا 'b' به سه قسمت ['c','r','s'] تقسیم می‌کند
    "R-D-" == re.sub("[0-9]", "-", "R2D2")  # * اعداد را با خط تیره جایگزین می‌کند
    ])                                      # خروجی True

برنامه‌نویسی شیءگرا Object-Oriented Programming

مانند بسیاری از زبان‌ها، پایتون به شما امکان می‌دهد کلاس‌هایی برای کپسوله‌سازی داده‌ها و توابعی برای کار با آن‌ها تعریف کنید. ما گاهی اوقات از آن‌ها استفاده می‌کنیم تا کدمان واضح‌تر و مختصرتر شود. شاید ساده‌ترین راه برای توضیح آن‌ها، ساخت یک مثال با توضیحات فراوان باشد. فرض کنید پایتون مجموعه (set) داخلی نداشت؛ در این صورت ممکن بود بخواهیم کلاس Set خودمان را ایجاد کنیم. خب، این کلاس باید چه قابلیت‌هایی داشته باشد؟ مثلاً، با داشتن یک Set، باید بتوانیم آیتم‌ها را به آن اضافه کنیم، از آن حذف کنیم و بررسی کنیم که آیا مقدار خاصی را شامل می‌شود یا خیر. بنابراین، تمام این قابلیت‌ها را به عنوان توابع عضو (member functions) این کلاس ایجاد خواهیم کرد. به این ترتیب، می‌توانیم پس از شیء Set، با استفاده از نقطه به این توابع عضو دسترسی پیدا کنیم:

# طبق قرارداد، نام کلاس را با _PascalCase_ می‌نویسیم
class Set:
    # این‌ها توابع عضو هستند
    # هر تابع عضو یک پارامتر "self" در ابتدای خود دارد (یک قرارداد دیگر)
    # “self” به شیء Set خاصی که در حال استفاده است، اشاره دارد

    def __init__(self, values=None):
        """این تابع سازنده است
        هر زمان که یک Set جدید ایجاد می‌کنید، این تابع فراخوانی می‌شود
        می‌توانید به این صورت آن را فراخوانی کنید:
        s1 = Set() # مجموعه خالی
        s2 = Set([1,2,2,3]) # مجموعه را با مقادیر مشخص‌شده مقداردهی اولیه می‌کند"""
        self.dict = {} # هر نمونه از Set ویژگی dict خود را دارد
        # ما از این ویژگی برای ردیابی هر عضو استفاده می‌کنیم
        if values is not None:
            for value in values:
            self.add(value)

    def __repr__(self):
        """این نمایش رشته‌ای شیء Set است
        می‌توانید با تایپ رشته در پنجره فرمان پایتون یا با استفاده از متد str() آن را به شیء ارسال کنید"""
        return "Set: " + str(self.dict.keys())

    # عضویت را با تبدیل شدن به یک کلید در self.dict و تنظیم مقدار کلید به True نشان می‌دهیم
    def add(self, value):
        self.dict[value] = True

    # اگر آرگومان یک کلید در دیکشنری باشد، مقدار مربوطه در Set وجود دارد
    def contains(self, value):
        return value in self.dict

    def remove(self, value):
        del self.dict[value]

سپس می‌توانیم Set را به این صورت استفاده کنیم:

s = Set([1,2,3])
s.add(4)
print s.contains(4)     # True
s.remove(3)
print s.contains(3)     # False

ابزارهای تابعی Functional Tools

توابع جزئی partial

هنگام کار با توابع، گاهی اوقات می‌خواهیم از بخشی از قابلیت‌های یک تابع برای ایجاد یک تابع جدید استفاده کنیم. برای مثال ساده، فرض کنید تابعی با دو متغیر داریم:

def exp(base, power):
    return base ** power

ما می‌خواهیم با استفاده از آن، تابعی ایجاد کنیم که یک متغیر را به عنوان ورودی بگیرد و نتیجه تابع توان با پایه 2، یعنی exp(2, power) را برگرداند.

البته، می‌توانیم با def یک تابع جدید تعریف کنیم، اگرچه این کار خیلی هوشمندانه به نظر نمی‌رسد:

def two_to_the(power):
  return exp(2, power)

راه هوشمندانه‌تر استفاده از متد functools.partial است:

from functools import partial
two_to_the = partial(exp, 2)      # تابع فعلی فقط یک متغیر دارد
print two_to_the(3)               # 8

اگر نامی مشخص شود، می‌توان از متد partial برای پر کردن پارامترهای دیگر نیز استفاده کرد:

square_of = partial(exp, power=2)
print square_of(3)                # 9

اگر سعی کنید پارامترها را به صورت نامنظم در میانه تابع دستکاری کنید، برنامه به سرعت گیج‌کننده خواهد شد؛ بنابراین لطفاً از این کار خودداری کنید.

نگاشت map

ما گاهی اوقات از توابعی مانند map، reduce و filter به عنوان جایگزینی برای قابلیت‌های لیست کامپریهنشن استفاده می‌کنیم:

def double(x):
    return 2 * x

xs = [1, 2, 3, 4]
twice_xs = [double(x) for x in xs]      # [2, 4, 6, 8]
twice_xs = map(double, xs)              # همانند بالا
list_doubler = partial(map, double)     # این تابع، لیست را دو برابر می‌کند
twice_xs = list_doubler(xs)             # نیز [2, 4, 6, 8] است

متد map همچنین می‌تواند برای نگاشت توابع چند-پارامتری به چندین لیست استفاده شود:

def multiply(x, y): return x * y

products = map(multiply, [1, 2], [4, 5])  # [1 * 4, 2 * 5] = [4, 10]

فیلتر filter

به همین ترتیب، فیلتر عملکرد if در لیست کامپریهنشن را پیاده‌سازی می‌کند:

def is_even(x):
    """اگر x زوج باشد True برمی‌گرداند، در غیر این صورت False"""
    return x % 2 == 0

x_evens = [x for x in xs if is_even(x)]   # [2, 4]
x_evens = filter(is_even, xs)             # همانند بالا
list_evener = partial(filter, is_even)    # این تابع قابلیت فیلتر کردن را پیاده‌سازی می‌کند
x_evens = list_evener(xs)                 # نیز [2, 4] است

کاهش reduce

متد reduce به طور مداوم اولین و دومین عنصر یک لیست را ترکیب می‌کند، سپس نتیجه را با عنصر سوم ترکیب می‌کند و این فرآیند را تا زمانی که یک نتیجه واحد به دست آید، ادامه می‌دهد:

x_product = reduce(multiply, xs)          # = 1 * 2 * 3 * 4 = 24
list_product = partial(reduce, multiply)  # این تابع یک لیست را کاهش می‌دهد
x_product = list_product(xs)              # نیز 24 است

شمارش enumerate

گاهی اوقات پیش می‌آید که هنگام پیمایش یک لیست، هم به عنصر و هم به اندیس آن نیاز داریم:

# کمتر پایتونیک (کمتر مختصر و زیبا)
for i in range(len(documents)):
    document = documents[i]
    do_something(i, document)

# همینطور کمتر پایتونیک (کمتر مختصر و زیبا)
i = 0
for document in documents:
    do_something(i, document)
    i += 1

مختصرترین روش استفاده از متد enumerate است که یک تاپل (index, element) تولید می‌کند:

for i, document in enumerate(documents):
    do_something(i, document)

به همین ترتیب، اگر فقط می‌خواهید از اندیس استفاده کنید:

for i in range(len(documents)): do_something(i)   # غیرمختصر
for i, _ in enumerate(documents): do_something(i) # مختصر

در ادامه، ما به طور مکرر از این روش استفاده خواهیم کرد.

فشرده‌سازی و بازگشایی آرگومان‌ها zip and Argument Unpacking

فشرده‌سازی zip

ما اغلب دو یا چند لیست را فشرده‌سازی می‌کنیم. فشرده‌سازی در واقع تبدیل چندین لیست به یک لیست واحد از تاپل‌های متناظر است:

list1 = ['a', 'b', 'c']
list2 = [1, 2, 3]
zip(list1, list2)       # نتیجه [('a', 1), ('b', 2), ('c', 3)]

بازگشایی آرگومان‌ها Argument Unpacking

اگر طول لیست‌های متعدد یکسان نباشد، فرآیند فشرده‌سازی در انتهای کوتاه‌ترین لیست متوقف می‌شود. همچنین می‌توانید از یک ترفند جالب برای بازگشایی (unzip) لیست‌ها استفاده کنید:

pairs = [('a', 1), ('b', 2), ('c', 3)]
letters, numbers = zip(*pairs)

در اینجا، ستاره * برای انجام بازگشایی آرگومان‌ها استفاده می‌شود؛ این کار عناصر pairs را به عنوان آرگومان‌های مجزا به zip ارسال می‌کند. فراخوانی به روش زیر اثری معادل دارد:

zip(('a', 1), ('b', 2), ('c', 3))  # برمی‌گرداند [('a','b','c'), ('1','2','3')]

بازگشایی آرگومان‌ها می‌تواند با توابع دیگر نیز استفاده شود:

def add(a, b): return a + b

add(1, 2)           # برمی‌گرداند 3
add([1, 2])         # خطا می‌دهد
add(*[1, 2])        # برمی‌گرداند 3

اگرچه ممکن است خیلی کاربردی نباشد، اما یک ترفند خوب برای مختصرتر کردن کد است.

ارسال آرگومان‌های با طول نامشخص args and kwargs

فرض کنید می‌خواهیم یک تابع مرتبه بالا (higher-order function) ایجاد کنیم که یک تابع قدیمی را به عنوان ورودی می‌گیرد و یک تابع جدید برمی‌گرداند که نتیجه تابع قدیمی را در 2 ضرب می‌کند:

def doubler(f):
    def g(x):
      return 2 * f(x)
    return g

مثال اجرا:

def f1(x):
    return x + 1

g = doubler(f1)
print g(3)        # 8 (== ( 3 + 1) * 2)
print g(-1)       # 0 (== (-1 + 1) * 2)

اما اگر تعداد پارامترهای ارسال شده بیش از یکی باشد، این روش دیگر کارایی ندارد:

def f2(x, y):
    return x + y

g = doubler(f2)
print g(1, 2) # خطا TypeError: g() takes exactly 1 argument (2 given)

بنابراین باید تابعی را مشخص کنیم که بتواند هر تعداد آرگومان را بپذیرد و سپس با استفاده از بازگشایی آرگومان‌ها، چندین پارامتر را ارسال کنیم. این کار کمی جادویی به نظر می‌رسد:

def magic(*args, **kwargs):
    print "unnamed args:", args
    print "keyword args:", kwargs
magic(1, 2, key="word", key2="word2")
# نتیجه خروجی:
# unnamed args: (1, 2)
# keyword args: {'key2': 'word2', 'key': 'word'}

هنگامی که تابعی را به این شکل تعریف می‌کنیم، args (مخفف arguments) یک تاپل شامل آرگومان‌های بدون نام است، در حالی که kwargs (مخفف keyword arguments) یک دیکشنری شامل آرگومان‌های نام‌دار است.

آن‌ها همچنین می‌توانند در حالتی که آرگومان‌های ارسالی لیست (یا تاپل) یا آرایه هستند، استفاده شوند:

def other_way_magic(x, y, z):
    return x + y + z

x_y_list = [1, 2]
z_dict = { "z" : 3 }
print other_way_magic(*x_y_list, **z_dict)    # 6

می‌توانید از آن با روش‌های عجیب و غریب مختلفی استفاده کنید، اما ما فقط از آن برای حل مشکل ارسال آرگومان‌های با طول نامشخص به توابع مرتبه بالا استفاده می‌کنیم:

def doubler_correct(f):
    """فارغ از اینکه f چیست، به درستی کار می‌کند"""
    def g(*args, **kwargs):
        """این تابع، فارغ از تعداد آرگومان‌ها، آن‌ها را به درستی به f ارسال می‌کند"""
        return 2 * f(*args, **kwargs)
    return g

g = doubler_correct(f2)
print g(1, 2) # 6

به دنیای علم داده خوش آمدید!

دینگ! به شما تبریک می‌گویم که دروازه دنیایی جدید را باز کردید! حالا می‌توانید با خوشحالی به کاوش بپردازید~

مطالعه بیشتر:

سینتکس پرکاربرد پایتون در علم داده (مقدماتی)