import numpy as np
import pandas as pd


def percent_true(s):  # in pd True=1 False=0, so mean() is percent True
    return round(s.mean() * 100, 1)


df18m = pd.read_csv("reddit_20180401-20180630_AmItheAsshole_n__l500.csv")


df18m.columns

Index(['author_r', 'del_author_p', 'del_author_r', 'title', 'id',
       'created_utc', 'elapsed_hours', 'score_p', 'num_comments_p',
       'del_text_p', 'del_text_r', 'rem_text_r', 'url'],
      dtype='object')


df18m.shape

(500, 13)


percent_true(df18m["del_text_p"]) # "_p" suffix means pushshift data

6.6


df18m[df18m["del_text_p"] == True]["elapsed_hours"].max()

21


percent_true(df18m["del_text_r"]) "_r" # means reddit data

41.0


percent_true(df18m["del_author_r"])

55.8


df18mp = pd.read_csv("reddit_20180401-20180630_AmItheAsshole_n150+_l500.csv")


df18mp.shape

(18, 13)


percent_true(df18mp["del_text_r"])

38.9


percent_true(df18mp["del_author_r"])

44.4


df20 = pd.read_csv("reddit_20200401-20200630_AmItheAsshole_n__l500.csv")
percent_true(df20["del_text_r"])

10.0


percent_true(df20["del_author_r"])

48.6


df20m = df20[df20["rem_text_r"] == False]


len(df20m)

150


percent_true(df20m["del_text_r"])

33.3


df20p = pd.read_csv("reddit_20200401-20200630_AmItheAsshole_n150+_l500.csv")


df20p.shape

(500, 13)


percent_true(df20p["del_text_r"])

13.2


percent_true(df20["del_author_r"])

48.6


df20ad = pd.read_csv("reddit_20200401-20200630_Advice_n__l500.csv")


df20ad.shape

(500, 13)


percent_true(df20ad["del_text_r"])

42.4


df20ra = pd.read_csv(
    "reddit_20200401-20200630_relationship_advice_n__l500.csv"
)


df20ra.shape

(500, 13)


percent_true(df20ra["del_text_r"])

50.6


df20ls = pd.read_csv( # in variable name: 'l' means limited, 's' means sampled
    "reddit_20200301-20200828_AmItheAsshole_n__l8500_sampled.csv",
    parse_dates=["created_utc"],
)


df20ls.shape

(8500, 13)


percent_true(df20ls["del_text_r"])

22.5


df20ls["week_idx"] = df20ls["created_utc"].apply(
    lambda x: "%s-%s" % (x.year, "{:02d}".format(x.week))
)


def del_text_r_weekly(week_data):
    return (week_data["del_text_r"].mean() * 100).round(1)


s20ls = df20ls.groupby("week_idx").apply(del_text_r_weekly)
s20ls

week_idx
2020-09    24.5
2020-10    25.9
2020-11    24.1
2020-12    16.0
2020-13    21.5
2020-14    24.0
2020-15    20.2
2020-16    27.1
2020-17    25.0
2020-18    25.1
2020-19    25.2
2020-20    22.6
2020-21    20.2
2020-22    25.3
2020-23    21.3
2020-24    20.8
2020-25    23.6
2020-26    21.6
2020-27    19.5
2020-28    23.6
2020-29    21.4
2020-30    26.2
2020-31    20.2
2020-32    24.1
2020-33    21.4
2020-34    20.1
2020-35    15.1
dtype: float64


s20ls.describe()

count    27.000000
mean     22.429630
std       2.937924
min      15.100000
25%      20.500000
50%      22.600000
75%      24.750000
max      27.100000
dtype: float64


df20lp = pd.read_csv(
    "reddit_20200301-20200828_AmItheAsshole_n150+_l__.csv",
    parse_dates=["created_utc"],
)


df20lp.shape

(8674, 14)


percent_true(df20lp["del_text_r"])

9.5


df20lp["week_idx"] = df20lp["created_utc"].apply(
    lambda x: "%s-%s" % (x.year, "{:02d}".format(x.week))
)


def del_text_r_weekly(week_data):
    return (week_data["del_text_r"].mean() * 100).round(1)


s20lp = df20lp.groupby("week_idx").apply(del_text_r_weekly)
s20lp

week_idx
2020-09    11.1
2020-10    12.6
2020-11    14.1
2020-12    12.4
2020-13     9.6
2020-14    12.4
2020-15    13.3
2020-16    12.9
2020-17    12.8
2020-18    14.4
2020-19    11.5
2020-20    11.8
2020-21     7.5
2020-22     9.6
2020-23     9.2
2020-24    10.5
2020-25     8.6
2020-26     8.0
2020-27     7.8
2020-28     8.6
2020-29     9.9
2020-30     9.0
2020-31     7.7
2020-32     4.2
2020-33     5.9
2020-34     5.9
2020-35     3.6
dtype: float64


s20lp.describe()

count    27.000000
mean      9.811111
std       2.922503
min       3.600000
25%       7.900000
50%       9.600000
75%      12.400000
max      14.400000
dtype: float64


df21am = pd.read_csv("reddit_20210401-20210603_AmItheAsshole_n__l500_.csv")


df21am.shape

(500, 14)


percent_true(df21am["del_text_r"])

14.4


df21ad = pd.read_csv("reddit_20210401-20210603_Advice_n__l500_.csv")


# Advice:


df21ad.shape

(500, 14)


percent_true(df21ad["del_text_r"])

43.6


df21ra = pd.read_csv(
    "reddit_20210401-20210603_relationship_advice_n__l500_.csv"
)


df21ra.shape

(500, 14)


percent_true(df21ra["del_text_r"])

50.6

r/AmItheAsshole in 2018¶

r/AmItheAsshole in 2020¶

r/Advice and r/relationship_advice in 2020¶

When are posts deleted by?¶

Conclusion¶

rAmItheAsshole, r/Advice, and r/relationship_advice in 2021¶