pyspark drop duplicate columns after join code example

Example 1: python: remove duplicate in a specific column

df = df.drop_duplicates(subset=['Column1', 'Column2'], keep='first')

df = df.loc[:,~df.columns.duplicated()]