User-Defined Functions #
스파크는 자신의 기능을 정의할 수 있는 유연성을 제공한다. 이를 사용자 정의 함수(User-Defined Function, UDF)라고 한다.
UDF를 생성하는 이점은 스파크 SQL 안에서 이를 사용할 수 있다는 것이다.
Spark SQL UDF 활용 #
다음은 스파크 SQL UDF를 만드는 예시로, 인수를 세제곱하는 함수 cubed() 를 생성한다.
from pyspark.sql.types import LongType
# 큐브 함수 생성
def cubed(s):
return s * s * s
# UDF로 등록
spark.udf.register("cubed", cubed, LongType())스파크 SQL을 사용하여 cubed() 함수를 실행할 수 있다.



