Spark 3.4.0で確認した。例えば、.foobar.csv
のようなファイルを読み取らせようとしても、読み込んでくれないし、しかし一見成功したかのような振舞いになるので注意しなければならない。
//> using scala "2.13" //> using lib "org.apache.spark::spark-core:3.4.0" //> using lib "org.apache.spark::spark-sql:3.4.0" //> using lib "org.apache.spark::spark-mllib:3.4.0" import org.apache.spark.sql.SparkSession val spark = SparkSession .builder() .appName("to-parquet") .config("spark.master", "local") .getOrCreate() val df = spark.read.option("header", true).csv(".foobar.csv") // 読まない df.show()
Sparkは内部的にHadoopを読み込みに使っているらしく、フォーマットによらず、.
と_
から始まるファイルを読み込むことができないとのこと。じゃあ最初から言えよ!!めちゃくちゃハマった!!
ドキュメントにも何も書いてなそうなので、ハマりどころ発見~~~という感じ。