У меня есть rdd с парой ключ-значение в Scala. Я хочу сформировать rdd таким образом, чтобы он был (key , tuple(values))
.
Я пытался использовать карту, но не работал. Если бы это был pyspark, я бы использовал map(lambda x : x[0] , list(x[1:]))
(a,1,2,3,4), (b,4,5,6),(c,1,3)
to [a,(1,2,3,4)], [b,(4,5,6)], [c,(1,3)]
groupByKey
. - person Luis Miguel Mejía Suárez   schedule 21.05.2019groupByKey
будет работать для парных кортежей, а OP имеет 3-, 4-, 5-кортежи. - person Krzysztof Atłasik   schedule 21.05.2019map { t => val iter = t.productIterator; iter.next() -> iter.toList }
Однако это даст вам RDD[(Any, List[Any])], что мне не кажется слишком полезным. - person Luis Miguel Mejía Suárez   schedule 21.05.2019