Zpracování tabulky paralelně s použitím Azure továrních dat jediného plynovodu, single Databricks Notebook?

hlasů
0

Chci proměnit seznam tabulek v souběžně s použitím Azure továrních dat a jednu Databricks Notebook.

Již mám Azure dat Factory (ADF) potrubí, která přijímá seznam tabulek jako parametr, nastaví každou tabulku ze seznamu tabulek jako proměnnou, pak zavolá jediný notebook (který vykonává jednoduché transformace) a prochází každou tabulku v sérii tento notebook. Problém je v tom, že se transformuje tabulky za sebou (jeden po druhém), a nikoli paralelně (všechny tabulky ve stejnou dobu). Musím tabulky, které mají být zpracovány paralelně.

Takže moje otázky jsou: 1) Je možné spouštět stejné Databricks notebook vícekrát na přesně stejném okamžiku (pokaždé s jinou tabulkou jako parametr) z Azure továrních dat? 2) Pokud ano, pak to, co potřebuji ke změně v mém potrubí nebo notebooku, aby to fungovalo?

Myslím, že je pravděpodobné, že není možné spustit stejný notebook několikrát současně, protože když jsem spustit tento notebook přímo z Databricks (a předat tabulku jako proměnná), musím čekat na to až do konce běhu, než jsem ji spustit znovu za jiný tabulka (parametr). Ale já chci být jistý, jestli je to možné nebo ne. Také vím, že je možné zpracovat několik stolů paralelně pomocí více notebooků, ale v mém případě musím použít jednu notebook. Díky předem :)

parametry

ADF

proměnné

proměnné

Prostřený stůl Proměnné a Notebook

zadejte

Konfigurace Sekvenční

Konfigurace

Sekvenční Nekontrolovaná s Batch count = blanku

Když je nakonfigurován jako „sekvenční“ a Batch count = prázdné, a složit dvě tabulky Plynovod běhy „úspěšně“, ale pouze jedna tabulka se převede (i když přidám několik tabulek v seznamu tabulek). „Set proměnná“ správně zobrazuje dvakrát, jednou pro každou tabulku. Ale organizovat ukazuje dvakrát za stejné tabulky.

zadejte

Sekvenční Nekontrolovaná s šarže Count = 2

Když je nakonfigurován jako „sekvenční“ a Batch count = 2, a předat dva stoly, potrubí selže v druhé iteraci, ale zároveň se snaží transformovat stejné tabulce dvakrát. „Set proměnná“ správně zobrazuje dvakrát, jednou pro každou tabulku. Ale organizovat ukazuje dvakrát za stejné tabulky.

Sekvenční

Sekvenční kontrolovány nebo šarže Počet = 1

Nechá-li se Sequential kontrolovány nebo Batch Count = 1, pak potrubí pracuje správně a provádí transformace na všech stolech, ale zpracování se vyskytuje v sérii (podle očekávání).

zadejte

Položena 13/01/2020 v 21:55
zdroj uživatelem
V jiných jazycích...                            


1 odpovědí

hlasů
0

Vyřešil jsem to pomocí „vyhledáváním“ do SQL tabulky namísto „Set proměnná“. Na následujícím obrázku je běh na 5 stolů paralelně s použitím jediného notebooku.

zadejte popis obrázku zde

Odpovězeno 14/01/2020 v 20:40
zdroj uživatelem

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more