Pandy datového rámce statistiky na řádku ID

hlasů
0

Já jsem pracoval na výzkumu a já vytvořil datový rámec s sloupce id, db_keywords, new_words, count_new_words. Ve sloupci new_words mám slova, která nejsou v db_keywords sloupců a v count_new_words počet nových slov. Použil jsem describe()se sloupcem count_new_words aby měl základní statistiky. Bych chtěl použít nějaký způsob, aby se na základě statistiky na řádku (ID). Potřebuju nějakou hodnotu nebo některé metriky pro příklad, jak se nenacházejí v naší databázi, takže v tomto případě db_keywords mnoho nových slov za id. To může být jakýkoliv způsob, protože nevím, jak přistupovat k tomuto problému. Vytvořil jsem podobný testovací datový rámec jen představit můj problém.

Příklad:

data = [[1, 'detergent', 'detergent, cleaning, stains', ' cleaning, stains',2], [2, 'battery, low', 'fast, full, speed', 'fast, full, speed',3], [3, 'sunglasses, black', 'sunglasses, metal, black, optics', ' metal, optics', 2], [4, 'chemicals', 'chemicals, flammable, hexahydrate', 'flammable, hexahydrate', 2]] 

df = pd.DataFrame(data, columns = ['id', 'db_keywords','ml_keywords','new_words','count_new_words']) 

df 

I niva rád věděl, například, co je přidána vale ID 1 s pouze jedním slovem ve sloupci db_keywords a našli jsme dvě nová slova prezentované ve sloupci new_words. Jak mám vypočítat a prezentovat to?

Položena 13/02/2020 v 23:54
zdroj uživatelem
V jiných jazycích...                            

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more