|
Question |
Answer |
1. Omów mechanizmy łączenia danych z wielu tabel. start learning
|
|
-LEFT JOIN ON A. KEY=B. KEY(WHERE B. KEY IS NULL), INNER JOIN, RIGHT JOIN ON A. KEY=B. KEY(WHERE A. KEY IS NULL), FULL OUTER JOIN ON A. KEY=B. KEY(WHERE A. KEY IS NULL OR B. KEY IS NULL)
|
|
|
2. Omów klasyfikację funkcji działających na pojedynczych wierszach. start learning
|
|
f-cje działające na jednym wierszu, gdzie wynikiem zawsze będzie również jeden wiersz, SQL: numeryczne (ABS), znakowe (VARCHAR), konwertujące (CONVERT), datowe (NOW)
|
|
|
3. W jakim celu buduje się perspektywy? Omów możliwe klauzule polecenia do tworzenia perspektyw start learning
|
|
inaczej widoki-wirtualne tabele tw. na podst. zapytań, nie przechowują danych, tylko definicja widoku i metadane, zapewniają bezp. danych przez ogr. dostępu do danych zapisanych w tabelach. CREATE VIEW, SELECT, FROM, WHERE
|
|
|
4. Operacje na zbiorach – omów składnię poleceń i znaczenie uzyskanych wyników. start learning
|
|
UNION-usuwa duplikaty, UNION ALL-zostawia, INTERSECT-zostawia tylko wspólne wiersze, EXCEPT- tylko np. wiersze z 1 zbioru
|
|
|
5. Przedstaw podzapytania – typy w których mogą wystąpić operatory. start learning
|
|
Podzapytania dzielą się na: skalarne (z operatorami =, <, >), listowe (IN, NOT IN, ANY, ALL), skorelowane (EXISTS, NOT EXISTS) oraz tabelowe w klauzuli FROM. Różnią się liczbą zwracanych wartości i sposobem użycia operatorów.
|
|
|
6. Omów typowe rozwiązania Big Data w obszarze baz/repozytoriów danych. start learning
|
|
- rozproszone systemy plików (HDFS), hurtownie danych SQL w dużej skali (Hive, BigQuery), bazy NoSQL (MongoDB, Cassandra, DynamoDB), data lake/lakehouse (S3, Delta Lake) oraz systemy streamingowe (Kafka, Flink).
|
|
|
7. Przedstaw specyfikę środowisk analitycznych stosowanych w Big Data. start learning
|
|
-skalowalność pozioma (wiecej węzłów niż większych), -przetw. równoległe, -obsługa danych masowych, -analiza streaming, -elastyczne przechowywanie (data lake) oraz integracja narzędzi ML i SQL dla szybkiego przetw.
|
|
|
8. Omów wybrany algorytm stosowany w analityce Big Data. start learning
|
|
k-średnich-1) wybór k klastrów 2) losowy wybór K punktów jako centra klastrów 3) przypis. kazdego pkt do najbliższego klastra 4) akt. środków klastrów 5) powtarzanie 3-4 az klastry przestana się zmieniać (zbieżność)
|
|
|
9. Na czym polega MapReduce? start learning
|
|
model przetw. Big Data, w którym faza Map dzieli dane i przekształca je w pary klucz–wartość, a faza Reduce agreguje wyniki według kluczy. Umożliwia równoległe, skalowalne i odporne na awarie przetw. dużych zbiorów danych.
|
|
|
10. Co to jest Deep Learning, podaj przykład. start learning
|
|
uczenie maszyn., mózg, oparte na wielowarstwowych sieciach neuronowych, które samodzielnie uczą się złożonych wzorców z dużych zbiorów danych. Przykład: sieć CNN rozpoznająca obiekty na zdjęciach, np. wykrywanie twarzy czy klasyfikacja obrazów.
|
|
|
11. Jakimi cechami charakteryzują się typowe problemy Big Data? start learning
|
|
5V Variety (różnorodność typów danych), Volume (ilośc - nowe i ważne dane), Velocity(prędkość przesyłania danych), Veracity (wiarygodność - potwierdzone źródła)), Value (wartość, odkrywanie wzorców)+skalowalność, bezp., integracja danych, koszty infr.
|
|
|
12. Omów przykładowe techniki stosowane w rozpoznawaniu wzorców. start learning
|
|
-klasyfikacja (SVM, drzewa, sieci neuronowe), klasteryzacja (k-means, DBSCAN), redukcja wymiarów (PCA), ekstrakcja cech (HOG, SIFT) oraz metody głębokiego uczenia, np. CNN do analizy obrazów.
|
|
|
13. Na czym polega przetwarzanie rozproszone? start learning
|
|
Polega na jednoczesnym wykonywaniu zad. obliczen./przetw. danych na wielu nzal. j. obliczen. Kluczowe cechy:-skalowalność, odp. na awarie, -współbieżność,-dzieli zadania,-lokalne dane
|
|
|
14. Omów wybraną metodykę opisującą sposób realizacji procesu wytwórczego modelu analitycznego. start learning
|
|
CRIPSM-DM 1) BU-cele projektu,2) DU-zebranie danych, 3) DP-selekcja i czyszczenie,4) M-modelowanie,5) E-ewaluacja/wer. wyników,6) D-wdrożenie
|
|
|
15. Wymień kluczowe założenia będące warunkami zastosowania modeli predykcyjnych do wspomagania procesów decyzyjnych. start learning
|
|
- dostępne i jakościowe dane,-stabilność związków w czasie,-odpowiednia definicja zmiennej celu,-zrozumiały i interpretowalny model,-ocena jakości predykcji, - zgodny z obecnymi regulacjami i etyką,- możliwość wdrożenia i monitorowania
|
|
|
16. Jak mierzymy jakość modelu prognostycznego? start learning
|
|
na zb. testowym, zależy od rodzaju problemu i celu modelowania: regresyjne - prognozujące wart. liczbowe(MSE, RMSE, MAE, R2), klasyfikacyjne (accuracy, F1-score, precision, recall czułość))
|
|
|
17. Omów w jaki sposób wykorzystanie systemu kontroli wersji wpływa na efektywność procesu wytwórczego rozwiązań analitycznych. start learning
|
|
GIT - współpraca zespołowa, -śledzenie zmian i historii, -bezpieczeństwo danych,-automatyzacja i integracja testów. Zastosowanie: wersjonowanie notatników, kontrola zmian w zapytaniach, śledzenie metryk i wyników
|
|
|
18. Wyjaśnij co to jest reprodukowalność procesu analitycznego i dlaczego jest ona ważna w praktyce gospodarczej. start learning
|
|
zdolność do odtw. wyników analizy na podst. tych samych danych, narzędzi i metod. Dlaczego? zaufanie i przejrzystość, weryfikacja i kontrola jakości, współpraca zespołowa,
|
|
|
19. Omów podstawowe sposoby zapewnienia reprodukowalności procesu analitycznego. start learning
|
|
-wersjonowanie kodu -sys. kontrli wersji (Git), -zapis wyników i metadanych, -ustalony zestaw d. test, -automatyzacja proc. anal- tw. pipeline, -dokumentacja i komentarz, -zarz. śr. anal.(użycie Docker do utrw. zal.)
|
|
|
20. Wyjaśnij co to jest próg odcięcia w modelach klasyfikacyjnych oraz omów od czego zależy jego optymalna wartość w przypadku wykorzystania takiego modelu do wspomagania podejmowania decyzji. start learning
|
|
CUTOFF THRESHOLD- wart. graniczna, powyżej której wykrywane jest oszustwo (fraud), domyślnie 0.5, opt. wart. zależy od: celów biznesowych i kosztów błędów,-charakterystyki danych,-pref. metryki jakości,-analiza krzywej ROC
|
|
|
21. Wyjaśnij do czego wykorzystywana jest regularyzacja w procesie budowy modeli predykcyjnych. start learning
|
|
zapobiega przeuczeniu m. predyk. Dodaje do f-cji błędu kary za zbyt duże wart. param. Dzięki temu model jest prostszy, b. uogólniony i lepiej działa na nowych danych. W praktyce stabilizuje współcz., ogranicza szum i poprawia zdoln. generalizacji.
|
|
|
22. Wyjaśnij różnicę pomiędzy wnioskowaniem obserwacyjnym i kontrfaktycznym. start learning
|
|
Wnioskowanie obs. opisuje zal. widoczne w danych rzeczywistych. Wnioskowanie kontrfakt. dot. scenariuszy „co by było, gdyby”, analizując alternatywne wersje rzeczywistości. Jedno opisuje fakty, a drugie hipotetyczne sytuacje.
|
|
|
23. Wyjaśnij na czym polega paradoks Simpsona. start learning
|
|
przypadek w statystyce, gdzie trend obecny w kilku oddzielnych grupach znika lub odwraca się w trakcie połączenia ze sobą grup, może prowadzić do błędnych wniosków a uśr. wniosków może ukrywać ważne zależności i czasem warto skupić się na podgrupach
|
|
|
24. Przedstaw korzyści ekonomiczne z przetwarzania danych w chmurze. start learning
|
|
-wszystko w jednym miejscu, -model płatności tylko za wielkość zużycia pay-as-you-go, -elastyczne skalowanie,-niższe koszty utrzymania,-brak inw. kapitał.-automatyczne akt.,-szybsze wdrażanie projektów
|
|
|
25. Omów technologie serveless w gromadzeniu i przetwarzaniu danych na potrzeby procesów analitycznych. start learning
|
|
umożliwia gromadzenie i przetw. danych bez zarz. serwerami. Usługi jak AWS Lambda, Azure czy Google Cloud Functions skalują się automatycznie, reagują na zd., pobierają i transformują dane, wspierając analitykę w sposób elastyczny i kosztowo efektywny.
|
|
|
26. Przedstaw metody przechowywania danych dużych rozmiarów w chmurze. start learning
|
|
- data lake (S3, Azure Data Lake), -rozproszonych systemach plików (HDFS),- hurtowniach danych (BigQuery, Snowflake), -bazach NoSQL (Cassandra, DynamoDB) oraz w formacie lakehouse (Delta Lake, Iceberg).
|
|
|
27. Omów skalowanie dokumentowych baz danych typu noSQL w chmurze na przykładzie DynamoDB. start learning
|
|
Skaluje się automatycznie przez partycjonowanie danych wg klucza oraz dynamiczne zwiększ. przepustowość. Dzięki modelowi key–value, replikacji i trybom on-demand lub provisioned obsługuje duży ruch bez zarz. serwerami przez co szybki i stabilny dostęp.
|
|
|
28. Omów skalowanie procesów analitycznych w chmurze. start learning
|
|
dynamiczne dobieranie mocy obliczeniowej do potrzeb. Usługi jak Spark, BigQuery czy Databricks automatycznie zwiększ. zasoby, równolegle przetw. dane, oddzielają storage od compute i umożliwiają szybkie, elastyczne analizy dużych zb.
|
|
|
29. Omów Function as a service - model przetwarzania oparty o architekturę Lambda. start learning
|
|
model, w którym uruchamiane są krótkie f-cje reagujące na zd., bez zarz. serwerami. W arch. Lambda chmura automatycznie skaluje wykonania i rozlicza tylko czas działania, co umożliwia elastyczne, zdarzeniowe przetw. danych.
|
|
|
30. Omów tworzenie i zarządzanie bezpieczeństwem środowisk analitycznych dla języków Python i R w chmurze. start learning
|
|
-odizolowane środowisko pracy analityka(Docker), kontrolę dostępu (IAM), szyfrowanie danych, zarz. zależnościami, monitoring
|
|
|
31. Omów zarządzanie bezpieczeństwem użytkownicy polityki i grupy start learning
|
|
opiera się na IAM: użytkownicy mają ind. konta, grupy łączą ich o podobnych zad., role nadają tymczasowe uprawnienia usługom lub osobom, a polityki def. szczegółowe zasady dostępu, kontrolując kto i do czego ma dostęp.
|
|
|
32. Przedstaw systemy zarządzania relacyjną bazą danych w chmurze i ich zastosowania w analityce danych. start learning
|
|
1. MySQL(Amazon RDS),2. MSC SQL (Azure SQL) i 3. PostgreSQL(Cloud SQL), oferują automat. skalowanie, kopie zapasowe i dost., łatwą integr. z innymi usługami. Służą do analityki transak., raportowania, integracji z BI oraz jako źródło danych dla hurtowni
|
|
|
33. Przedstaw modele przetwarzania danych w chmurze: IaaS (Infrastructure-as-a-Service) PaaS (Platform-as-a-Service) oraz SaaS (Software-as-a-Service). start learning
|
|
Iaas-udost. podst. infrastrukturę IT(maszyny wirt, sieci), duża elastycznośc i kontrola, PaaS-środowisko do tw. i wdrażania aplikacji, ogr. kontrolę nad infrskt, SaaS-gotowe apl. dostępne przez internet, msc365, ogr. personalizacji
|
|
|
34. Omów kwestie etyczne związane z Big Data. start learning
|
|
-naruszenie prywatności,-brak przejrzystości,-dyskryminacja algorytmiczna,-małe bezpieczeństwo,-możliwość handlu danymi
|
|
|
35. Omów cechy danych istotne w procesie analizy danych. start learning
|
|
-jakość(kompletne, spójne, wiarygodne), -typ danych(ilość/jakość),-struktura(tabele vs. obrazy), -skala i format(liczby vs. tekst), -źródło (zaufane i opisane)
|
|
|
36. Przedstaw na czym polega zmienność danych i jak ją uwzględnić w wizualizacji danych. start learning
|
|
zjawisko polegające na zmianie danych w czasie, przestrzeni lub między grupami, może wynikać z sezonowości, trendów, pozwala zrozumieć dynamikę zjawisk, identyf. nietypowe zachowania, wykres liniowy, pudełkowy, historgram, cieplne, punktowe
|
|
|
37. Przedstaw na czym polega niepewność w analizie danych i jak można wpływać na jej wielkość start learning
|
|
stopień, w jakim wyniki różnią się od rzeczywistości. wynika z różnych źródeł: braków danych, błędów pom, uproszczeń modeli. Jej zrozum. pozwala na oc. wiarygodn. wniosków. W celu zmn. -zw.l. obs., st. dokł. narz., elim. obs. odst.
|
|
|
38. Jakie znaczenie mają metadane w analizie danych. start learning
|
|
dane o danych, dostarczają kontekstu, struktury i znaczenia. Znaczenie: ułatwiają wyszukiwanie i org. danych, zw. jakość i wiarygodność, wsp. integr. danych i umożliwiają automatyzację. pomagają w zgodności z regulaminami
|
|
|
39. Wymień i omów układy współrzędnych stosowane przy wizualizacji danych. start learning
|
|
-układ kartezjański, biegunowy(wykresy kołowe i radarowe), geograficzny(szerokość i długośc geogr)
|
|
|
40. Wymień i omów metody wizualizacji proporcji. start learning
|
|
wykres kołowy, donut chart, słupkowy, skumulowany słupkowy
|
|
|
41. Wymień i omów metody wizualizacji relacji. start learning
|
|
wykres rozrzutu, liniowy, bąbelkowy, macierz korelacji
|
|
|
42. Wymień i omów metody wizualizacji danych geolokalizacyjnych. start learning
|
|
mapa cieplna, przepływu, kartogram
|
|
|
43. Wymień obiekty bazy danych i omów ich przeznaczenie. start learning
|
|
tabele (przechowywanie danych), widoki (wirtualne zestawy danych), indeksy (przyspieszanie wyszukiwania), klucze (integralność), procedury i f-cje (logika), triggery (automat. akcje) oraz schematy (organizacja).
|
|
|
44. Wymień i omów metody wizualizacji szeregów czasowych. start learning
|
|
liniowe wykresy trendu, wykresy sezonowości (np. boxplot wg msc), wykresy autokorelacji ACF/PACF, heatmapy kalendarzowe, dekompozycje trend–sezonowość, rolling plots oraz forecasts vs actuals do oceny prognoz.
|
|
|
45. Przedstaw na czym polega uwzględnienie kontekstu w analizie danych. start learning
|
|
polega na zrozumieniu okoliczności, źródła, celu i warunków w jakie dane zostały zebrane oraz ich właściwej interpretacji, w celu uniknięcia błędnych wniosków, zwiększenia wiarygodności i użyteczności rezultatów
|
|
|
46. Wyjaśnij co to jest system kontroli wersji na przykładzie systemu Git i zaproponuj typowy workflow start learning
|
|
Git to system zapisujący historię zmian i umożliwiający pracę wielu osób. Typowy workflow: tworzenie branch, wpr. zmian i robienie commity, wysłanie gałęzi na repozytorium, tworzenie pull request, po review łączenie z main i akt. lokalną kopię.
|
|
|
47. Omów wybraną technikę redukcji wymiaru danych start learning
|
|
PCA redukuje wymiar danych, przekształcając je do nowych osi (składowych), które max wariancję. Usuwa korelacje między cechami i zachowuje najważniejsze inf., ułatwiając wizualizację, uczenie modeli i przyspieszając obliczenia przy dużej liczbie zm.
|
|
|
48. Omów pojęcie obliczeń równoległych i podstawowe problemy, które pojawiają się w obliczeniach równoległych start learning
|
|
polegają na podziale zadania na części wyk. jedn. na wielu rdzeniach/maszynach. Problemy to modyfik. danych przez kilka procesów jedn., zakleszczenie(czek nawzajem), zagłodzenie(nieuż proc), koszty komunikacji
|
|
|
49. Omów pojęcie estymatora odpornego na wybranym przykładzie. start learning
|
|
nie zmienia wyniku pod wpływem wart. odstających. Przykład: mediana w przeciwieństwie do śr. pozostaje stabilna, gdy w danych pojawią się ekstremalne wart., dlatego lepiej opisuje typowy poziom zm.
|
|
|
50. Omów technikę regularyzacji na wybranym przykładzie np. regresji LASSO start learning
|
|
stosuje regularyzację L1, dodając karę za sumę wart. bezwzgl. współcz. „Ściska” je do zera, dzięki czemu model jest prostszy, mniej podatny na przeuczenie i jednocześnie wykonuje selekcję zm., wybierając tylko najważniejsze cechy.
|
|
|
51. Co oznacza określenie 3V oraz 5V w kontekście problematyki Big Data? start learning
|
|
3V Variety (różnorodność typów danych), Volume (ilośc - nowe i ważne dane), Velocity(prędkość przesyłania danych), Veracity (wiarygodność - potwierdzone źródła)), Value (wartość, odkrywanie wzorców)
|
|
|
52. Wyjaśnij pojęcia danych ustrukturyzowanych i nieustrukturyzowanych. start learning
|
|
mają uporządkowany format (tabele, kolumny), łatwo je analizować SQL. Dane nieustrukt. nie mają sztywnej struktury (tekst, obrazy, audio), wymagają metod NLP lub przetw. multimediów. Różnią się formą i sposobem analizy.
|
|
|
53. Przedstaw architektury: Lambda i Kappa. start learning
|
|
Lambda - elastyczny wzorzec architektoniczny, przetwarzanie danych w sposób skalowalny, niezawodny i w czasie rzeczywistym, Batch+Speed+Serving Layer równocześnie. Kappa - uproszczony wzorzec, Apache Kafka, przetwarzanie strumieniowe, tryb ciągły,
|
|
|
54. Przedstaw kluczowe cechy uczenia i predykcji w trybie wsadowym (offline learning) i przyrostowym (online learning) start learning
|
|
uczenie wsadowe najpierw zbiera się wszystkie dane, i model trenowany jest jednorazowo, po zakończeniu można go używać do predykcji. Uczenie przyrostowe do modelu dodawane są stopniowo kolejne dane i model uczy się na bieżąco i szybko się aktualizuje
|
|
|
55. Podaj przykład i omów w jakich sytuacjach wskazane jest zastosowanie modelu przetwarzania OLTP start learning
|
|
Online Transaction Processing - stos. w sys. wym. szybkich, częstych i małych trans., np. w bankowości. Przykład: system sprzedaży online zapisujący zamówienia w cz rzecz. Zapewnia spójność, niskie opóźnienia i obsługę wielu jedn. użytk.
|
|
|
56. Podaj przykład i omów w jakich sytuacjach wskazane jest zastosowanie modelu przetwarzania OLAP start learning
|
|
Online Analytical Processing - stos się do szybk. i wielowym. analizy dużych zb. danych, np. raportów sprzedaży/trendów fin. Umożliwia szybką agreg. i dane hist. Przykład: hurt. danych wsp. raport. KPI. Służy do strategii, nie do transakcji.
|
|
|
57. Wyjaśnij pojęcie i zastosowania biznesowe hurtowni danych. start learning
|
|
System zoptymalizowany pod kątem danych strukturalnych, które są już oczyszczone i uporządkowane, przykład: Snowflake, Amazon Redshift, działają w chmurze i są wysoko skalowane i elastyczne ale mniej niż Data Lake
|
|
|
58. Omów problem czasu w strumieniowym przetwarzaniu danych czym jest watermark start learning
|
|
wynika z opóźnionych zdarzeń. Watermark to znacznik inf. system, że wszystkie zd. starsze niż okr. czas powinny już nadejść. Pozwala zamykać okna czasowe, agregować dane i ogr. opóźnienia wyników.
|
|
|
59. Przedstaw różnicę pomiędzy wsadowym i strumieniowym sposobem przetwarzania danych start learning
|
|
wsd. działa na dużych zb. danych z opóźnieniem i jest opt dla raportów i ETL. Strumieniowe przetwarza dane na bieżąco, zd. po zd., zapewniając natychmiastowe wyniki idealne do monitoringu, alertów i analityki w cz. rzeczywistym.
|
|
|
60. Opisz dwa biznesowe zastosowania analizy danych w czasie rzeczywistym start learning
|
|
wspiera np. wykrywanie fraudów, gdzie transakcje są natychmiast oceniane pod kątem podejrzanych wzorców Apache Kafka, oraz dynamiczne rekomendacje i ceny w e-commerce, dostosowujące ofertę do zachowań użytk., awaria maszyn
|
|
|
61. Wymień i omów metodyki procesu eksploracji danych. start learning
|
|
CRISP-DM (etapy: biznes, dane, przygotowanie, modelowanie, ewaluacja, wdrożenie), KDD (od selekcji danych do odkrywania wiedzy) oraz SEMMA (Sample, Explore, Modify, Model, Assess). Pomagają uporządkować cały proces analityczny.
|
|
|
62. Omów dwie główne grupy metod eksploracji danych. start learning
|
|
nadzorowane (klasyfikacja, regresja), gdzie model uczy się na danych z etykietami, oraz nienadzorowane (klasteryzacja, redukcja wymiarów), które odkrywają ukryte struktury bez znanych klas. Każda służy innym celom analitycznym.
|
|
|
63. Omów metody selekcji zmiennych i obserwacji do modelowania data mining. start learning
|
|
- oparta na wiedzy eksperckiej, - ocena każdej zmiennej niezależnie od modelu, - w trakcie trenowania modelu,- obserwacji odstających. Jest często implementowana na etapie zapytań ETL w celu opt. przetwarzania dalszych etapów analizy
|
|
|
64. Metody klasyfikacji danych - przedstaw różnice i podobieństwa pomiędzy nimi. start learning
|
|
różnią się złożonością, interpretowalnością i sposobem uczenia: drzewa są czytelne, SVM tworzy granice, sieci neuronowe uczą złożone wzorce, a kNN klasyfikuje po sąsiadach. Wszystkie jednak przypisują dane do klas na podst. wzorców z treningu.
|
|
|
65. Przedstaw model drzewa decyzyjnego. start learning
|
|
model, który dzieli dane na kolejne gałęzie wg pytań o cechy, aż do uzyskania liści reprezentujących decyzje lub klasy. Jest łatwe do interpretacji, obsługuje dane nieliniowe i wybiera podziały max zmn. nieczystość (np. Gini).
|
|
|
66. Omów modele lasów losowych. start learning
|
|
tworzą wiele drzew decyzyjnych trenowanych na losowych podzbiorach danych i cech. Każde drzewo głosuje, a wynik to agregacja decyzji. Model jest stabilny, odporny na przeuczenie, dobrze działa na danych nieliniowych i ocenia ważność zm.
|
|
|
67. Przedstaw modele sztucznych sieci neuronowych. start learning
|
|
modele z warstwami połączonych neuronów, które uczą się z danych, modyfikując wagi połączeń. Potrafią wykrywać złożone, nieliniowe wzorce. Obejmują MLP, CNN do obrazów i RNN/LSTM do sekwencji, osiągając wysoką skuteczność w wielu zad.
|
|
|
68. Omów metody grupowania danych. start learning
|
|
klastr., obejmują k-means, które dzieli dane na k klastrów wg odległości, DBSCAN wykrywające skupiska o różnej gęstości przestrzennej. Wszystkie odkrywają struktury bez etykiet.
|
|
|
69. Omów metody analizy danych transakcyjnych. start learning
|
|
reguły asocjacyjne (Apriori, FP-Growth) wykrywające współwyst. produktów, analizę koszykową do rekomendacji, segmentację klientów oraz detekcję anomalii identyfikującą nietypowe lub podejrzane transakcje.
|
|
|
70. Omów metody konstrukcji tablic trwania życia oraz podaj przykłady ich wykorzystania. start learning
|
|
kohortowe (rzecz. i na przestrzeni) lub przekrojowe(jeden okres), obliczając pr-stwa zgonu i przeżycia w kolejnych okresach. Stosuje się je w demografii, ubezpieczeniach, medycynie i analizie ryzyka do prognozowania dł. życia.
|
|
|
71. Porównaj modele nieparametryczne i modele parametryczne analizy czasu trwania. start learning
|
|
nieparam. (np. Kaplan–Meier) nie zakładają kształtu rozkładu czasu trwania i są elastyczne. Modele param. (Weibull) zakładają konkretny rozkład, co daje większą precyzję i możliwość ekstrapolacji. Różnią się więc założ. i zakresem zastosowań.
|
|
|
72. Scharakteryzuj modele proporcjonalnych hazardów oraz podaj przykłady takich modeli. start learning
|
|
m. prop. hazard. zakładają, że zm. obj. wpływ. na ryzyko przez st. mnożnik, a kształt f-cji hazardu jest skalowalny. Stos. ryzyka m. 2 jedn. niezm. niezal. od momentu zd. Najpop. model Coxa, a param. odpowiedniki to m.in. model Weibulla. ACT
|
|
|
73. Scharakteryzuj modele przyspieszonej porażki oraz podaj przykłady takich modeli. start learning
|
|
M. przyspieszonej porażki (AFT) opisują wpływ zm. jako przyspieszanie lub opóźnianie czasu do zd.-działają więc na osi czasu, nie na hazardzie. Przykłady to modele log-normalne, Weibulla AFT i log-logisticzne, stosowane m.in. w niezawodności i medycynie.
|
|
|
74. Scharakteryzuj modele semiparametryczne analizy czasu trwania. start learning
|
|
m. semiparam łączą część param i nieparam. W analizie czasu trwania głównym przykładem jest model Coxa, gdzie wpływ zm. opisuje część param., a bazowy hazard pozostaje nieokr. Zapewnia elastyczność bez silnych założeń o rozkł.
|
|
|
75. Wymień różnice pomiędzy podejściem klasycznym a bayesowskim w kontekście estymacji parametrów modeli analizy czasu trwania. start learning
|
|
Klasyczne podejście estymuje param. wyłącznie na podst. danych i daje pkt wyniki. Bayesowskie łączy dane z wcześniejszą wiedzą (priory), zwraca rozkł. a nie pkt oraz umożliwia pełne ujęcie niepewności. Różnią się więc interpretacją i sp. estymacji.
|
|
|
76. Omów modele ryzyk konkurencyjnych w analizie czasu trwania. start learning
|
|
M. ryzyk konkurencyjnych opisują sytuacje, gdy kilka typów zd. może zakończyć czas trwania, a wyst. jednego uniemożliwia inne. Stosuje się f-cje hazardów specyficznych dla przyczyn i modele Fine-Gray, aby szacować wpływ zm. na poszczególne ryzyka.
|
|
|
77. Omów ideę metod Monte Carlo bazujących na łańcuchach Markowa (MCMC) w kontekście estymacji parametrów modeli analizy czasu trwania. start learning
|
|
MCMC służy do estymacji parametrów modeli bez określonego rozkładu pr-stwa, losuje wiele kolejnych kroków (akc/odrz) tak że każdy krok zależy tylko od poprzedniego (tworzy łańcuch), z czasem mamy pożądany rozkład
|
|
|
78. Jakość danych w analizach biznesowych. Znaczenie i metody oceny. start learning
|
|
-dec. o wiarygodności analiz. -Ocenia się ją przez kompletność, spójność, dokładność, aktualność i unikalność. Met. obejmują profile danych, reg. walidacji, wykrywanie duplikatów, spr źródeł oraz monitor. błędów, co zapewnia rzetelne decyzje biznesowe.
|
|
|
79. Imputacja danych. Istota i znaczenie. start learning
|
|
uzupełnianie brak. wartości w zb, aby umożliwić poprawną analizę. Zapobiega utracie inf. i zniekształceniu wyników. Może być prosta (średnia, mediana) lub zaawansowana (KNN, MICE). Jej celem jest zwiększ. jakości i wiarygodności modeli.
|
|
|
80. Imputacja wielokrotna: opis metody wybór modelu do imputacji oraz estymacja parametrów start learning
|
|
tworzy kilka wersji danych z różnymi uzupeł. braków, by odzwierciedlić niepewność. Model imputacji dobiera się do typu zm. (np. regresja, logit, drzewa). Param. estymuje się osobno dla każdej wersji, a wyniki łączy reg Rubina.
|
|
|
81. Porównaj modele z efektami stałymi oraz modele z efektami losowymi. Przedstaw podstawowe różnice i zastosowania obu typów modeli. start learning
|
|
m. z ef. stałymi kontrolują wpływ jedn. poprzez stałe param., skupiając się na różnicach w obrębie jedn.Ef. losowe traktują zróżnicowanie jako losowe i uogólniają wyniki na populację. 1 są b. restrykcyjne, 2 elastyczniejsze i wymagają mniej param.
|
|
|
82. Regresja kwantylowa: opis i zastosowania w analityce biznesowej. start learning
|
|
modeluje wybrane kwantyle zm zależnej, np. medianę lub 90. percentyl, zamiast średniej. Umożliwia analizę ef. w całym rozkładzie wyników. W biznesie służy m.in. do oceny ryzyka, prognoz skrajnych wart., wyceny nieruchomości i optym. kosztów.
|
|
|
83. Regresja adaptacyjna: model opis estymacji i zastosowania w analityce biznesowej. start learning
|
|
MARS- buduje model z lokalnych f-cji bazowych, dopasowując się do nieliniowych zal. Estymacja odbywa się w 2 krokach: dodawanie i przycinanie f-cji. W biznesie służy do prognoz, segmentacji i model. złożonych relacji.
|
|
|
84. Metoda k-średnich i jej zastosowanie w ocenie wartości klienta w czasie CLV. start learning
|
|
K-średnich grupuje klientów w klastry o podobnych cechach, min. odległość od centroidów. W analizie CLV pozwala wydzielić segm. o różnej wart. życiowej klienta, identyfikować grupy wysokomarżowe, przewidywać zachowania i wspierać personalizację ofert.
|
|
|
85. Wymień i omów zastosowania biznesowe modeli oceny wartości klienta w czasie CLV. start learning
|
|
wspierają segm. klientów, przewidywanie ich przyszłej wart, opt. budżetu marketingowego, personalizację ofert, identyfikację klientów wysokiego ryzyka odejścia oraz decyzje dotyczące retencji i akwizycji. Pozwalają zwiększać marżę i lojalność.
|
|
|
86. Jakie statystyki opisowe są odporne na wartości nietypowe? start learning
|
|
-mediana, moda, rozstęp międzykwartylowy
|
|
|
87. Jakie statystyki opisowe należy stosować w przypadku prób pobranych z populacji o rozkładzie innym niż rozkład normalny? start learning
|
|
-mediana, moda, rozstęp międzykwartylowy, miary pozycyjne, wskaźniki asymetrii(dodatnia-wydłużony ogon po prawej stronie) i kurtozy(koncentracja danych wokół średniej i obecność wartości skrajnych)
|
|
|
88. Omów trzy elementy bezpieczeństwa informacji: Poufność, Integralność, Dostępność start learning
|
|
Poufność chroni dane przed nieuprawnionym dost., integralność zapewnia ich poprawność i nienaruszalność, a dostępność gwarantuje, że uprawnieni użytk. mogą z nich korzystać wtedy, gdy potrzebują. Razem tworzą podst. bezpiecznego przetwarzania inf.
|
|
|
89. Co to jest Spear Phishing (ukierunkowany atak na osobę lub organizację)? start learning
|
|
atak, w którym cyberprzestępca podszywa się pod zaufaną osobę/inst., używając spersonalizowanych inf. o ofierze. Celem jest wyłudzenie danych, pieniędzy lub dost. do systemów. Ataki są precyzyjne i trudniejsze do wykrycia niż zwykły phishing.
|
|
|
90. Przedstaw podstawowe zasady cyberbezpieczeństwa dla MŚP (Małe i Średnie Przedsiębiorstwa) start learning
|
|
-silne i unikalne hasła, - MFA(uwierzytelnianie wieloskł.), -regularne aktualizacje,-szkolenie pracowników z cyberbezp.,-kopie zapasowe danych,-antywirusy, firewall,-polityka bezpieczeństwa i planu awaryjnego
|
|
|
91. Na czym polega interpretacja języka programowania, podaj przykłady języków interpretowalnych oraz kilka różnych interpretatorów start learning
|
|
polega na wyk. kodu linijka po linijce przez interpreter bez wcześniejszej kompilacji. Przykłady języków: Python, JavaScript, Ruby, PHP. Przykłady interpreterów: CPython, Node. js, Ruby MRI, PHP Engine, Lua Interpreter. Dzięki temu kod działa od razu.
|
|
|
92. Omów sposób instalacji i zarządzania bibliotekami (pakietami) w środowisku języka Python, podaj przykłady popularnych bibliotek start learning
|
|
PIP package, instalowane z poziomu terminala, BIBLIOTEKI:-numpy (obliczenia mat), -pandas(analiza danych),-matplotlib(wizualizacja), -scikit-learn(uczenie maszynowe), -TensorFlow(sieci neuronowe)
|
|
|
93. Omów techniki iterowania na przykładzie wybranego języka programowania, np. R, Python start learning
|
|
- for loop(do przeglądania list),-while loop(operacje aż do spełniania warunków),-enumerate(iterowanie z jednoczesnym dostępem do indeksu),-list comprehension (nowe listy za pomocą składni iteracyjnej),-zip(równoległa iteracja po wielu kolekcjach)
|
|
|
94. Omów koncepcję funkcji oraz zakresu ważności zmiennych na przykładzie wybranego języka programowania, np. R, Python start learning
|
|
f-cja to blok kodu wykonujący zadanie i przyjmujący arg. Zakres zm. obejmuje zm lokalne (widoczne tylko w f-cji) i globalne (dostępne w całym programie). F-cja tworzy własny scope, co zapobiega kolizjom nazw i ułatwia modularność.
|
|
|
95. Co to jest silnik decyzyjny? Wymień reguły procesu akceptacji kredytowej implementowane w silniku decyzyjnym. start learning
|
|
system automatyzujący podejm. decyzji na podst. zestawu reguł. W akceptacji kredytowej stosuje się reguły: scoring, weryfikacja dochodu, historii BIK, zadłużenia, limitów DTI, wieku, zatrudnienia, celu kredytu oraz blacklist/whitelist.
|
|
|
96. Omów pojęcia związane z przygotowaniem danych i zdarzeniem modelowym: punkt obserwacji, okres danych i okres obserwacji, wymień najczęstsze błędy modelowania (np. wzięcie danych z przyszłości) i problemy z doborem długości obu okresów. start learning
|
|
to moment tworz. cech; okr danych to czas, z którego je liczymy, a okr obserwacji to czas na ocenę zd. Błędy: użycie danych z przyszłości, zbyt krótkie okna, niestabilność cech. Problemem jest dobranie okien tak, by oddawały realne zachowania.
|
|
|
97. Omów przykładową kartę scoringową. Jak wyznacza się punkty cząstkowe? Jak interpretuje się kartę scoringową? start learning
|
|
narzędzie na regresji log., pkty w zależności od cech klienta, obl. z wag modelu (WOE). Wynik klienta ozn. pr-stwo spłaty zob. Wyższy score ozn niższe ryzyko. Kartę interpretuje się przez progi akc., odrzuceń i segmenty ryzyka.
|
|
|
98. W jaki sposób obliczana jest opłacalność procesu akceptacji kredytowej? Jaką rolę w tym odgrywa model scoringowy? start learning
|
|
ocenia się poprzez porównanie przychodów (odsetki, prowizje) z kosztami ryzyka i stratami z defaultów. Model scoringowy szacuje pr-stwo niewypłacalności, pozwala ustalić progi akceptacji i optymalnie dobrać klientów, max zysk portfela.
|
|
|
99. Co to jest analiza wpływu wniosków odrzuconych (Reject Inference)? start learning
|
|
tech. szac. ryzyka klientów odrz. w proc. kredyt., aby ogr. bias w modelu spr. pr-stwo czy byłby dobrym/złym klientem nie znając ich później. zach., stosuje się met. imputacji do obec. już modelu, by popr. jakość scoringu i decyzji akcept.
|
|
|
100. Omów wpływ ludzkiego czynnika na proces akceptacji kredytowej, czy można zwiększyć sprzedaż i zmniejszyć ryzyko kredytowe jednocześnie? start learning
|
|
Ludzki czynnik wpływa na błędy, odstęp. od reguł i niekonsekwencję decyzji. Automat. i scoring ogr. te ryzyka. Lepsze modele, segment. i opt. progi akcept. pozwalają zwięk. sprzedaż i zmn. ryzyko, kierując ofertę do właśc. klientów.
|
|
|