Moja lekcja

 0    100 flashcards    klaus1
download mp3 print play test yourself
 
Question Answer
1. Omów mechanizmy łączenia danych z wielu tabel.
start learning
-LEFT JOIN ON A. KEY=B. KEY(WHERE B. KEY IS NULL), INNER JOIN, RIGHT JOIN ON A. KEY=B. KEY(WHERE A. KEY IS NULL), FULL OUTER JOIN ON A. KEY=B. KEY(WHERE A. KEY IS NULL OR B. KEY IS NULL)
2. Omów klasyfikację funkcji działających na pojedynczych wierszach.
start learning
f-cje działające na jednym wierszu, gdzie wynikiem zawsze będzie również jeden wiersz, SQL: numeryczne (ABS), znakowe (VARCHAR), konwertujące (CONVERT), datowe (NOW)
3. W jakim celu buduje się perspektywy? Omów możliwe klauzule polecenia do tworzenia perspektyw
start learning
inaczej widoki-wirtualne tabele tw. na podst. zapytań, nie przechowują danych, tylko definicja widoku i metadane, zapewniają bezp. danych przez ogr. dostępu do danych zapisanych w tabelach. CREATE VIEW, SELECT, FROM, WHERE
4. Operacje na zbiorach – omów składnię poleceń i znaczenie uzyskanych wyników.
start learning
UNION-usuwa duplikaty, UNION ALL-zostawia, INTERSECT-zostawia tylko wspólne wiersze, EXCEPT- tylko np. wiersze z 1 zbioru
5. Przedstaw podzapytania – typy w których mogą wystąpić operatory.
start learning
Podzapytania dzielą się na: skalarne (z operatorami =, <, >), listowe (IN, NOT IN, ANY, ALL), skorelowane (EXISTS, NOT EXISTS) oraz tabelowe w klauzuli FROM. Różnią się liczbą zwracanych wartości i sposobem użycia operatorów.
6. Omów typowe rozwiązania Big Data w obszarze baz/repozytoriów danych.
start learning
- rozproszone systemy plików (HDFS), hurtownie danych SQL w dużej skali (Hive, BigQuery), bazy NoSQL (MongoDB, Cassandra, DynamoDB), data lake/lakehouse (S3, Delta Lake) oraz systemy streamingowe (Kafka, Flink).
7. Przedstaw specyfikę środowisk analitycznych stosowanych w Big Data.
start learning
-skalowalność pozioma (wiecej węzłów niż większych), -przetw. równoległe, -obsługa danych masowych, -analiza streaming, -elastyczne przechowywanie (data lake) oraz integracja narzędzi ML i SQL dla szybkiego przetw.
8. Omów wybrany algorytm stosowany w analityce Big Data.
start learning
k-średnich-1) wybór k klastrów 2) losowy wybór K punktów jako centra klastrów 3) przypis. kazdego pkt do najbliższego klastra 4) akt. środków klastrów 5) powtarzanie 3-4 az klastry przestana się zmieniać (zbieżność)
9. Na czym polega MapReduce?
start learning
model przetw. Big Data, w którym faza Map dzieli dane i przekształca je w pary klucz–wartość, a faza Reduce agreguje wyniki według kluczy. Umożliwia równoległe, skalowalne i odporne na awarie przetw. dużych zbiorów danych.
10. Co to jest Deep Learning, podaj przykład.
start learning
uczenie maszyn., mózg, oparte na wielowarstwowych sieciach neuronowych, które samodzielnie uczą się złożonych wzorców z dużych zbiorów danych. Przykład: sieć CNN rozpoznająca obiekty na zdjęciach, np. wykrywanie twarzy czy klasyfikacja obrazów.
11. Jakimi cechami charakteryzują się typowe problemy Big Data?
start learning
5V Variety (różnorodność typów danych), Volume (ilośc - nowe i ważne dane), Velocity(prędkość przesyłania danych), Veracity (wiarygodność - potwierdzone źródła)), Value (wartość, odkrywanie wzorców)+skalowalność, bezp., integracja danych, koszty infr.
12. Omów przykładowe techniki stosowane w rozpoznawaniu wzorców.
start learning
-klasyfikacja (SVM, drzewa, sieci neuronowe), klasteryzacja (k-means, DBSCAN), redukcja wymiarów (PCA), ekstrakcja cech (HOG, SIFT) oraz metody głębokiego uczenia, np. CNN do analizy obrazów.
13. Na czym polega przetwarzanie rozproszone?
start learning
Polega na jednoczesnym wykonywaniu zad. obliczen./przetw. danych na wielu nzal. j. obliczen. Kluczowe cechy:-skalowalność, odp. na awarie, -współbieżność,-dzieli zadania,-lokalne dane
14. Omów wybraną metodykę opisującą sposób realizacji procesu wytwórczego modelu analitycznego.
start learning
CRIPSM-DM 1) BU-cele projektu,2) DU-zebranie danych, 3) DP-selekcja i czyszczenie,4) M-modelowanie,5) E-ewaluacja/wer. wyników,6) D-wdrożenie
15. Wymień kluczowe założenia będące warunkami zastosowania modeli predykcyjnych do wspomagania procesów decyzyjnych.
start learning
- dostępne i jakościowe dane,-stabilność związków w czasie,-odpowiednia definicja zmiennej celu,-zrozumiały i interpretowalny model,-ocena jakości predykcji, - zgodny z obecnymi regulacjami i etyką,- możliwość wdrożenia i monitorowania
16. Jak mierzymy jakość modelu prognostycznego?
start learning
na zb. testowym, zależy od rodzaju problemu i celu modelowania: regresyjne - prognozujące wart. liczbowe(MSE, RMSE, MAE, R2), klasyfikacyjne (accuracy, F1-score, precision, recall czułość))
17. Omów w jaki sposób wykorzystanie systemu kontroli wersji wpływa na efektywność procesu wytwórczego rozwiązań analitycznych.
start learning
GIT - współpraca zespołowa, -śledzenie zmian i historii, -bezpieczeństwo danych,-automatyzacja i integracja testów. Zastosowanie: wersjonowanie notatników, kontrola zmian w zapytaniach, śledzenie metryk i wyników
18. Wyjaśnij co to jest reprodukowalność procesu analitycznego i dlaczego jest ona ważna w praktyce gospodarczej.
start learning
zdolność do odtw. wyników analizy na podst. tych samych danych, narzędzi i metod. Dlaczego? zaufanie i przejrzystość, weryfikacja i kontrola jakości, współpraca zespołowa,
19. Omów podstawowe sposoby zapewnienia reprodukowalności procesu analitycznego.
start learning
-wersjonowanie kodu -sys. kontrli wersji (Git), -zapis wyników i metadanych, -ustalony zestaw d. test, -automatyzacja proc. anal- tw. pipeline, -dokumentacja i komentarz, -zarz. śr. anal.(użycie Docker do utrw. zal.)
20. Wyjaśnij co to jest próg odcięcia w modelach klasyfikacyjnych oraz omów od czego zależy jego optymalna wartość w przypadku wykorzystania takiego modelu do wspomagania podejmowania decyzji.
start learning
CUTOFF THRESHOLD- wart. graniczna, powyżej której wykrywane jest oszustwo (fraud), domyślnie 0.5, opt. wart. zależy od: celów biznesowych i kosztów błędów,-charakterystyki danych,-pref. metryki jakości,-analiza krzywej ROC
21. Wyjaśnij do czego wykorzystywana jest regularyzacja w procesie budowy modeli predykcyjnych.
start learning
zapobiega przeuczeniu m. predyk. Dodaje do f-cji błędu kary za zbyt duże wart. param. Dzięki temu model jest prost­szy, b. uogólniony i lepiej działa na nowych danych. W praktyce stabilizuje współcz., ogranicza szum i poprawia zdoln. generalizacji.
22. Wyjaśnij różnicę pomiędzy wnioskowaniem obserwacyjnym i kontrfaktycznym.
start learning
Wnioskowanie obs. opisuje zal. widoczne w danych rzeczywistych. Wnioskowanie kontrfakt. dot. scenariuszy „co by było, gdyby”, analizując alternatywne wersje rzeczywistości. Jedno opisuje fakty, a drugie hipotetyczne sytuacje.
23. Wyjaśnij na czym polega paradoks Simpsona.
start learning
przypadek w statystyce, gdzie trend obecny w kilku oddzielnych grupach znika lub odwraca się w trakcie połączenia ze sobą grup, może prowadzić do błędnych wniosków a uśr. wniosków może ukrywać ważne zależności i czasem warto skupić się na podgrupach
24. Przedstaw korzyści ekonomiczne z przetwarzania danych w chmurze.
start learning
-wszystko w jednym miejscu, -model płatności tylko za wielkość zużycia pay-as-you-go, -elastyczne skalowanie,-niższe koszty utrzymania,-brak inw. kapitał.-automatyczne akt.,-szybsze wdrażanie projektów
25. Omów technologie serveless w gromadzeniu i przetwarzaniu danych na potrzeby procesów analitycznych.
start learning
umożliwia gromadzenie i przetw. danych bez zarz. serwerami. Usługi jak AWS Lambda, Azure czy Google Cloud Functions skalują się automatycznie, reagują na zd., pobierają i transformują dane, wspierając analitykę w sposób elastyczny i kosztowo efektywny.
26. Przedstaw metody przechowywania danych dużych rozmiarów w chmurze.
start learning
- data lake (S3, Azure Data Lake), -rozproszonych systemach plików (HDFS),- hurtowniach danych (BigQuery, Snowflake), -bazach NoSQL (Cassandra, DynamoDB) oraz w formacie lakehouse (Delta Lake, Iceberg).
27. Omów skalowanie dokumentowych baz danych typu noSQL w chmurze na przykładzie DynamoDB.
start learning
Skaluje się automatycznie przez partycjonowanie danych wg klucza oraz dynamiczne zwiększ. przepustowość. Dzięki modelowi key–value, replikacji i trybom on-demand lub provisioned obsługuje duży ruch bez zarz. serwerami przez co szybki i stabilny dostęp.
28. Omów skalowanie procesów analitycznych w chmurze.
start learning
dynamiczne dobieranie mocy obliczeniowej do potrzeb. Usługi jak Spark, BigQuery czy Databricks automatycznie zwiększ. zasoby, równolegle przetw. dane, oddzielają storage od compute i umożliwiają szybkie, elastyczne analizy dużych zb.
29. Omów Function as a service - model przetwarzania oparty o architekturę Lambda.
start learning
model, w którym uruchamiane są krótkie f-cje reagujące na zd., bez zarz. serwerami. W arch. Lambda chmura automatycznie skaluje wykonania i rozlicza tylko czas działania, co umożliwia elastyczne, zdarzeniowe przetw. danych.
30. Omów tworzenie i zarządzanie bezpieczeństwem środowisk analitycznych dla języków Python i R w chmurze.
start learning
-odizolowane środowisko pracy analityka(Docker), kontrolę dostępu (IAM), szyfrowanie danych, zarz. zależnościami, monitoring
31. Omów zarządzanie bezpieczeństwem użytkownicy polityki i grupy
start learning
opiera się na IAM: użytkownicy mają ind. konta, grupy łączą ich o podobnych zad., role nadają tymczasowe uprawnienia usługom lub osobom, a polityki def. szczegółowe zasady dostępu, kontrolując kto i do czego ma dostęp.
32. Przedstaw systemy zarządzania relacyjną bazą danych w chmurze i ich zastosowania w analityce danych.
start learning
1. MySQL(Amazon RDS),2. MSC SQL (Azure SQL) i 3. PostgreSQL(Cloud SQL), oferują automat. skalowanie, kopie zapasowe i dost., łatwą integr. z innymi usługami. Służą do analityki transak., raportowania, integracji z BI oraz jako źródło danych dla hurtowni
33. Przedstaw modele przetwarzania danych w chmurze: IaaS (Infrastructure-as-a-Service) PaaS (Platform-as-a-Service) oraz SaaS (Software-as-a-Service).
start learning
Iaas-udost. podst. infrastrukturę IT(maszyny wirt, sieci), duża elastycznośc i kontrola, PaaS-środowisko do tw. i wdrażania aplikacji, ogr. kontrolę nad infrskt, SaaS-gotowe apl. dostępne przez internet, msc365, ogr. personalizacji
34. Omów kwestie etyczne związane z Big Data.
start learning
-naruszenie prywatności,-brak przejrzystości,-dyskryminacja algorytmiczna,-małe bezpieczeństwo,-możliwość handlu danymi
35. Omów cechy danych istotne w procesie analizy danych.
start learning
-jakość(kompletne, spójne, wiarygodne), -typ danych(ilość/jakość),-struktura(tabele vs. obrazy), -skala i format(liczby vs. tekst), -źródło (zaufane i opisane)
36. Przedstaw na czym polega zmienność danych i jak ją uwzględnić w wizualizacji danych.
start learning
zjawisko polegające na zmianie danych w czasie, przestrzeni lub między grupami, może wynikać z sezonowości, trendów, pozwala zrozumieć dynamikę zjawisk, identyf. nietypowe zachowania, wykres liniowy, pudełkowy, historgram, cieplne, punktowe
37. Przedstaw na czym polega niepewność w analizie danych i jak można wpływać na jej wielkość
start learning
stopień, w jakim wyniki różnią się od rzeczywistości. wynika z różnych źródeł: braków danych, błędów pom, uproszczeń modeli. Jej zrozum. pozwala na oc. wiarygodn. wniosków. W celu zmn. -zw.l. obs., st. dokł. narz., elim. obs. odst.
38. Jakie znaczenie mają metadane w analizie danych.
start learning
dane o danych, dostarczają kontekstu, struktury i znaczenia. Znaczenie: ułatwiają wyszukiwanie i org. danych, zw. jakość i wiarygodność, wsp. integr. danych i umożliwiają automatyzację. pomagają w zgodności z regulaminami
39. Wymień i omów układy współrzędnych stosowane przy wizualizacji danych.
start learning
-układ kartezjański, biegunowy(wykresy kołowe i radarowe), geograficzny(szerokość i długośc geogr)
40. Wymień i omów metody wizualizacji proporcji.
start learning
wykres kołowy, donut chart, słupkowy, skumulowany słupkowy
41. Wymień i omów metody wizualizacji relacji.
start learning
wykres rozrzutu, liniowy, bąbelkowy, macierz korelacji
42. Wymień i omów metody wizualizacji danych geolokalizacyjnych.
start learning
mapa cieplna, przepływu, kartogram
43. Wymień obiekty bazy danych i omów ich przeznaczenie.
start learning
tabele (przechowywanie danych), widoki (wirtualne zestawy danych), indeksy (przyspieszanie wyszukiwania), klucze (integralność), procedury i f-cje (logika), triggery (automat. akcje) oraz schematy (organizacja).
44. Wymień i omów metody wizualizacji szeregów czasowych.
start learning
liniowe wykresy trendu, wykresy sezonowości (np. boxplot wg msc), wykresy autokorelacji ACF/PACF, heatmapy kalendarzowe, dekompozycje trend–sezonowość, rolling plots oraz forecasts vs actuals do oceny prognoz.
45. Przedstaw na czym polega uwzględnienie kontekstu w analizie danych.
start learning
polega na zrozumieniu okoliczności, źródła, celu i warunków w jakie dane zostały zebrane oraz ich właściwej interpretacji, w celu uniknięcia błędnych wniosków, zwiększenia wiarygodności i użyteczności rezultatów
46. Wyjaśnij co to jest system kontroli wersji na przykładzie systemu Git i zaproponuj typowy workflow
start learning
Git to system zapisujący historię zmian i umożliwiający pracę wielu osób. Typowy workflow: tworzenie branch, wpr. zmian i robienie commity, wysłanie gałęzi na repozytorium, tworzenie pull request, po review łączenie z main i akt. lokalną kopię.
47. Omów wybraną technikę redukcji wymiaru danych
start learning
PCA redukuje wymiar danych, przekształcając je do nowych osi (składowych), które max wariancję. Usuwa korelacje między cechami i zachowuje najważniejsze inf., ułatwiając wizualizację, uczenie modeli i przyspieszając obliczenia przy dużej liczbie zm.
48. Omów pojęcie obliczeń równoległych i podstawowe problemy, które pojawiają się w obliczeniach równoległych
start learning
polegają na podziale zadania na części wyk. jedn. na wielu rdzeniach/maszynach. Problemy to modyfik. danych przez kilka procesów jedn., zakleszczenie(czek nawzajem), zagłodzenie(nieuż proc), koszty komunikacji
49. Omów pojęcie estymatora odpornego na wybranym przykładzie.
start learning
nie zmienia wyniku pod wpływem wart. odstających. Przykład: mediana w przeciwieństwie do śr. pozostaje stabilna, gdy w danych pojawią się ekstremalne wart., dlatego lepiej opisuje typowy poziom zm.
50. Omów technikę regularyzacji na wybranym przykładzie np. regresji LASSO
start learning
stosuje regularyzację L1, dodając karę za sumę wart. bezwzgl. współcz. „Ściska” je do zera, dzięki czemu model jest prostszy, mniej podatny na przeuczenie i jednocześnie wykonuje selekcję zm., wybierając tylko najważniejsze cechy.
51. Co oznacza określenie 3V oraz 5V w kontekście problematyki Big Data?
start learning
3V Variety (różnorodność typów danych), Volume (ilośc - nowe i ważne dane), Velocity(prędkość przesyłania danych), Veracity (wiarygodność - potwierdzone źródła)), Value (wartość, odkrywanie wzorców)
52. Wyjaśnij pojęcia danych ustrukturyzowanych i nieustrukturyzowanych.
start learning
mają uporządkowany format (tabele, kolumny), łatwo je analizować SQL. Dane nieustrukt. nie mają sztywnej struktury (tekst, obrazy, audio), wymagają metod NLP lub przetw. multimediów. Różnią się formą i sposobem analizy.
53. Przedstaw architektury: Lambda i Kappa.
start learning
Lambda - elastyczny wzorzec architektoniczny, przetwarzanie danych w sposób skalowalny, niezawodny i w czasie rzeczywistym, Batch+Speed+Serving Layer równocześnie. Kappa - uproszczony wzorzec, Apache Kafka, przetwarzanie strumieniowe, tryb ciągły,
54. Przedstaw kluczowe cechy uczenia i predykcji w trybie wsadowym (offline learning) i przyrostowym (online learning)
start learning
uczenie wsadowe najpierw zbiera się wszystkie dane, i model trenowany jest jednorazowo, po zakończeniu można go używać do predykcji. Uczenie przyrostowe do modelu dodawane są stopniowo kolejne dane i model uczy się na bieżąco i szybko się aktualizuje
55. Podaj przykład i omów w jakich sytuacjach wskazane jest zastosowanie modelu przetwarzania OLTP
start learning
Online Transaction Processing - stos. w sys. wym. szybkich, częstych i małych trans., np. w bankowości. Przykład: system sprzedaży online zapisujący zamówienia w cz rzecz. Zapewnia spójność, niskie opóźnienia i obsługę wielu jedn. użytk.
56. Podaj przykład i omów w jakich sytuacjach wskazane jest zastosowanie modelu przetwarzania OLAP
start learning
Online Analytical Processing - stos się do szybk. i wielowym. analizy dużych zb. danych, np. raportów sprzedaży/trendów fin. Umożliwia szybką agreg. i dane hist. Przykład: hurt. danych wsp. raport. KPI. Służy do strategii, nie do transakcji.
57. Wyjaśnij pojęcie i zastosowania biznesowe hurtowni danych.
start learning
System zoptymalizowany pod kątem danych strukturalnych, które są już oczyszczone i uporządkowane, przykład: Snowflake, Amazon Redshift, działają w chmurze i są wysoko skalowane i elastyczne ale mniej niż Data Lake
58. Omów problem czasu w strumieniowym przetwarzaniu danych czym jest watermark
start learning
wynika z opóźnionych zdarzeń. Watermark to znacznik inf. system, że wszystkie zd. starsze niż okr. czas powinny już nadejść. Pozwala zamykać okna czasowe, agregować dane i ogr. opóźnienia wyników.
59. Przedstaw różnicę pomiędzy wsadowym i strumieniowym sposobem przetwarzania danych
start learning
wsd. działa na dużych zb. danych z opóźnieniem i jest opt dla raportów i ETL. Strumieniowe przetwarza dane na bieżąco, zd. po zd., zapewniając natychmiastowe wyniki idealne do monitoringu, alertów i analityki w cz. rzeczywistym.
60. Opisz dwa biznesowe zastosowania analizy danych w czasie rzeczywistym
start learning
wspiera np. wykrywanie fraudów, gdzie transakcje są natychmiast oceniane pod kątem podejrzanych wzorców Apache Kafka, oraz dynamiczne rekomendacje i ceny w e-commerce, dostosowujące ofertę do zachowań użytk., awaria maszyn
61. Wymień i omów metodyki procesu eksploracji danych.
start learning
CRISP-DM (etapy: biznes, dane, przygotowanie, modelowanie, ewaluacja, wdrożenie), KDD (od selekcji danych do odkrywania wiedzy) oraz SEMMA (Sample, Explore, Modify, Model, Assess). Pomagają uporządkować cały proces analityczny.
62. Omów dwie główne grupy metod eksploracji danych.
start learning
nadzorowane (klasyfikacja, regresja), gdzie model uczy się na danych z etykietami, oraz nienadzorowane (klasteryzacja, redukcja wymiarów), które odkrywają ukryte struktury bez znanych klas. Każda służy innym celom analitycznym.
63. Omów metody selekcji zmiennych i obserwacji do modelowania data mining.
start learning
- oparta na wiedzy eksperckiej, - ocena każdej zmiennej niezależnie od modelu, - w trakcie trenowania modelu,- obserwacji odstających. Jest często implementowana na etapie zapytań ETL w celu opt. przetwarzania dalszych etapów analizy
64. Metody klasyfikacji danych - przedstaw różnice i podobieństwa pomiędzy nimi.
start learning
różnią się złożonością, interpretowalnością i sposobem uczenia: drzewa są czytelne, SVM tworzy granice, sieci neuronowe uczą złożone wzorce, a kNN klasyfikuje po sąsiadach. Wszystkie jednak przypisują dane do klas na podst. wzorców z treningu.
65. Przedstaw model drzewa decyzyjnego.
start learning
model, który dzieli dane na kolejne gałęzie wg pytań o cechy, aż do uzyskania liści reprezentujących decyzje lub klasy. Jest łatwe do interpretacji, obsługuje dane nieliniowe i wybiera podziały max zmn. nieczystość (np. Gini).
66. Omów modele lasów losowych.
start learning
tworzą wiele drzew decyzyjnych trenowanych na losowych podzbiorach danych i cech. Każde drzewo głosuje, a wynik to agregacja decyzji. Model jest stabilny, odporny na przeuczenie, dobrze działa na danych nieliniowych i ocenia ważność zm.
67. Przedstaw modele sztucznych sieci neuronowych.
start learning
modele z warstwami połączonych neuronów, które uczą się z danych, modyfikując wagi połączeń. Potrafią wykrywać złożone, nieliniowe wzorce. Obejmują MLP, CNN do obrazów i RNN/LSTM do sekwencji, osiągając wysoką skuteczność w wielu zad.
68. Omów metody grupowania danych.
start learning
klastr., obejmują k-means, które dzieli dane na k klastrów wg odległości, DBSCAN wykrywające skupiska o różnej gęstości przestrzennej. Wszystkie odkrywają struktury bez etykiet.
69. Omów metody analizy danych transakcyjnych.
start learning
reguły asocjacyjne (Apriori, FP-Growth) wykrywające współwyst. produktów, analizę koszykową do rekomendacji, segmentację klientów oraz detekcję anomalii identyfikującą nietypowe lub podejrzane transakcje.
70. Omów metody konstrukcji tablic trwania życia oraz podaj przykłady ich wykorzystania.
start learning
kohortowe (rzecz. i na przestrzeni) lub przekrojowe(jeden okres), obliczając pr-stwa zgonu i przeżycia w kolejnych okresach. Stosuje się je w demografii, ubezpieczeniach, medycynie i analizie ryzyka do prognozowania dł. życia.
71. Porównaj modele nieparametryczne i modele parametryczne analizy czasu trwania.
start learning
nieparam. (np. Kaplan–Meier) nie zakładają kształtu rozkładu czasu trwania i są elastyczne. Modele param. (Weibull) zakładają konkretny rozkład, co daje większą precyzję i możliwość ekstrapolacji. Różnią się więc założ. i zakresem zastosowań.
72. Scharakteryzuj modele proporcjonalnych hazardów oraz podaj przykłady takich modeli.
start learning
m. prop. hazard. zakładają, że zm. obj. wpływ. na ryzyko przez st. mnożnik, a kształt f-cji hazardu jest skalowalny. Stos. ryzyka m. 2 jedn. niezm. niezal. od momentu zd. Najpop. model Coxa, a param. odpowiedniki to m.in. model Weibulla. ACT
73. Scharakteryzuj modele przyspieszonej porażki oraz podaj przykłady takich modeli.
start learning
M. przyspieszonej porażki (AFT) opisują wpływ zm. jako przyspieszanie lub opóźnianie czasu do zd.-działają więc na osi czasu, nie na hazardzie. Przykłady to modele log-normalne, Weibulla AFT i log-logisticzne, stosowane m.in. w niezawodności i medycynie.
74. Scharakteryzuj modele semiparametryczne analizy czasu trwania.
start learning
m. semiparam łączą część param i nieparam. W analizie czasu trwania głównym przykładem jest model Coxa, gdzie wpływ zm. opisuje część param., a bazowy hazard pozostaje nieokr. Zapewnia elastyczność bez silnych założeń o rozkł.
75. Wymień różnice pomiędzy podejściem klasycznym a bayesowskim w kontekście estymacji parametrów modeli analizy czasu trwania.
start learning
Klasyczne podejście estymuje param. wyłącznie na podst. danych i daje pkt wyniki. Bayesowskie łączy dane z wcześniejszą wiedzą (priory), zwraca rozkł. a nie pkt oraz umożliwia pełne ujęcie niepewności. Różnią się więc interpretacją i sp. estymacji.
76. Omów modele ryzyk konkurencyjnych w analizie czasu trwania.
start learning
M. ryzyk konkurencyjnych opisują sytuacje, gdy kilka typów zd. może zakończyć czas trwania, a wyst. jednego uniemożliwia inne. Stosuje się f-cje hazardów specyficznych dla przyczyn i modele Fine-Gray, aby szacować wpływ zm. na poszczególne ryzyka.
77. Omów ideę metod Monte Carlo bazujących na łańcuchach Markowa (MCMC) w kontekście estymacji parametrów modeli analizy czasu trwania.
start learning
MCMC służy do estymacji parametrów modeli bez określonego rozkładu pr-stwa, losuje wiele kolejnych kroków (akc/odrz) tak że każdy krok zależy tylko od poprzedniego (tworzy łańcuch), z czasem mamy pożądany rozkład
78. Jakość danych w analizach biznesowych. Znaczenie i metody oceny.
start learning
-dec. o wiarygodności analiz. -Ocenia się ją przez kompletność, spójność, dokładność, aktualność i unikalność. Met. obejmują profile danych, reg. walidacji, wykrywanie duplikatów, spr źródeł oraz monitor. błędów, co zapewnia rzetelne decyzje biznesowe.
79. Imputacja danych. Istota i znaczenie.
start learning
uzupełnianie brak. wartości w zb, aby umożliwić poprawną analizę. Zapobiega utracie inf. i zniekształceniu wyników. Może być prosta (średnia, mediana) lub zaawansowana (KNN, MICE). Jej celem jest zwiększ. jakości i wiarygodności modeli.
80. Imputacja wielokrotna: opis metody wybór modelu do imputacji oraz estymacja parametrów
start learning
tworzy kilka wersji danych z różnymi uzupeł. braków, by odzwierciedlić niepewność. Model imputacji dobiera się do typu zm. (np. regresja, logit, drzewa). Param. estymuje się osobno dla każdej wersji, a wyniki łączy reg Rubina.
81. Porównaj modele z efektami stałymi oraz modele z efektami losowymi. Przedstaw podstawowe różnice i zastosowania obu typów modeli.
start learning
m. z ef. stałymi kontrolują wpływ jedn. poprzez stałe param., skupiając się na różnicach w obrębie jedn.Ef. losowe traktują zróżnicowanie jako losowe i uogólniają wyniki na populację. 1 są b. restrykcyjne, 2 elastyczniejsze i wymagają mniej param.
82. Regresja kwantylowa: opis i zastosowania w analityce biznesowej.
start learning
modeluje wybrane kwantyle zm zależnej, np. medianę lub 90. percentyl, zamiast średniej. Umożliwia analizę ef. w całym rozkładzie wyników. W biznesie służy m.in. do oceny ryzyka, prognoz skrajnych wart., wyceny nieruchomości i optym. kosztów.
83. Regresja adaptacyjna: model opis estymacji i zastosowania w analityce biznesowej.
start learning
MARS- buduje model z lokalnych f-cji bazowych, dopasowując się do nieliniowych zal. Estymacja odbywa się w 2 krokach: dodawanie i przycinanie f-cji. W biznesie służy do prognoz, segmentacji i model. złożonych relacji.
84. Metoda k-średnich i jej zastosowanie w ocenie wartości klienta w czasie CLV.
start learning
K-średnich grupuje klientów w klastry o podobnych cechach, min. odległość od centroidów. W analizie CLV pozwala wydzielić segm. o różnej wart. życiowej klienta, identyfikować grupy wysokomarżowe, przewidywać zachowania i wspierać personalizację ofert.
85. Wymień i omów zastosowania biznesowe modeli oceny wartości klienta w czasie CLV.
start learning
wspierają segm. klientów, przewidywanie ich przyszłej wart, opt. budżetu marketingowego, personalizację ofert, identyfikację klientów wysokiego ryzyka odejścia oraz decyzje dotyczące retencji i akwizycji. Pozwalają zwiększać marżę i lojalność.
86. Jakie statystyki opisowe są odporne na wartości nietypowe?
start learning
-mediana, moda, rozstęp międzykwartylowy
87. Jakie statystyki opisowe należy stosować w przypadku prób pobranych z populacji o rozkładzie innym niż rozkład normalny?
start learning
-mediana, moda, rozstęp międzykwartylowy, miary pozycyjne, wskaźniki asymetrii(dodatnia-wydłużony ogon po prawej stronie) i kurtozy(koncentracja danych wokół średniej i obecność wartości skrajnych)
88. Omów trzy elementy bezpieczeństwa informacji: Poufność, Integralność, Dostępność
start learning
Poufność chroni dane przed nieuprawnionym dost., integralność zapewnia ich poprawność i nienaruszalność, a dostępność gwarantuje, że uprawnieni użytk. mogą z nich korzystać wtedy, gdy potrzebują. Razem tworzą podst. bezpiecznego przetwarzania inf.
89. Co to jest Spear Phishing (ukierunkowany atak na osobę lub organizację)?
start learning
atak, w którym cyberprzestępca podszywa się pod zaufaną osobę/inst., używając spersonalizowanych inf. o ofierze. Celem jest wyłudzenie danych, pieniędzy lub dost. do systemów. Ataki są precyzyjne i trudniejsze do wykrycia niż zwykły phishing.
90. Przedstaw podstawowe zasady cyberbezpieczeństwa dla MŚP (Małe i Średnie Przedsiębiorstwa)
start learning
-silne i unikalne hasła, - MFA(uwierzytelnianie wieloskł.), -regularne aktualizacje,-szkolenie pracowników z cyberbezp.,-kopie zapasowe danych,-antywirusy, firewall,-polityka bezpieczeństwa i planu awaryjnego
91. Na czym polega interpretacja języka programowania, podaj przykłady języków interpretowalnych oraz kilka różnych interpretatorów
start learning
polega na wyk. kodu linijka po linijce przez interpreter bez wcześniejszej kompilacji. Przykłady języków: Python, JavaScript, Ruby, PHP. Przykłady interpreterów: CPython, Node. js, Ruby MRI, PHP Engine, Lua Interpreter. Dzięki temu kod działa od razu.
92. Omów sposób instalacji i zarządzania bibliotekami (pakietami) w środowisku języka Python, podaj przykłady popularnych bibliotek
start learning
PIP package, instalowane z poziomu terminala, BIBLIOTEKI:-numpy (obliczenia mat), -pandas(analiza danych),-matplotlib(wizualizacja), -scikit-learn(uczenie maszynowe), -TensorFlow(sieci neuronowe)
93. Omów techniki iterowania na przykładzie wybranego języka programowania, np. R, Python
start learning
- for loop(do przeglądania list),-while loop(operacje aż do spełniania warunków),-enumerate(iterowanie z jednoczesnym dostępem do indeksu),-list comprehension (nowe listy za pomocą składni iteracyjnej),-zip(równoległa iteracja po wielu kolekcjach)
94. Omów koncepcję funkcji oraz zakresu ważności zmiennych na przykładzie wybranego języka programowania, np. R, Python
start learning
f-cja to blok kodu wykonujący zadanie i przyjmujący arg. Zakres zm. obejmuje zm lokalne (widoczne tylko w f-cji) i globalne (dostępne w całym programie). F-cja tworzy własny scope, co zapobiega kolizjom nazw i ułatwia modularność.
95. Co to jest silnik decyzyjny? Wymień reguły procesu akceptacji kredytowej implementowane w silniku decyzyjnym.
start learning
system automatyzujący podejm. decyzji na podst. zestawu reguł. W akceptacji kredytowej stosuje się reguły: scoring, weryfikacja dochodu, historii BIK, zadłużenia, limitów DTI, wieku, zatrudnienia, celu kredytu oraz blacklist/whitelist.
96. Omów pojęcia związane z przygotowaniem danych i zdarzeniem modelowym: punkt obserwacji, okres danych i okres obserwacji, wymień najczęstsze błędy modelowania (np. wzięcie danych z przyszłości) i problemy z doborem długości obu okresów.
start learning
to moment tworz. cech; okr danych to czas, z którego je liczymy, a okr obserwacji to czas na ocenę zd. Błędy: użycie danych z przyszłości, zbyt krótkie okna, niestabilność cech. Problemem jest dobranie okien tak, by oddawały realne zachowania.
97. Omów przykładową kartę scoringową. Jak wyznacza się punkty cząstkowe? Jak interpretuje się kartę scoringową?
start learning
narzędzie na regresji log., pkty w zależności od cech klienta, obl. z wag modelu (WOE). Wynik klienta ozn. pr-stwo spłaty zob. Wyższy score ozn niższe ryzyko. Kartę interpretuje się przez progi akc., odrzuceń i segmenty ryzyka.
98. W jaki sposób obliczana jest opłacalność procesu akceptacji kredytowej? Jaką rolę w tym odgrywa model scoringowy?
start learning
ocenia się poprzez porównanie przychodów (odsetki, prowizje) z kosztami ryzyka i stratami z defaultów. Model scoringowy szacuje pr-stwo niewypłacalności, pozwala ustalić progi akceptacji i optymalnie dobrać klientów, max zysk portfela.
99. Co to jest analiza wpływu wniosków odrzuconych (Reject Inference)?
start learning
tech. szac. ryzyka klientów odrz. w proc. kredyt., aby ogr. bias w modelu spr. pr-stwo czy byłby dobrym/złym klientem nie znając ich później. zach., stosuje się met. imputacji do obec. już modelu, by popr. jakość scoringu i decyzji akcept.
100. Omów wpływ ludzkiego czynnika na proces akceptacji kredytowej, czy można zwiększyć sprzedaż i zmniejszyć ryzyko kredytowe jednocześnie?
start learning
Ludzki czynnik wpływa na błędy, odstęp. od reguł i niekonsekwencję decyzji. Automat. i scoring ogr. te ryzyka. Lepsze modele, segment. i opt. progi akcept. pozwalają zwięk. sprzedaż i zmn. ryzyko, kierując ofertę do właśc. klientów.

You must sign in to write a comment