Friday, 6 January 2017

Hadoop Handelssystem

Im, das lustiges Lernen über Hadoop und die verschiedenen Projekte um ihn hat und gegenwärtig 2 verschiedene Strategien Im denkend über zum Aufbau eines Systems, zum einer großen Ansammlung der Markttickdaten zu speichern, Im gerade erst begonnen mit HadoopHDSF und HBase aber hoffend, dass jemand mir helfen kann Pflanze ein System Saatgut, dass ich nicht haben, um Junk später mit diesen Technologien. Unten ist ein Überblick über mein System und Anforderungen mit einigen Abfrage-und Datennutzung Anwendungsfälle und zuletzt meine aktuellen Denken über den besten Ansatz aus der kleinen Dokumentation habe ich gelesen. Es ist eine offene Frage und Ill gern wie jede Antwort, die aufschlussreich ist und akzeptieren die beste, fühlen sich frei, zu einem oder allen der Punkte unten kommentieren. - Duncan Krebs Systemvoraussetzungen - In der Lage sein, den Datenspeicher für historische Back-Tests von Systemen, historische Daten Charting und zukünftige Data Mining nutzen. Sobald sie gespeichert sind, sind die Daten immer schreibgeschützt, ein schneller Datenzugriff ist erwünscht, aber kein Muss beim Zurücktesten. Statisches Schema - Sehr einfach, möchte ich 3 Arten von Nachrichten aus dem Feed zu erfassen: Timestamp einschließlich Datum, Tag, Zeit Quote einschließlich Symbol, Zeitstempel, fragen, askSize, Gebot, BidSize, Volumen. (Ungefähr 40 Spalten von Daten) Handel einschließlich Symbol, Zeitstempel, Preis, Größe, Austausch. (Über 20 Spalten von Daten) Data Insert Use Cases - entweder aus einem Live-Markt Strom von Daten oder Lookup über Broker API Data Query Use Cases - Nachstehend wird gezeigt, wie ich meine Daten logisch abfragen möchte. Erhalten Sie mir alle Zitate, Trades, Timestamps für GOOG auf 9222014 Holen Sie mich alle Trades für GOOG, FB vor 912014 UND NACH 512014 Holen Sie sich die Anzahl der Trades für diese 50 Symbole für jeden Tag in den letzten 90 Tagen. Der Heilige Gral - Kann MapReduce für Anwendungsfälle wie diese unten verwendet werden. Erzeugen von Metadaten aus den Rohdaten über verteilte Agenten. Beispiel: Schreiben Sie einen Job, der das durchschnittliche Handelsvolumen in einem Intervall von 1 Minute für alle Bestände und alle in der Datenbank gespeicherten Sitzungen berechnet. Erstellen Sie den Job, um einen Agenten für jede Aktie zu haben, die ich sage, welche Aktie und Session dieser Wert für diesen Wert berechnen soll. (Ist dies, was MapReduce tun kann.) Auf dem Klassenpfad der Agenten kann ich meinen eigenen Benutzungscode hinzufügen, damit der obige Anwendungsfall zB seinen Wert in ein zentrales Repo oder einen Messaging-Server veröffentlichen kann Ich kann einen Agenten als OSGI-Bundle bereitstellen Erstellen Sie verschiedene Arten von Agenten für verschiedene Arten von Metriken und Scores, die ausgeführt werden jeden Morgen vor dem Pre-Market-Handel Hochfrequenz-Trading Im auch interessiert, wenn jemand kann einige Erfahrungen mit Hadoop im Rahmen der Hochfrequenz-Handelssysteme zu teilen. Nur bekommen in diese Technologie mein ursprünglicher Sinn ist Hadoop kann für die Speicherung und Verarbeitung großer Mengen von historischen Tick-Daten groß sein, wenn jemand diese für Echtzeit-Handel nutzt. Ich bin daran interessiert, mehr zu lernen - Duncan Krebs Nach meinem Verständnis von Ihren Anforderungen , Wäre Hadoop wirklich gute Lösung, um Ihre Daten zu speichern und führen Sie Ihre Abfragen auf sie mit Hive. Speicherung: Sie können die Daten in Hadoop in einer Verzeichnisstruktur speichern wie: Innerhalb des Stundenordners können die Daten zu dieser Stunde des Tages liegen. Ein Vorteil der Verwendung einer solchen Struktur ist, dass Sie externe Tabellen in Hive über diese Daten mit Ihren Partitionen auf Jahre, Monate, Tage und Stunden erstellen können. Etwas wie folgt: Kommen Sie zu den Abfragen Teil, sobald Sie die Daten im oben genannten Format gespeichert haben, können Sie problemlos einfache Abfragen. Holen Sie mich alle Zitate, Trades, Timestamps für GOOG auf 9222014 Holen Sie mich alle Trades für GOOG, FB vor 912014 und nach 512014 Sie können alle solche Aggregation Abfragen einmal an einem Tag und verwenden Sie die Ausgabe zu kommen mit den Metriken vor Pre-Market Handel. Da Hive intern führt mapreduce diese Abfragen werden nicht sehr schnell. Um schnellere Ergebnisse zu erhalten, können Sie einige der Speicher-Projekte wie Impala oder Spark. Ich habe mich Impala verwendet, um Abfragen auf meinem Bienenstock Tabellen laufen und ich habe eine wesentliche Verbesserung der Laufzeit für meine Fragen (rund 40x) gesehen. Auch Sie wouldnt Notwendigkeit, irgendwelche Änderungen an der Struktur der Daten vorzunehmen. Daten Einsatz Anwendungsfälle. Sie können Werkzeuge wie Flume oder Kafka für das Einfügen von Daten in Echtzeit auf Hadoop (und damit auf die Bienenstock-Tabellen) verwenden. Flume ist linear skalierbar und kann auch bei der Verarbeitung von Ereignissen bei der Übertragung helfen. Insgesamt kann eine Kombination von mehreren großen Datentechnologien eine wirklich anständige Lösung für das von Ihnen vorgeschlagene Problem darstellen, und diese Lösung würde auf riesige Datenmengen skalieren. Die Hadoop-basierte Plattform TickSmith ist mit ihrer TickVault-Plattform auf der Grundlage der Hadoop-Technologie führend Big Data-Anwendungen für das Brokerage-Ökosystem und Finanzdienstleistungen. Die Plattform dient der Datenzentrierung und - verteilung, Marktüberwachung, Risikomanagement, Strategiefindung und - analyse. Es ist ideal für Handels - und Risikogruppen, Regulierungsbehörden, Börsen und Datenanbieter, die größere Mengen von Finanzdaten aus verschiedenen Quellen akkumulieren, transformieren, analysieren und verbreiten müssen. Hauptmerkmale Optimiert für das Management historischer Handels - und Angebotsdaten, Nachrichten und Ereignisse Leistungsstarke Verarbeitung, Analytik, Transformation und Normalisierung Einfache Bereitstellung von Daten und Berichten intern und extern über APIs, WEB-Schnittstellen und Dashboards Arbeiten mit Terabytes und Petabyte an Daten, insbesondere Handelsgeschichte , Sollte einfach sein Die Plattform, die auf der Hadoop-Technologie basiert, wurde entwickelt, um die interne Projektentwicklung und das Management von Daten durch die Bereitstellung von APIs zu beschleunigen und mit vorhandenen betriebswirtschaftlichen Tools wie Matlab, R, Excel usw. zu verknüpfen Zugang und Verteilung. Alle Zugriffe sind durch Berechtigungsmodule gesichert, die eine feinkörnige Berechtigung ermöglichen. Die Plattform verwaltet sowohl strukturierte als auch unstrukturierte Daten, einschließlich Exchange-Amp-Tickdaten, Referenzdaten, FIX-Meldungen, Back-Office-Daten, finanzielle Medieninhalte, PDFs, Zeitreihen, Aussagen und vieles mehr. Als Komplettlösung geliefert, kann die Plattform zu bestehenden Hadoop-Clustern hinzugefügt werden. Es ist auch als Service verfügbar und wird als Gerät geliefert, das alle Hardware umfasst. TickVault auf Amazon Web Service Fallstudie erklärt, wie National Bank of Canada erfolgreich eingesetzt TickVault-Plattform in AWS zu analysieren Hunderte von Terabytes von Handels-und Angebotsdaten. Lesen Sie vollständige Fallstudie quotWe haben schnellere und bessere Post-Trade-Analyse-Funktionen mit TickVault und AWS. Pascal Bergeron, Direktor von Algorithmic Trading Industry Solutions Aktuelle Nachrichten 19. Dezember 2016 Comments Off auf TickVault Financial Big Data Management-Plattform Kompatibel mit Thomson Reuters Tick History Montreal, 20. Dezember 2016 - TickSmiths TickVault Platform ist jetzt kompatibel mit Thomson Reuters Tick History und bietet der Buy-Side-Community eine interne Lösung, um diese Daten in ihrer Gesamtheit über eine einzige Schnittstelle zu verwalten. . 6. Dezember 2016 Kommentiert am 9. Dezember 2016 MiFiD II Webinar mit Cloudera und TickSmith MiFiD II Best Execution Compliance Webinar Melden Sie sich hier an MiFiD II-Verordnung auf dem Horizont bedeutet, dass Finanzorganisationen die Anforderungen bis zum 3. Januar 2018 einhalten müssen Scheinen eine lange zu sein. 19. Oktober 2016 Kommentare zu CME Group arbeitet mit TickSmith zusammen, um kundenfreundlichen Zugriff auf historische Daten zu ermöglichen TickVault optimiert die Verteilung von 450 Terabyte historischer Daten von CME DataMine CHICAGO und MONTREAL, 19. Oktober 2016 CME Group, weltweit führend und vielfältig Derivate-Markt, und TickSmith, ein Führer in Big. Juli 11th, 2016 Comments Off auf TickSmith fügt File Inventory-Modul zu seiner preisgekrönten Data Management Platform Neue Funktionalität vereinfacht die Verwaltung und Verteilung von Millionen von Dateien für Finanzinstitute einschließlich Hedge-Fonds, Banken, Händler und Börsen. MONTREAL 11. Juli 2016 TickSmiths TickVault Platform wurde mit File Inventory erweitert. Inside Story Die Akkumulation und die Arbeit mit wachsenden Skalen Finanzdaten, vor allem Handel und Zitat Geschichte, erwies sich als problematisch für unsere Global Equities Derivative Group. Traditionelle Technologien und relationale Datenbanken konnten nicht mithalten. Die Nachfrage nach historischen Marktdaten hat zugenommen, da unser Marktanteil gewachsen ist. TickSmiths-Plattform bietet Kunden Zugang zu unseren historischen Handelsdaten sowie eine leistungsstarke Reihe von Berichten und Analysen. Mit der Einführung unserer erweiterten Web-Brokerage-Plattform wollten wir die Datenvisualisierung, Intra-Day-Charting und Portfolio-Ansichten verbessern. TickSmith hat dazu beigetragen, diese Operation zu rationalisieren und erlaubt uns, mehr Funktionalität zu unserer Plattform hinzufügen. Oktober 10, 2009 MapReduce ist definitiv gewinnen Traktion, vor allem aber Keineswegs nur in Form von Hadoop. In der Folge von Hadoop World. Jeff Hammerbacher von Cloudera ging schnell durch 25 Kunden, die er aus Cloudera8217s Dateien zog. Fakten und Metriken reichten weit, natürlich: Einige sind in der schweren Produktion mit Hadoop, und eng mit Cloudera engagiert. Andere sind aktive Hadoop Benutzer, sind aber sehr geheimnisvoll. Noch andere haben sich für die erste Hadoop-Training letzte Woche. Einige haben Hadoop-Cluster in den Tausenden von Knoten. Viele haben Hadoop-Cluster im Bereich von 50-100 Knoten. Andere sind nur Prototyping Hadoop verwenden. Und man scheint 8220OEMing8221 eine kleine Hadoop-Cluster in jedem Stück Ausrüstung verkauft werden. Viele Exportdaten von Hadoop zu einem relationalen DBMS viele andere lassen es einfach in HDFS (Hadoop Distributed File System), z. Mit Hive als Abfragesprache oder in genau einem Fall Jaql. Einige sind Haushaltsnamen, in Web-Unternehmen oder auf andere Weise. Andere scheinen ziemlich dunkel zu sein. Industrien umfassen Finanzdienstleistungen, Telekommunikation (nur Asien und ganz neu), Bioinformatik (und andere Forschung), Intelligenz und viele Web-andor advertisingmedia. Die Anwendungsgebiete 8212 und diese überschneiden sich in einigen Fällen 8212: Log-andor-Clickstreamanalyse verschiedener Arten Marketinganalyse Maschinelles Lernen und anspruchsvolles Data Mining Bildverarbeitung Verarbeitung von XML-Meldungen Webcrawling und Textverarbeitung Allgemeine Archivierung, einschließlich der relationalen Daten, z. B. Für Compliance Wir gingen über diese Liste so schnell, dass wir didn8217t gehen in viel Detail auf jedem einzelnen Benutzer. Aber ein Beispiel, das herausfand, war von einer Anzeigenlieferungsfirma, die eine 8220aggregation Pipeline hatte8221, die aus 70-80 MapReduce Jobs besteht. Ich habe auch gestern wieder mit Omer Trajman von Vertica gesprochen, der mich überrascht hat, dass ich mit einer hohen einstelligen Anzahl von Vertica8217-Kunden in der Produktion mit Hadoop 8212, also über 10 Vertica8217s Produktionskunden, produziert habe. (Vertica vor kurzem seinen hundertsten Verkauf, und natürlich nicht alle, die Käufer in der Produktion noch sind.) VerticaHadoop Nutzung scheint in Vertica8217s Finanzdienstleistungshochburg 8212 speziell im Finanzhandel 8212 mit Web-Analytics und dergleichen kommen auf danach begonnen haben. Auf Basis aktueller Prototypenbemühungen erwartet Omer, dass die Bioinformatik der dritte Produktionsmarkt für VerticaHadoop sein wird. Überraschenderweise scheint das allgemeine VerticaHadoop-Nutzungsmodell zu sein: Tun Sie etwas zu den Daten in Hadoop Dump es in Vertica abgefragt zu werden Was ich überrascht fand, dass die Daten oft nicht durch diese Analyse reduziert werden, sondern in der Größe explodiert. Z. B. Ein kompletter Speicher von Hypothekenhandel Daten könnte ein paar Terabytes in der Größe sein, aber Hadoop-basierte Post-Verarbeitung kann, dass um 1 oder 2 Größenordnungen zu erhöhen. (Analogie zur Bedeutung und Größe von 8220cooked8221 Daten in der wissenschaftlichen Datenverarbeitung kommen in den Sinn.) Und schließlich sprach ich mit Aster vor ein paar Tagen über die Verwendung seiner nClusterHadoop-Anschluss. Aster charakterisiert AsterHadoop users8217 Hadoop-Nutzung als von der batchETL-Variante, die der klassische Anwendungsfall ist, räumt man Hadoop ein, auch wenn man glaubt, dass MapReduce gemeinhin direkt im DBMS durchgeführt werden sollte. Abonnieren Sie unseren vollständigen Feed 9 Responses to 8220Wie 30 Unternehmen verwenden Hadoop8221 Vlad am 11. Oktober 2009 3:34 Ich habe einige Berechnungen auf der Grundlage der Daten öffentlich zugänglich im Internet. Der berühmte Yahoo Terasort Datensatz 8211 Sortierung 1 TB Daten (tatsächlich 10 Milliarden 100 Bytes Datensatz) auf einem Hadoop 3400 Server-Cluster in 60 Sekunden. Ich werde die Berechnungsdetails weglassen, aber die durchschnittliche CPU. IO - und Netzwerk-IO-Nutzung während des Laufs waren: 1, 5-6 bzw. 30. Dies sind nicht die genauen Zahlen, sondern die Schätzungen basierend auf dem verwendeten Sortieralgorithmus, der Konfiguration des Clusters, der Server-CPUs, der maximalen NIC-Durchsatzleistung (1Gb) und der 4 SATA-Festplattenanordnung-IO-Fähigkeit. Also, der Engpass ist definitiv Netzwerk (ich denke, es ist nicht nur für die Sortierung, sondern für viele andere Probleme). Aber es scheint, dass entweder Yahoo-Cluster suboptimal aus der Sicht der maximalen anhaltenden Durchsatz oder Hadoop kann nicht sättigen 1GB-Link. OK, können wir uns vorstellen, dass wir nicht verwenden Rohstoff-Hardware, sondern mehr optimierte Server und Netzwerk-Konfigurationen. Wie wäre es mit 2 10Gb Port NIC pro Server und 128 8211 Port 10GB Switch. Nur einer. Durch die Erhöhung des Netzwerkdurchsatzes von 30MBs auf 2GBs (2MB 10Gb Port NIC pro Server) können wir die Anzahl der Server in einem Cluster um den Faktor 70 (50 Server) senken und immer noch 60 Sekunden halten. Ist es möglich, 2GB pro Sekunde (20 Millionen 100 Bytes Datensätze) auf einem Server zu sortieren. Sicher ist es das. Yahoo-Cluster kostet etwa 7 Millionen. Ich kann meinen Cluster für weniger als 1 Million bauen und wir sprechen nicht über Energieverbrauch und andere verbundene Kosten. MapReduce und Rohstoff-Hardware gewonnen8217t sparen Sie Geld. Kaufen Sie nicht billig. Curt, wissen Sie, wie viele dieser V-Kunden sind 8220in die cloud8221 (dh: they8217re läuft auf V AMIs in EC2) und wie viele von denen sind in diesem 10 oder so Sie erwähnen Vlad am 11. Oktober 2009 10:40 UhrMapReduce ist Stark gefördert, aus irgendeinem Grund, von Yahoo und Facebook, aber nicht von Google. Google (und Microsoft) haben bereits nächste Generation 8220Hadoops8221 (Pregel und Dryad), aber sie sind noch nicht verfügbar für die allgemeine Öffentlichkeit und nicht open-sourced entwickelt. Sogar Informationen über Pregel sind begrenzt. Für mich erinnert die Situation die Sowjetunion Mitte der späten 80er Jahre. Soweit es nicht möglich war, eigene Supercomputer zu schaffen, versuchten die Sowjets Amerikaner (Cray usw.) umzukehren. Du kannst reproduzieren, was bereits geschehen ist, aber du bist immer dahinter. UPD. Dryad kann von MS-Website, sondern nur für akademische Forschung heruntergeladen werden. RC on October 12th, 2009 3:46 amIs Dryad viel besser als Hadoop Wenn ja, was sind die Verbesserungen Vlad am October 12th, 2009 3:53 pmRC Von Dryad Whitepaper: 8220Die grundlegende Unterschied zwischen den beiden Systemen (Dryad und MapReduce) ist, dass Kann eine Dryad-Anwendung eine beliebige Kommunikations-DAG spezifizieren, anstatt eine Sequenz von Kartenverteilungsreduktionsoperationen zu erfordern. Insbesondere können Graphenscheitel mehrere Eingänge konsumieren und mehrere Ausgänge verschiedener Typen erzeugen. Für viele Anwendungen vereinfacht dies die Abbildung von Algorithmus zu Implementierung, lässt uns auf einer größeren Bibliothek von grundlegenden Unterroutinen aufbauen und zusammen mit der Fähigkeit, TCP-Pipes und Shared-Memory für Datenränder zu nutzen, erhebliche Leistungssteigerungen bringen. Gleichzeitig ist unsere Implementierung allgemein genug, um alle im MapReduce-Papier beschriebenen Funktionen zu unterstützen.8221 Andrew S am 19. Oktober 2009 19:54 UhrVlad, der Unterschied ist, dass die Sowjets keine Open Source hinter sich haben. Ein häufigeres Muster in der jüngsten Geschichte war: 1. Proprietäre Software-Lösung kommt 2. Eine gute Open-Source-Lösung mit ähnlichen Fähigkeiten kommt später heraus. 3. Open-Source-Lösung gewinnt große Backer, Top-Entwickler, Spitzentechnologie-Unternehmen, führende Wissenschaftler 4. Open-Source-Lösung Eklipse proprietäre Lösung im Einsatz wegen der einfachen Verfügbarkeit und Dokumentation 5. Proprietäre Lösung stirbt aus, weil es gewinnbringend, um zu öffnen Source-Lösung. Hadoop ist irgendwo in (3) und teilweise in (4). 8230 Nichts davon ist unvereinbar mit früheren Umfragen von Hadoop-Use Cases. 8230 8230 Bank of Americas Geschäftsführer für große Daten-und Analytics. Bereits vor einem Jahr zeigte Vertica an, dass rund 10 Prozent der Kunden mit Hadoop ein Trend unter den Finanzdienstleistungskunden produzieren. On the 8230 Search unsere Blogs und White Papers Monash Research Blogs DBMS 2 umfasst Datenbank-Management, Analytics und verwandte Technologien. Text Technologies umfasst Text-Mining, Suche und soziale Software. Strategic Messaging analysiert Marketing und Messaging-Strategie. Der Monash-Bericht untersucht Technologien und politische Fragen. Software Memories erzählt die Geschichte der Software-Industrie. Benutzerberatung Aufbau einer kurzen Liste Optimierung Ihres strategischen Plans Wir können helfen. Lieferantenberatung Wir sagen Vendoren, was passiert - und, was noch wichtiger ist, was sie dagegen tun sollten. Monash Forschung Highlights


No comments:

Post a Comment