Loading…
Thumbnail Image

Analysis of New Trends in the Web from a Network Perspective

Schneider, Fabian

In den letzten fünf Jahren haben verschiedene Trends die Landschaft des World Wide Web hin zum ”Web 2.0“ verändert. Das Aufkommen von Inhalten, die von den Benutzern selbst erzeugt werden (engl. user generated content, z. B. in Blogs und Wikis), die Beliebtheit von Videos und Musik (z. B. in YouTube und MySpace) und die Verbreitung von Googles Diensten (z. B. Google Maps oder Google Mail) sind allgemein bemerkbar. Gerade die aktuell sehr große Beliebtheit sozialer Netze im Internet (engl. Online Social Networks, OSN), wie Facebook oder StudiVZ, verursacht einen grundlegenden Wechsel in der Art, wie das Internet genutzt wird. Zum Beispiel benutzen einige OSN-Nutzer nur noch das OSN-interne Nachrichten-System anstatt E-Mail. Dies motiviert uns, die Nutzung dieser Trends zu untersuchen und deren Auswirkungen auf den Netzverkehr zu bestimmen. Wir beginnen mit einer Untersuchung verschiedener Web-2.0-Anwendungen und vergleichen die Charakteristiken des Web-2.0-Verkehrs mit allgemeinem HTTP-Ver- kehr. Als Anwendungen haben wir Google Maps, zwei Web-basierte E-Mail Dienste und ein OSN gewählt, die AJAX nutzen. Der Vergleich mit dem umgebenden HTTP-Verkehr hebt die Veränderung der Nutzung eines der populärsten Protokolle des Internet, nämlich des World Wide Web, hervor. Unsere Ergebnisse zeigen, dass Web-2.0-Anwendungen neue HTTP-Verkehrsstrukturen verursachen, die sich vom konventionellem HTTP-Anfrage-Antwort-Modell unterscheiden. Asynchrones Laden von Daten, die später nur vielleicht benötigt werden, erlaubt eine flüssige Benutzung der Dienste. Dies wird durch kleine JavaScript-Programme erreicht, die im Browser ausgeführt werden. Verbindungen von AJAX-Anwendungen übertragen mehr Daten, dauern länger und verursachen öfter höhere Verkehrsspitzen. Danach untersuchen wir OSNs, motiviert durch die große Anzahl – eine halbe Milliarde – ihrer Benutzer. Trotz der hohen Nutzerzahlen ist unser Wissen darüber, welche OSN-Funktionen Benutzer faszinieren und deren Interesse erhalten, sehr beschränkt. Bislang waren Studien hierzu auf Umfragen und Befragungen beschränkt oder haben sich auf statistische Eigenschaften wie Freundschaftsgraphen bezogen. In dieser Arbeit ermitteln wir die tatsächliche Nutzung von OSNs durch Extraktion der HTTP-Anfrage- und -Antwortsequenzen aus passiven Aufzeichnungen des Netzverkehrs. Wir analysieren für vier OSNs (Facebook, LinkendIn, Hi5 und StudiVZ) die Beliebtheit ihrer OSN-Funktionen, die Eigenschaften der OSN-Sitzungen, sowie die Aktivität innerhalb von Sitzungen. Unsere Ergebnisse zeigen, dass Benutzer ungefähr eine halbe Stunde online sind, aber nur wenig Datenvolumen verursachen. Daraufhin analysieren wir die Nutzung mobiler Geräte (z. B. des iPhones oder des Blackberrys), wenn diese zu Hause mittels DSL benutzt werden. In unseren Daten sehen wir fast ausschließlich iPhones und iPods, die auch für einen Großteil des Verkehrsvolumens verantwortlich sind. Die von diesen Geräten herunter geladenen Inhalte sind hauptsächlich Multimedia-Dateien oder mobile Anwendungen. Obwohl NNTP (das Network News Transfer Protocol) nur von einer kleinen Zahl Benutzer verwendet wird, werden darüber bis zu 5% des gesamten Verkehrsvolumens in Aggregationsnetzen von Breitbandkunden übertragen. Motiviert durch diese Erkenntnis wenden wir uns im Folgenden dem Usenet zu. Die meisten Verbindungen gehen zu Servern, die eine monatliche Gebühr für die Nutzung erheben. Des Weiteren sind 99 % der übertragenen Inhalte typische File-Sharing-Inhalte wie Archive und Multimedia-Dateien. Es scheint, dass NNTP eine leistungsfähige Alternative zu bisherigen P2P-File-Sharing-Optionen wie BitTorrent oder eDonkey ist. Unsere Analysen basieren auf anonymisierten Paketaufzeichnungen realen Internetverkehrs an verschiedenen Orten und verschiedener Benutzergruppen. Aus diesen Aufzeichnungen extrahieren wir Aktionen der Anwendungsprotokollebene, z. B. Aufbau einer neuen TCP-Verbindung oder Anfrage eines Objekts. Danach muss der gesamte Verkehr, der zu dem gerade untersuchten Trend gehört, bestimmt werden, um diesen mit dem restlichen Verkehr zu vergleichen. Dies erlaubt es vorherzusagen, welchen Einfluss die an- oder absteigende Beliebtheit eines Trends hat. Die Aufzeichnung von Paketen in Hochgeschwindigkeitsnetzen ist eine Herausforderung. Insbesondere, wenn dies mit normalen Hardwarekomponenten geschehen soll, müssen deren Leistungsgrenzen (Bus- oder Speicherbandbreite, Aufzeichnungsfunktionen des Betriebssystems usw.) identifiziert werden, um danach die richtigen Komponenten auszuwählen. Unsere Erfahrung zeigt, dass trotzdem meistens die Leistung nicht ausreichend ist. Daher schlagen wir verschiedene Möglichkeiten vor, die Analyselast zu verteilen oder zu reduzieren.
Over the last five years, several trends have changed the landscape of the World Wide Web, forming the new “Web 2.0”. The advent of user generated content (blogs and wikis), the popularity of multimedia (e. g., YouTube and MySpace), and the penetration of Google’s services (maps, mail, etc.) are commonly noticeable. In particular, the recent popularity of Online Social Networks (OSNs, e. g., Facebook and LinkedIn) has caused a fundamental change in how the Internet is used. For example, certain OSN users are only using the OSN internal messaging instead of email. This motivates us to examine the usage of these new Web trends and determine their impact on the network. First, we present a traffic study of several Web 2.0 applications including Google Maps, modern Web-based email, and social networking Websites, and compare their traffic characteristics with the ambient HTTP traffic. We highlight the key differences between Web 2.0 traffic and all HTTP traffic. As such, our work elucidates the changing face of one of the most popular applications on the Internet: The World Wide Web. We find that “Web 2.0” applications unleash new HTTP traffic patterns which differ from the conventional HTTP request-response model. In particular, asynchronous pre-fetching of data in order to provide a smooth Web browsing experience and richer HTTP payloads (e. g., JavaScript libraries) of Web 2.0 applications induce larger, heavier, and more bursty traffic on the underlying networks. Next, we focus on Online Social Networks. OSNs have already attracted more than half a billion users. However, our understanding of which OSN features attract and keep the attention of these users is poor. Studies thus far have relied on surveys or interviews of OSN users or focused on static properties, e. g., the friendship graph, gathered via sampled crawls. In this thesis, we study how users actually interact with OSNs by extracting anonymized clickstreams from passively monitored network traffic. Our characterization of user interactions within the OSN for four different OSNs (Facebook, LinkedIn, Hi5, and StudiVZ) focuses on feature popularity, session characteristics, and the dynamics within OSN sessions. We find, for example, that users commonly spend more than half an hour interacting with the OSN. Yet, the byte contributions per OSN session are relatively small. Subsequently, we look into mobile hand-held device (MHD) usage that is observed when such devices are used at home. Our characterization of the traffic shows that mobile Apple devices (i.e., iPhones and iPods) are, by a huge margin, the most commonly used MHDs and account for most of the traffic. We find that MHD traffic is dominated by multimedia content and downloads of mobile applications. Finally, inspired by the finding that Network News Transport Protocol (NNTP) traffic is responsible for up to 5% of residential network traffic we investigate today’s Usenet usage. We find that NNTP is intensively used by a small fraction of the residential broadband lines that we study and that almost all traffic is originated by NNTP servers that require a monthly fee subscription. The accessed content resembles what one might expect from file-sharing systems—archives and multimedia files. Accordingly, it appears that NNTP is used by some as a high performance alternative to traditional P2P file-sharing options such as eDonkey or BitTorrent. The analyses of this thesis are based on anonymized packet level recordings of real Internet traffic collected at different vantage points and from different user populations. From these recordings we extract traces of protocol events and activities (e. g., new TCP connections or application layer requests and responses). Next, all traffic related to a new trend is identified and then compared to the overall traffic. This allows us to predict the impact on the traffic in case these trends increase or decrease in popularity. Packet capture in high speed networks is challenging. Limitations (e.g., bus or memory bandwidth, OS capturing stack) prevent comprehensive packet capture in these environments. The endeavor to perform packet capture with commodity hardware requires us to identify and then overcome some of the performance limitations. Knowing the limitations, we propose several possibilities to split or reduce the analysis load.